Crawler - co to jest? Definicja i przewodnik

Crawler (Robot internetowy lub robot indeksujący) – jest to program, którego zadaniem jest zbieranie informacji o stronach internetowych, takich jak struktura, kod źródłowy czy treści.

Spis treści Zwiń

1 Crawler – nazwy stosowane wymiennie:

2 Roboty sieciowe mogą mieć różne przeznaczenie:

4 Najpopularniejsze SEO Crawlery

Crawler – nazwy stosowane wymiennie:

robot sieciowy
bot indeksujący
spider
web crawler
seo crawler

Roboty sieciowe mogą mieć różne przeznaczenie:

tworzenie bazy stron internetowych
zbieranie adresów email lub innych danych kontaktowych
monitorowanie działania strony internetowej
monitorowanie social media (sieci społecznościowe)
analizowanie linków przychodzących i wychodzących
poszukiwanie błędnych lub niedziałających linków
automatyczne dodawanie komentarzy
monitorowanie zmian na stronach
tworzenie kopii witryn internetowych
analizowanie stron pod kątem pozycjonowania oraz SEO

Crawler może zostać zaprogramowany do wykonywania dowolnego działania na stronach internetowych. W świecie SEO dwa najpopularniejsze typy crawlerów to boty indeksujące (np. Googlebot) oraz SEO crawlery (np. Screaming Frog).

Najpopularniejsze boty indeksujące (Web Crawlery)

Googlebot

Robot indeksujący używany przez Google. Tworzy indeks wyszukiwarki Google skanując strony internetowe, które odnajduje za pomocą odnośników (linków).

User-agent: Googlebot

Pełny user-agent:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36

Googlebot/2.1 (+http://www.google.com/bot.html)

Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Bingbot

Robot indeksujący, stworzony i używany przez Microsoft na potrzeby wyszukiwarki Bing. Analogicznie jak Googlebot, skanuje i indeksuje strony internetowe, poruszając się po nich za pomocą linków.

User-agent: Bingbot

Pełny user-agent:

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; http://www.bing.com/bingbot.htm)

Yandex Bot

Yandex Bot to crawler należący do największej rosyjskiej wyszukiwarki internetowej, Yandex.

User-agent: YandexBot

Pełny user-agent:

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Alexa Crawler

To web crawler należący do Alexa – internetowego rankingu stron firmy Amazon. Skanuje strony i pobiera informacje, dzięki którym tworzy lokalne oraz międzynarodowe rankingi witryn.

User-agent: ia_archiver

Pełny user-agent:

ia_archiver-web.archive.org

ia_archiver (+http://www.alexa.com/site/help/webmasters; [email protected])

Slurp Bot

Robot indeksujący należący do wyszukiwarki Yahoo. Indeks wyszukiwarki Yahoo jest zasilany także przez robota wyszukiwarki Bing (Bingbot).

User-agent: Slurp

Pełny user-agent:

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

DuckDuckBot

Crawler DuckDuckBot należy do wyszukiwarki DuckDuckGo, zyskującej w ostatnim czasie na popularności, dzięki dbaniu o prywatności użytkowników oraz brak mechanizmów śledzących.

User-agent: DuckDuckBot

Pełny user-agent:

DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)

Baiduspider

Baiduspider to oficjalna nazwa chińskiego crawlera należącego do wyszukiwarki Baidu. Skanuje strony internetowe i zasila indeks wiodącej w Chinach wyszukiwarki internetowej.

User-agent: Baiduspider

Pełny user-agent:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Najpopularniejsze SEO Crawlery

Screaming Frog SEO Spider

Najważniejsze funkcje:

odnajdywanie uszkodzonych linków
analiza przekierowań
analiza meta-tagów
ekstrakcja danych (xPath, regex)
odkrywanie zduplikowanych treści
analiza indeksacji
generowanie map witryn
integracja z Google Analytics
crawlowanie witryn opartych o JavaScript
wizualizacja architektury witryny

Sitebulb

Najważniejsze funkcje:

wizualizacja architektury witryny (mapa crawlu)
bogate raporty
skanowanie witryn opartych o JavaScript
analiza linków wewnętrznych
analiza indeksacji witryny
analiza linkowania wewnętrznego
błędy On-Page SEO
analiza bezpieczeństwa – podatności na ataki
skanowanie zasobów (CSS, JS, obrazy, itp.)
analiza wydajności i szybkości strony
audyt front-end (wydajność witryny)
raporty pokrycia kodu
raporty dostępności witryny
analiza Accelerated Mobile Pages
audyt poprawności wersji językowych
analiza map witryn
integracje z Google Search Console oraz Google Analytics
integracje z danymi na temat słów kluczowych (Google Search Console)

Ahrefs Site Audit

Najważniejsze funkcje:

skanowanie witryn opartych o JavaScript
śledzenie postępów optymalizacji
bogate raporty i zaawansowane filtrowanie danych
analiza wydajności i szybkości witryny
analiza kodu HTML witryny
analiza treści
audyt poprawności wersji językowych
skanowanie zasobów (CSS, JS, obrazy, itp.)
analiza linków przychodzących oraz wychodzących

SEMrush

Najważniejsze funkcje:

śledzenie postępów
statystyki skanowania
audyt poprawności wersji językowych
audyt bezpieczeństwa i podatności
bogate raporty skanowania
analiza crawl budget
analiza linkowania wewnętrznego

WebSite Auditor

Najważniejsze funkcje:

tworzenie map witryn
tworzenie i zarządzanie plikami robots.txt
analiza treści
raporty odwiedzalności stron
bogate raporty optymalizacji On-Page SEO
wysoka konfigurowalność i elastyczność
tworzenie personalizowanych raportów
wieloplatformowe narzędzie
częste aktualizacje

DeepCrawl

Najważniejsze funkcje:

stały monitoring on-page SEO witryny
wsparcie przy migracji strony internetowej
analiza architektury witryny
analiza stron pod kątem algorytmów Panda (treści) oraz Pingwin (linki)
analiza stron pod kątem UX
audyt poprawności wersji językowych
analiza i porównanie konkunrencji

Crawler – co to jest? Definicja i przewodnik

Crawler – nazwy stosowane wymiennie:

Roboty sieciowe mogą mieć różne przeznaczenie:

Najpopularniejsze boty indeksujące (Web Crawlery)

Najpopularniejsze SEO Crawlery