Crawler – co to jest? Definicja i przewodnik

Tomasz Stężycki — 08.07.2019 — Google

Crawler (Robot internetowy lub robot indeksujący) – jest to program, którego zadaniem jest zbieranie informacji o stronach internetowych, takich jak struktura, kod źródłowy czy treści.

Crawler – nazwy stosowane wymiennie:

  • robot sieciowy
  • bot indeksujący
  • spider
  • web crawler
  • seo crawler

Roboty sieciowe mogą mieć różne przeznaczenie:

  • tworzenie bazy stron internetowych
  • zbieranie adresów email lub innych danych kontaktowych
  • monitorowanie działania strony internetowej
  • monitorowanie social media (sieci społecznościowe)
  • analizowanie linków przychodzących i wychodzących
  • poszukiwanie błędnych lub niedziałających linków
  • automatyczne dodawanie komentarzy
  • monitorowanie zmian na stronach
  • tworzenie kopii witryn internetowych
  • analizowanie stron pod kątem pozycjonowania oraz SEO

Crawler może zostać zaprogramowany do wykonywania dowolnego działania na stronach internetowych. W świecie SEO dwa najpopularniejsze typy crawlerów to boty indeksujące (np. Googlebot) oraz SEO crawlery (np. Screaming Frog).

Najpopularniejsze boty indeksujące (Web Crawlery)

Googlebot

Robot indeksujący używany przez Google. Tworzy indeks wyszukiwarki Google skanując strony internetowe, które odnajduje za pomocą odnośników (linków).

User-agent: Googlebot

Pełny user-agent:

Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36
Googlebot/2.1 (+http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Bingbot

Robot indeksujący, stworzony i używany przez Microsoft na potrzeby wyszukiwarki Bing. Analogicznie jak Googlebot, skanuje i indeksuje strony internetowe, poruszając się po nich za pomocą linków.

User-agent: Bingbot

Pełny user-agent:

Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; http://www.bing.com/bingbot.htm)

Yandex Bot

Yandex Bot to crawler należący do największej rosyjskiej wyszukiwarki internetowej, Yandex.

User-agent: YandexBot

Pełny user-agent:

Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots)

Alexa Crawler

To web crawler należący do Alexa – internetowego rankingu stron firmy Amazon. Skanuje strony i pobiera informacje, dzięki którym tworzy lokalne oraz międzynarodowe rankingi witryn.

User-agent: ia_archiver

Pełny user-agent:

ia_archiver-web.archive.org
ia_archiver (+http://www.alexa.com/site/help/webmasters; [email protected])

Slurp Bot

Robot indeksujący należący do wyszukiwarki Yahoo. Indeks wyszukiwarki Yahoo jest zasilany także przez robota wyszukiwarki Bing (Bingbot).

User-agent: Slurp

Pełny user-agent:

Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

DuckDuckBot

Crawler DuckDuckBot należy do wyszukiwarki DuckDuckGo, zyskującej w ostatnim czasie na popularności, dzięki dbaniu o prywatności użytkowników oraz brak mechanizmów śledzących.

User-agent: DuckDuckBot

Pełny user-agent:

DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)

Baiduspider

Baiduspider to oficjalna nazwa chińskiego crawlera należącego do wyszukiwarki Baidu. Skanuje strony internetowe i zasila indeks wiodącej w Chinach wyszukiwarki internetowej.

User-agent: Baiduspider

Pełny user-agent:

Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

Najpopularniejsze SEO Crawlery

Screaming Frog SEO Spider

Najważniejsze funkcje:

  • odnajdywanie uszkodzonych linków
  • analiza przekierowań
  • analiza meta-tagów
  • ekstrakcja danych (xPath, regex)
  • odkrywanie zduplikowanych treści
  • analiza indeksacji
  • generowanie map witryn
  • integracja z Google Analytics
  • crawlowanie witryn opartych o JavaScript
  • wizualizacja architektury witryny

Sitebulb

Najważniejsze funkcje:

  • wizualizacja architektury witryny (mapa crawlu)
  • bogate raporty
  • skanowanie witryn opartych o JavaScript
  • analiza linków wewnętrznych
  • analiza indeksacji witryny
  • analiza linkowania wewnętrznego
  • błędy On-Page SEO
  • analiza bezpieczeństwa – podatności na ataki
  • skanowanie zasobów (CSS, JS, obrazy, itp.)
  • analiza wydajności i szybkości strony
  • audyt front-end (wydajność witryny)
  • raporty pokrycia kodu
  • raporty dostępności witryny
  • analiza Accelerated Mobile Pages
  • audyt poprawności wersji językowych
  • analiza map witryn
  • integracje z Google Search Console oraz Google Analytics
  • integracje z danymi na temat słów kluczowych (Google Search Console)

Ahrefs Site Audit

Najważniejsze funkcje:

  • skanowanie witryn opartych o JavaScript
  • śledzenie postępów optymalizacji
  • bogate raporty i zaawansowane filtrowanie danych
  • analiza wydajności i szybkości witryny
  • analiza kodu HTML witryny
  • analiza treści
  • audyt poprawności wersji językowych
  • skanowanie zasobów (CSS, JS, obrazy, itp.)
  • analiza linków przychodzących oraz wychodzących

SEMrush

Najważniejsze funkcje:

  • śledzenie postępów
  • statystyki skanowania
  • audyt poprawności wersji językowych
  • audyt bezpieczeństwa i podatności
  • bogate raporty skanowania
  • analiza crawl budget
  • analiza linkowania wewnętrznego

WebSite Auditor

Najważniejsze funkcje:

  • tworzenie map witryn
  • tworzenie i zarządzanie plikami robots.txt
  • analiza treści
  • raporty odwiedzalności stron
  • bogate raporty optymalizacji On-Page SEO
  • wysoka konfigurowalność i elastyczność
  • tworzenie personalizowanych raportów
  • wieloplatformowe narzędzie
  • częste aktualizacje

DeepCrawl

Najważniejsze funkcje:

  • stały monitoring on-page SEO witryny
  • wsparcie przy migracji strony internetowej
  • analiza architektury witryny
  • analiza stron pod kątem algorytmów Panda (treści) oraz Pingwin (linki)
  • analiza stron pod kątem UX
  • audyt poprawności wersji językowych
  • analiza i porównanie konkunrencji

Tomasz Stężycki

Przemyślana strategia działania poparta wieloletnim doświadczeniem najlepiej opisuje jego sposób pracy z klientami. Zwolennik technicznego SEO oraz testów - choć nigdy nie eksperymentuje na stronach Klientów.