Crawler – co to jest? Definicja i przewodnik
Tomasz Stężycki — 08.07.2019 — Google
Crawler (Robot internetowy lub robot indeksujący) – jest to program, którego zadaniem jest zbieranie informacji o stronach internetowych, takich jak struktura, kod źródłowy czy treści.
Crawler – nazwy stosowane wymiennie:
- robot sieciowy
- bot indeksujący
- spider
- web crawler
- seo crawler
Roboty sieciowe mogą mieć różne przeznaczenie:
- tworzenie bazy stron internetowych
- zbieranie adresów email lub innych danych kontaktowych
- monitorowanie działania strony internetowej
- monitorowanie social media (sieci społecznościowe)
- analizowanie linków przychodzących i wychodzących
- poszukiwanie błędnych lub niedziałających linków
- automatyczne dodawanie komentarzy
- monitorowanie zmian na stronach
- tworzenie kopii witryn internetowych
- analizowanie stron pod kątem pozycjonowania oraz SEO
Crawler może zostać zaprogramowany do wykonywania dowolnego działania na stronach internetowych. W świecie SEO dwa najpopularniejsze typy crawlerów to boty indeksujące (np. Googlebot) oraz SEO crawlery (np. Screaming Frog).
Najpopularniejsze boty indeksujące (Web Crawlery)
Googlebot
Robot indeksujący używany przez Google. Tworzy indeks wyszukiwarki Google skanując strony internetowe, które odnajduje za pomocą odnośników (linków).
User-agent: Googlebot
Pełny user-agent:
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36
Googlebot/2.1 (+http://www.google.com/bot.html)
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Bingbot
Robot indeksujący, stworzony i używany przez Microsoft na potrzeby wyszukiwarki Bing. Analogicznie jak Googlebot, skanuje i indeksuje strony internetowe, poruszając się po nich za pomocą linków.
User-agent: Bingbot
Pełny user-agent:
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
Mozilla/5.0 (iPhone; CPU iPhone OS 7_0 like Mac OS X) AppleWebKit/537.51.1 (KHTML, like Gecko) Version/7.0 Mobile/11A465 Safari/9537.53 (compatible; bingbot/2.0; http://www.bing.com/bingbot.htm)
Yandex Bot
Yandex Bot to crawler należący do największej rosyjskiej wyszukiwarki internetowej, Yandex.
User-agent: YandexBot
Pełny user-agent:
Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)
Mozilla/5.0 (iPhone; CPU iPhone OS 8_1 like Mac OS X) AppleWebKit/600.1.4 (KHTML, like Gecko) Version/8.0 Mobile/12B411 Safari/600.1.4 (compatible; YandexBot/3.0; +http://yandex.com/bots)
Alexa Crawler
To web crawler należący do Alexa – internetowego rankingu stron firmy Amazon. Skanuje strony i pobiera informacje, dzięki którym tworzy lokalne oraz międzynarodowe rankingi witryn.
User-agent: ia_archiver
Pełny user-agent:
ia_archiver-web.archive.org
ia_archiver (+http://www.alexa.com/site/help/webmasters; [email protected])
Slurp Bot
Robot indeksujący należący do wyszukiwarki Yahoo. Indeks wyszukiwarki Yahoo jest zasilany także przez robota wyszukiwarki Bing (Bingbot).
User-agent: Slurp
Pełny user-agent:
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
DuckDuckBot
Crawler DuckDuckBot należy do wyszukiwarki DuckDuckGo, zyskującej w ostatnim czasie na popularności, dzięki dbaniu o prywatności użytkowników oraz brak mechanizmów śledzących.
User-agent: DuckDuckBot
Pełny user-agent:
DuckDuckBot/1.0; (+http://duckduckgo.com/duckduckbot.html)
Baiduspider
Baiduspider to oficjalna nazwa chińskiego crawlera należącego do wyszukiwarki Baidu. Skanuje strony internetowe i zasila indeks wiodącej w Chinach wyszukiwarki internetowej.
User-agent: Baiduspider
Pełny user-agent:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Najpopularniejsze SEO Crawlery
Screaming Frog SEO Spider
Najważniejsze funkcje:
- odnajdywanie uszkodzonych linków
- analiza przekierowań
- analiza meta-tagów
- ekstrakcja danych (xPath, regex)
- odkrywanie zduplikowanych treści
- analiza indeksacji
- generowanie map witryn
- integracja z Google Analytics
- crawlowanie witryn opartych o JavaScript
- wizualizacja architektury witryny
Sitebulb
Najważniejsze funkcje:
- wizualizacja architektury witryny (mapa crawlu)
- bogate raporty
- skanowanie witryn opartych o JavaScript
- analiza linków wewnętrznych
- analiza indeksacji witryny
- analiza linkowania wewnętrznego
- błędy On-Page SEO
- analiza bezpieczeństwa – podatności na ataki
- skanowanie zasobów (CSS, JS, obrazy, itp.)
- analiza wydajności i szybkości strony
- audyt front-end (wydajność witryny)
- raporty pokrycia kodu
- raporty dostępności witryny
- analiza Accelerated Mobile Pages
- audyt poprawności wersji językowych
- analiza map witryn
- integracje z Google Search Console oraz Google Analytics
- integracje z danymi na temat słów kluczowych (Google Search Console)
Ahrefs Site Audit
Najważniejsze funkcje:
- skanowanie witryn opartych o JavaScript
- śledzenie postępów optymalizacji
- bogate raporty i zaawansowane filtrowanie danych
- analiza wydajności i szybkości witryny
- analiza kodu HTML witryny
- analiza treści
- audyt poprawności wersji językowych
- skanowanie zasobów (CSS, JS, obrazy, itp.)
- analiza linków przychodzących oraz wychodzących
SEMrush
Najważniejsze funkcje:
- śledzenie postępów
- statystyki skanowania
- audyt poprawności wersji językowych
- audyt bezpieczeństwa i podatności
- bogate raporty skanowania
- analiza crawl budget
- analiza linkowania wewnętrznego
WebSite Auditor
Najważniejsze funkcje:
- tworzenie map witryn
- tworzenie i zarządzanie plikami robots.txt
- analiza treści
- raporty odwiedzalności stron
- bogate raporty optymalizacji On-Page SEO
- wysoka konfigurowalność i elastyczność
- tworzenie personalizowanych raportów
- wieloplatformowe narzędzie
- częste aktualizacje
DeepCrawl
Najważniejsze funkcje:
- stały monitoring on-page SEO witryny
- wsparcie przy migracji strony internetowej
- analiza architektury witryny
- analiza stron pod kątem algorytmów Panda (treści) oraz Pingwin (linki)
- analiza stron pod kątem UX
- audyt poprawności wersji językowych
- analiza i porównanie konkunrencji
Tomasz Stężycki
Przemyślana strategia działania poparta wieloletnim doświadczeniem najlepiej opisuje jego sposób pracy z klientami. Zwolennik technicznego SEO oraz testów - choć nigdy nie eksperymentuje na stronach Klientów.