Google wyjaśnia działanie Crawl Budgetu

Google na swoim blogu wyjaśniło działanie tak zwanego crawl budgetu. Jednocześnie rozprawia się z kilkoma popularnymi mitami na ten temat. Co może wpływać na ilość podstron, które Google indeksuje?

Na wstępie należy zaznaczyć, że nie ma jednolitej definicji, czym jest crawl budget. Jednak patrząc zdroworozsądkowo, jest to ilość adresów, które Google chce i może odwiedzić. Dzieli go na 2 główne czynniki: Crawl rate i Crawl demand. Google podaje, że do budżetu robota wliczają się wszystkie adresy, które robot przegląda.

Google potwierdza, że:

Crawl rate nie jest bezpośrednim sygnałem rankingowym.
Generalnie nofollow nie wlicza się do budżetu robota. Ale może się zdarzyć, że na którejś z podstron dany link będzie oznaczony jako dofollow.

Spis treści

Crawl rate wyszukiwarki

Google wyjaśnia, że tak zwany crawl rate zależy od kilku czynników. Jeśli strona działa bardzo szybko, limity wzrastają (Google może się wtedy zdecydować na nawiązanie większej ilości równoległych połączeń z Twoją stroną. Z kolei jeśli strona działa wolno lub często zwraca błędy typu 5xx, limit spada. Crawl rate zależy także od limitów w GSC, przy czym należy zaznaczyć, że ustawienie wyższych limitów w tej usłudze nie oznacza automatycznie, że Google zwiększy indeksakcję Twojej strony.

Czynniki wpływające na Crawl demand

Crawl demand można przetłumaczyć jako “popyt na indeksację/reindeksację danej strony”. Nawet jeśli Crawl budget nie został wyczerpany, a nie ma tak zwanego crawl demand, może się okazać, że Google nadal będzie wykazywał niską aktywność na Twojej stronie. Jednymi z ważniejszych czynników, które mają na to wpływ, są: popularnośc strony (adresy, które są popularne w internecie generalnie są przeszukiwane przez roboty częściej). Kolejnym czynnikiem wpływającym na to jest aktualnośc treści.

Oczywiście zmiany w strukturze strony mogą zwiększyć crawl demand, jako że Google chce mieć w swoim indeksie tylko aktualne struktury stron.

Czynniki, które mogą negatywnie wpłynąć na budżet robota

Google wskazuje, że zgodnie z ich analizami, posiadanie sporej ilości niewiele mających adresów, może negatywnie wpłynąć na indeksowanie I crawlowanie strony. Za negatywne uważa następujące kategorie (w kolejności według znaczenia).

1nawigacja fasetowa (nawigacja, w której użycie dodatkowych filtrów powoduje stworzenie dużej ilości nowych urli ze zduplikowanym contentem.
identyfikatory sesji
duplicate content w obrębie witryny
błędy 404
strony przejęte przez hakerów
strony typu “infinite space” – czyli zawierające bardzo dużą ilość adresów o bardzo małej wartości dodanej,
treść o słabej jakości

Zachęcamy również do lektury wpisu na temat crawl budget na blogu Google Webmasters.