Będąc właścicielem witryn internetowych, pragniemy, aby każda ze stron została zindeksowana i wyświetliła się w wynikach wyszukiwania. Aby się to stało, musi najpierw zostać zeskanowana przez crawlery np. Googlebot. Jednakże ilość stron, które mogą zostać zeskanowane w danym ujęciu czasowym, jest ograniczona.
Dlatego w poniższym artykule, postaram się wyjaśnić, czym dokładnie jest crawl budget oraz jaki ma wpływ na SEO.
Czym jest crawl budget?
Crawl budget, czyli budżet indeksowania, jest określeniem ilości stron, które roboty mogą jednorazowo przeskanować w określonym czasie.
Jest on zależny od dwóch czynników:
- crawl rate limit, który określa maksymalną ilość żądań,
- crawl demand, który określa częstotliwość indeksacji.
Crawl rate limit
W dużym uproszczeniu Crawl rate limit określa maksymalną ilość żądań, które podczas skanowania jest w stanie wykonać bot oraz czas, jaki musi upłynąć między pobraniami. Jest on z kolei zależny od stanu indeksowania domeny, gdyż jest dopasowywany do czasu reakcji witryny. Jeżeli czas reakcji się wydłuży, limit może zostać zmniejszony, czego efektem będzie zmniejszenie liczby żądań. W przypadku, gdy czas reakcji spadnie, limit może zostać zwiększony.
Analizę danych dotyczących crawl rate limit można wykonać w Google Search Console. Należy przejść do zakładki ustawienia, a następnie wybrać statystyki indeksacji.
Wówczas wyświetli się nam wykres z ostatnich 90 dni, przedstawiający dzienną liczbę żądań robotów. Na jego podstawie jesteśmy w stanie wyciągnąć odpowiednie wnioski. Czy liczba żądań spada/wzrasta, dzięki czemu możemy podjąć odpowiednie działania.
Statystyki indeksacji pozwalają również na weryfikację czasu reakcji serwera z ostatnich 90 dni, umożliwiając nam weryfikację, czy występuje problem z wydajnością serwera.
Crawl demand
Tak jak już wyżej wspominałem, crawl demand określa zapotrzebowanie witryny na indeksację. Wynika on z trzech czynników:
- popularności strony – adresy URL, które są częściej odwiedzane przez użytkowników, są również częściej indeksowane,
- aktualność treści – Google stara się, aby nieaktualne treści nie były wyświetlane w SERPach. Dlatego ważne jest, aby starsze wpisy były co jakiś czas aktualizowane,
- domniemane zasoby – oznacza to tyle, że Googlebot będzie próbował zeskanować wszystkie napotkane adresy URL witryny. Dlatego ważne jest, aby wesprzeć boty poprzez wskazanie im, chociażby listy stron do zindeksowania w formie sitemapy.xml.
Czynniki wpływające na Crawl budget
Wiedząc już, czym jest crawl budget, należy się pochylić nad czynnikami, które wpływają na niego. W Google Search Console Blog znajdziemy 8 czynników uporządkowanych według istotności. Są to:
- nawigacja fasetowa oraz identyfikatory sesji – jest to sytuacja, kiedy Google do jednego adresu URL może dopisać wiele parametrów, tworząc w ten sposób nieskończenie wiele adresów. Takie działanie może spowodować spowolnienie indeksacji serwisu z uwagi na ilość stron do przetworzenia,
- powielone treści w witrynie – posiadanie zduplikowanych treści na stronach może wpłynąć na obniżenie skuteczności indeksacji nowych treści,
- strony pozornych błędów – mowa o błędach 404 (nie znaleziono strony) oraz 410 (żądana strona została usunięta),
- zhakowane strony,
- nieskończone przestrzenie, czyli bardzo duża liczba linków, która nie dostarcza żadnej nowej treści do zindeksowania. Przykładem może być kalendarz, który może powodować tworzenie kolejnych podstron,
- serwery proxy – tak jak już wcześniej wspominałem, mowa tutaj o wydajności serwera. Im dłuższy czas reakcji serwera, tym większa szansa na spowolnienie indeksacji,
- treści o niskiej jakości (thin content) i spam – czyli treści, które nie mają żadnej wartości dla użytkowników oraz botów, a także takie, które są wdrażane w sposób spamowy.
Jakie działania mogę podjąć, aby zweryfikować crawl budget?
Statystyki indeksacji GSC
Poza już wcześniej wspomnianą analizą danych dotyczącą statystyk indeksacji z narzędzia Google Search Console, możemy również zweryfikować błędy zwracane w zakładce indeksacja w GSC. Wśród najważniejszych, na które należy zwrócić szczególną uwagę, są:
- błąd przekierowania – wystąpił jeden z błędów, który dotyczył: zbyt długiego łańcucha przekierowań, pętli przekierowań, przekierowania, które ostatecznie przekroczyło maksymalną długość adresu URL, bądź też nieprawidłowy lub pusty URL w łańcuchu przekierowań,
- nie znaleziono (404) – adres URL zwrócił błąd 404 (nie znaleziono),
- pozorny błąd 404 – na stronie wyświetlił się komunikat „nie znaleziono”, bez zwrócenia błędu 404,
- strona wykluczona za pomocą tagu „noindex” – indeksacja strony została zablokowana za pomocą tagu „noindex”,
- strona zablokowana z powodu innego błędu 4xx – został zwrócony inny błąd z rodziny 4xx,
- błąd serwera (500) – oznacza, że wystąpił błąd po stronie serwera, przez który nie był w stanie obsłużyć żądania,
- strona zablokowana przez plik robots.txt – strona została zablokowana za pomocą dyrektywy zawartej w pliku robots.txt,
- duplikat, użytkownik nie oznaczył strony kanonicznej – został wykryty duplikat strony, lecz użytkownik nie wskazał prawidłowej wersji kanonicznej strony,
- duplikat, wyszukiwarka Google wybrała inną stronę kanoniczną niż użytkownik – zwracany błąd informuje o tym, że przeglądarka uznała inny adres URL jako lepszą wersję kanonicznej strony,
- strona zeskanowana, ale jeszcze niezindeksowana – strona została zeskanowana, ale jeszcze nie zindeksowana,
- strona wykryta – obecnie niezindeksowana – adres URL strony został wykryty, ale nie został jeszcze zeskanowany,
- nie zindeksowano – oznacza, że strony nie zostały zindeksowane, ale nie koniecznie z powodu błędów.
Crawl domeny
Kolejnym sposobem jest przeprowadzenie crawlu domeny np. z wykorzystaniem narzędzia Screaming Frog. Pozwala on m.in. na zweryfikowanie, czy wszystkie wykryte strony mają dozwoloną indeksację, patrz kolumna „Indexability”.
Czy adresy URL nie zwracają błędów (np. 4xx).
Czy nie występuje problem z serwerem (5xx), czy nie ma osieroconych stron (stron, do których nie kierują żadne linki wewnętrzne), a także czy linki wewnętrzne nie kierują do stron zwracających przekierowanie 301, czy też niedostępnych (404). Jeżeli crawl wykaże występowanie błędów, zalecamy ich optymalizację.
Analiza logów serwerowych
Następnym sposobem weryfikacji jest przeprowadzenie analizy logów serwerowych za pomocą dedykowanego narzędzia jak SEO Log File Analyser (narzędzie płatne), czy też z wykorzystaniem tabel przestawnych w Google Sheets. Dzięki analizie możemy zweryfikować adresy docelowe żądań botów oraz zwracane dla nich statusy. W ten sposób jesteśmy w stanie określić, jakie strony oraz z jaką częstotliwością były odwiedzane przez boty w ostatnim czasie.
Możesz również przeanalizować statusy żądań, z których jesteśmy w stanie wyciągnąć potencjalne błędy jak np. status 404 (nie znaleziono).
Mapa witryny
Pamiętaj o mapie witryny. Sprawdź, czy adresy URL w niej zawarte nie zwracają błędów 301, 4xx, 5xx bądź nie kierują do stron z oznaczonym adresem kanonicznym. Zwróć uwagę, czy mapa uwzględnia wszystkie adresy URL domeny, z pominięciem tych, których nie powinniśmy indeksować (np. koszyk, moje konto).
Zwróć również uwagę, czy adresy URL mapy witryny zostały uzupełnione o tag <lastmod>, który informuje o dacie ostatniej modyfikacji. Googleboty regularnie odczytują mapę witryny. Jeżeli zauważą, że data ostatniej modyfikacji uległa zmianie, będzie to sygnałem, aby zindeksować zaktualizowane treści.
Sprawdź również, czy mapa została podpięta w Google Search Console oraz wskazana w pliku robots.txt.
Tagi Hreflang
Roboty indeksujące korzystają również z tagów Hreflang, aby łatwiej analizować wykryte strony. Dlatego powinieneś poinformować Google o fakcie, jeżeli witryna występuje w wielu wersjach językowych.
W tym celu uzupełnij strony o znacznik <link rel=”alternate” hreflang=”Kod_obsługiwanego_języka” href=”link_do_strony” />.
Szybkość wczytywania stron
Zwróć również uwagę, czy prędkość wczytywania stron jest prawidłowa, a czas reakcji serwera wystarczający.
Możliwości skanowania stron przez boty podlegają ograniczeniom, w tym związanym z przepustowością oraz dostępnością. Dlatego ważnej jest, aby czas reakcji serwera był odpowiedni, umożliwi on zindeksowanie większej liczby stron Twojej witryny.
🚀 Crawl budget – czym jest i jaki ma wpływ na SEO? Podsumowanie
Crawl budget jest bardzo istotnym „zagadnieniem” SEO, mającym wpływ na nasze pieniądze. Gdy strona się nie indeksuje, nie ma racji pojawić się w SERPach. Dlatego też warto poświęcić czas na jego monitorowanie i optymalizację.
Regularna analiza i optymalizacja może poprowadzić do lepszej widoczności witryny w wynikach wyszukiwania. A skuteczne zarządzanie crawl budgetem pomoże w szybszym indeksowaniu nowych treści witryny.