#028: Problem indeksacji stron w Google - Marek, Roland & Tomek

21/10/2022

Coraz częściej słyszymy, że Google ma problem z indeksowaniem nowych zasobów. Strony niskiej jakości indeksują się nader często, natomiast wartościowe treści czekają na to tygodniami. O co w tym chodzi i jak sobie poradzić z tym problemem? Na to pytanie spróbują odpowiedzieć moi dzisiejsi Goście. Zapraszam!

Listen to "#028: Problem indeksacji stron w Google - Marek, Roland & Tomek" on Spreaker.

Rozdziały odcinka

Czym jest indeksacja w Google i dlaczego jest ważna?
Jak sprawdzić, czy strona jest zaindeksowana w Google?
Kiedy i z jakiego powodu Google może nie zaindeksować zasobów naszej strony?
Jak przyspieszyć indeksowanie stron?
Skąd się biorą problemy z indeksacją i wyindeksowaniem zasobów?
Search Console URL Inspection API
Połączenie Google Indexing API i URL Inspection API

Goście odcinka

Marek Foltański - w branży od 6 lat. W tym czasie pracował w mniejszych i większych agencjach SEO oraz in-house'owo w wewnętrznych Działach Marketingu. Aktualnie freelancer SEO i samozwańczy Web Developer. Hobbystycznie stworzył kilka narzędzi, które okazały się całkiem popularne (cssgenerator.pl, drzewko.io, Indexing API), a w planach ma kolejne. Jest zwolennikiem automatyzacji powtarzalnych zadań w SEO, a jego ostatnią miłością jest połączenie Google Sheets + Apps Script.

Roland Adamczyk - ukończył Informatykę i Ekonometrię na Uniwersytecie Ekonomicznym w Katowicach. SEO zajmuje się od ponad 5 lat, pracował dotychczas w dwóch agencjach SEO, a na ten moment pracuje w 100% jako freelancer. Zajmuje się głównie średnimi i dużymi sklepami internetowymi, hobbystycznie ułatwia sobie pracę seowca za pomocą Pythona i różnych automatyzacji opartych na Pythonie. Twórca narzędzia SEOgrajek.pl

Tomek Rudzki - pracuje jako Head of Research and Development w Onely, wrocławskiej agencji technicznego SEO. Wraz z swoim szefem, Bartkiem Góralewiczem, jest znany za granicą w kontekście szerzenia wiedzy o JavaScript SEO. Jego artykuły pojawiły się na MOZ'ie czy też na Search Engine Journal. Jego Ultimate Guide to JavaScript SEO było czytane ponad 100 000 razy.

Czym jest indeksacja w Google i dlaczego jest ważna?

Roland: Indeksacja to dodawanie wpisów do bazy danych wyszukiwarki. Podczas samego crawlowania, które następuje przed indeksacją, Google podbiera informacje, które są zawarte na stronie i analizuje treści. Na tej podstawie kategoryzuje je i dodaje do indeksu w swojej bazie danych.

Marek: Indeksacja polega na tym, że adres URL strony internetowej finalnie znajdzie się w indeksie wyszukiwarki. Jeżeli chcesz, aby Twoja strona pojawiła się w wyszukiwarce, najpierw musi zostać zindeksowana. Jak zostanie zaindeksowana, jest szansa, że zacznie się pojawiać podczas wyszukiwania słów kluczowych. Ale najpierw musi nastąpić proces indeksacji, który ostatnio jest trochę rozwalony.

Tomek: Jeśli nie ma Cię w indeksie, znaczy, że "nie rankujesz". Jak "nie rankujesz", to nie masz zysku z wyszukiwarki.

Jak sprawdzić, czy strona jest zaindeksowana w Google?

Tomek: Najprościej - zobaczyć w Google Search Console. Tam możemy sprawdzić dany URL i zobaczyć, czy jest zaindeksowany, czy nie.

Roland: Sprawdzenie w Google Search Console jest najskuteczniejszą metodą. Innym sposobem jest wyszukanie w samej wyszukiwarce za pomocą operatora „site:” konkretny URL lub całą domenę. Można też zweryfikować URL za pomocą operatora „inurl:” – działa on na podobnej zasadzie. Czwartym sposobem jest wyszukanie cytatu. Należy skopiować kawałek tekstu z wpisu blogowego, wstawić go w cudzysłów i kliknąć "Szukaj". Jeżeli Google zwróci adres danego wpisu (URL danego wpisu), to znaczy, że dana strona lub dany fragment tekstu są zaindeksowane.

Marek: Sprawdzając „site:” trzeba mieć na uwadze, że jeśli chcemy sprawdzić kategorię w sklepie, która jest zbudowana na zasadzie katalogów w adresach URL, to jeżeli wpiszemy kategorię, która ma potem dalsze zagnieżdżenia, to wyświetli się kilka adresów URL. Z tego względu należy zweryfikować czy w indeksie pojawia się adres, którego szukamy. Mogą się pojawiać adresy zawierające jakieś parametry w URL, dlatego wymaga to ręcznej weryfikacji.

Kiedy i z jakiego powodu Google może nie zaindeksować zasobów naszej strony?

Tomek: Może być tak, że tekst jest obsługiwany przez kod JavaScript lub Google stwierdzi, że dana część podstrony nie pasuje do reszty i wtedy nie jest ona zaindeksowana.

Roland: Powodów jest mnóstwo. Może się zdarzyć, że budżet skalowania jest niszczony przez użycie drop down menu w samym menu. Czyli całe menu będzie się ładowało JavaScriptem. W takiej sytuacji Google, gdy skanuje witrynę, nie jest w stanie przejść do poszczególnych podstron. Tak samo jest, gdy linkowanie wewnętrzne nie jest dobrze rozprowadzone (również w menu). Jeżeli chcemy, aby strona wylądowała w indeksie, powinny do niej prowadzić jakiekolwiek linki, ponieważ jeśli ich nie będzie, użytkownik nie znajdzie tej strony i tego nie zrobi też Googlebot.

Marek: Wszystko zależy od indywidualnego przypadku. Jednym z powodów może być błędne renderowanie strony. Jeśli Google nie ma dostępu do zasobów CSS i JavaScriptu, w dodatku dostaje czyste dokumenty HTML, w których jest mnóstwo produktów z podobnym, domyślnym meta-tagiem, strona będzie oznaczona jako odkryta przez Googlebota, ale nie zindeksowana. W Google Search Console zostanie zaznaczona jako duplikat.

Jak przyspieszyć indeksowanie stron?

Ciągłym zgłaszaniem do indeksacji w Google Search Console, czy może skorzystać z rozwiązania wykorzystującego Indexing API?

Marek: U nas Indexing API działa - strony, które nie chciały się zindeksować ręcznie, przy użyciu programu z marszu wchodziły.

Roland: Indexing API działa. Indeksuję nim codziennie kilka stron i zazwyczaj trafiają one do indeksu w ciągu 24 godzin. Kilka razy zdarzyło się, że proces trwał dłużej. Dzięki tej aplikacji udało mi się zaindeksować duży sklep (ponad 2000 produktów) samą aplikacją - niczego nie dodawałem w Google Search Console, tylko od razu za pomocą skryptu przez Indexing API. Aby zautomatyzować proces, w Pythonie stworzyłem skrypt, który zwraca również uwagę na limity Indexing API.

Dawid: Czym różni się Ziptie.dev od rozwiązania chłopaków?

Tomek: To narzędzie do diagnostyki indeksacji. Wychodzimy z założenia, że aby skutecznie poprawić indeksacje na większych stronach, musimy popatrzeć na serwis całościowo. Czyli musimy sprawdzić, które podstrony nie są zaindeksowane i zastanowić się dlaczego. Dzięki Ziptie.dev naprawiamy przyczynę, a nie skutek.

Skąd się biorą problemy z indeksacją i wyindeksowaniem zasobów?

Tomek: Selekcja przy indeksowaniu jest coraz bardziej restrykcyjna. Kiedyś nie było dużo zasobów, więc baza Google była bardzo mała. Gdy Internet się rozrastał, okazało się, że wiele witryn używa JavaScriptu i pojawiły się problemy. Według Google renderowanie JavaScriptu czy ogólnie treści zwiększa koszt całego procesu 20-krotnie. Do tego dochodzą kolejne warstwy algorytmu, które należy zrobić w przypadku Indexingu.

Jaki jest cel Google?

Tomek: Szybko zwrócić wartościowe wyniki. Jeśli indeks puchnie, samo przeszukiwanie bazy jest bardziej czasochłonne. Z tego powodu Google zastanawia się dwa razy czy coś zaindeksować, czy nie. Może dojść do sytuacji, w której Google odwiedził stronę, ale jej nie zaindeksował, a może być tak, że Google wie, że strona istnieje, ale jeszcze jej nie odwiedził - w takiej sytuacji może pomóc Indexing API.

Co jest celem indexingu?

Tomek: Samo zaindeksowanie i upewnienie się, że strona jest w indeksie to pierwszy krok. Trzeba się zastanowić, czy to wystarczy. Powinniśmy się upewnić, że strona jest nie tylko zaindeksowana, ale również, że "rankuje". Do tego potrzebne jest odpowiednie linkowanie wewnętrzne, analiza treści itd. Trzeba patrzeć na proces całościowo, aby i zaindeksować i "rankować".

W Ziptie.dev mamy moduł, w którym weryfikujemy status stron w indeksie. Zauważyliśmy, że w przypadku helpful content update wiele witryn pospadało w indeksacji, ale wróciły w ostatnim core update. Możliwe, że wystąpiły jakieś bugi, które wpłynęły na wyindeksowanie stron. W przypadku core update widzimy wahania w indeksacji - jakby Google przeliczało sygnały i na ich podstawie zdecydowało, że danych stron już nie indeksuje.

Search Console URL Inspection API

Marek: Z tego URL Inspection API korzystam, gdy wykorzystuję Screaming Frog'a. Dzięki temu mogę sprawdzić, czy dany adres jest zaindeksowany w Google i jaki ma status w Search Console. Czyli weryfikuję, czy został odwiedzony, ale jeszcze nie zaindeksowany, czy może nie został odwiedzony i nie został zaindeksowany. Mogę też sprawdzić, kiedy ostatni raz został odwiedzony przez robota. Używam, aby sprawdzać indeksację serwisów i zobaczyć, czy są jakieś zależności. W aplikacji można sprawdzić tylko strony, do których mamy dostęp w Google Search Console. Jeżeli ktoś chce sprawdzić zaindeksowane linki czy strony konkurencji, to tego nie zrobi.

Połączenie Google Indexing API i URL Inspection API

Roland: Zbudowałem narzędzie, które korzysta i z tego i z tego. Można najpierw wrzucić do sprawdzenia adresy do URL Inspection, następnie dostajemy zwrotkę i te, które nie są zaindeksowane, możemy przesłać do indeksacji. Aplikacja sprawdzi się przy mniejszej liczbie URLi. Jeśli mamy 50 000 URLi to moje narzędzie się nie sprawdzi, bo limit dzienny jak taki sam, jak ma ustalone Google.

Jeśli mamy portal z 50 000 URLi i chcielibyśmy je sprawdzić jednym Search Console, to można puścić skrypt, który będzie wykonywał się przez miesiąc. Oczywiście będzie miał odstęp czasowy, aby nie trafić na blokady w postaci limitu. Wyniki mogą się zapisywać do CSV lub Google Sheets, czy gdzieś indziej i dzięki temu możemy monitorować stronę za pomocą Inspection API, tylko dokładne dane będą raz w miesiącu. Ewentualnie można nadpisywać poprzednie dane i co jakiś czas sprawdzać, ile adresów było już przeskanowanych.

Narzędzie ma działać szybko. Jeśli chcę sprawdzić indeksację 50 URLi, otwieram aplikację, wrzucam URL, autoryzuję plikiem JS, dodaję domenę do autoryzacji, klikam "sprawdź" i idę zrobić kawę. Zazwyczaj jak wracam, dane są już sprawdzone, a ja tylko przeglądam tabelę z danymi, co się zadziało, czy coś nie wypadło, czy coś nie było dawno odwiedzone/zeskanowane.

Chcę przetestować, czy będzie można w moim narzędziu sprawdzić, kiedy strona została odkryta, ale nie zaindeksowana, oraz czy Indexing API działa, gdy strona została odwiedzona miesiąc wcześniej. W skrypcie założę, że miesiąc wcześniej był na niej Googlebot i dzięki temu możemy puścić jeszcze raz przez Indexing API.

Wszystkie informacje, które sprawdzamy wrzucając adres URL do Google Search Console, otrzymujemy w postaci suchego pliku JS, który można przerobić na tabelkę czy CSV, wrzucić do Google Sheets, posortować i przeglądać. Samym Pythonem można również zautomatyzować sprawdzanie strony. Można wrzucić mu wszystkie strony i zautomatyzować, aby sprawdzał co 2 tygodnie ich status i zapisywał w Google Sheets. Dzięki temu będziemy widzieć, jakie są zmiany w zachowaniu Googlebota na naszej stronie.

To tylko wycinek. Całość naszej rozmowy, oraz linki do materiałów o których mówimy, znajdziesz w nagraniu na YouTube, Apple Podcasts, Google Podcasts, Spotify i w innych aplikacjach do słuchania podcastów!