Jak działa indeksowanie stron internetowych?

woman-3687080_960_720

Na początek, w celu lepszego zrozumienia dalszej części artykułu, chciałbym przypomnieć, jak działa indeksowanie w Google. Nowa podstrona danego serwisu, czy całkiem nowa strona, mogą się pojawić w Google dopiero po dodaniu danego adresu URL do indeksu Google. Ten indeks, to nic innego jak spis wszystkich adresów URL, które zawierają treści odpowiadające na zapytania wpisywane przez użytkowników. Google po prostu zapisuje sobie treści, które mogą się przydać. Google posiada ogromną ilość robotów (tzw. spiderów), które skanują strony internetowe w poszukiwaniu nowych lub aktualizacji treści. Można by powiedzieć, że Google „uczy” się całego internetu i zapamiętuje, który adres URL (podstrona) będzie najbardziej odpowiednia na daną frazę kluczową. Roboty te, poniekąd zachowują się jak zwykli użytkownicy i „klikają” po stronach przechodząc od treści do treści. Część z nich renderuje już strony w pełni przy pomocy przeglądarki Chrome. Katalog, czy raczej indeks Google jest ogromny i to dzięki niemu Google, wie jakie strony mogą być odpowiedzią na dane zapytanie. Jeśli Twoja strona jest najlepsza na świecie i jest zbudowana zgodnie z zasadami Google, to nawet jeśli zasługuje na pierwszą pozycję — nie będzie widoczna, ponieważ Google jej jeszcze nie zna. Dopiero po dodaniu jej do indeksu, możesz brać udział w walce o pozycje.

Jak często Google indeksuje strony?

Problem całej sytuacji z indeksowaniem polega na tym, że stron internetowych jest ogromna ich ilość. Google ma ograniczone zasoby mocy obliczeniowej. Mówiąc wprost — wyszukiwarka nie wyrabia się z „zapamiętywaniem” treści stron internetowych. Optymalizując koszty, Google ocenia wstępnie adresy, które może indeksować i priorytetyzuje poszczególne zasoby czy strony. Niektóre domeny będą więc częściej odwiedzane i indeksowane, a inne będą czekały miesiącami, aż robot je odwiedzi i sprawdzi zawartość. Częstość indeksowania zależy głównie od ogólnej oceny strony przez Google. Im bardziej wyszukiwarka ufa Twojej domenie, tym częściej będzie odwiedzać Twoją stronę, zwłaszcza jeśli regularnie publikujesz treści — wtedy Google dość często zagląda na Twoją stronę, bo spodziewa się nowych treści.

Dlaczego Google ma ostatnio problemy z indeksowaniem?

Google od dłuższego czasu boryka się z różnymi problemami związanimi z indeksowaniem. Niestety problem ten, coraz częściej dotyka stron, które wcześniej były indeksowane bardzo szybko i sprawnie. Oficjalnie, nie ma żadnych informacji o przyczynach tego stanu. Jednak możemy się domyślać, że chodzi o kolejne ograniczenia zasobów w celach oszczędzania mocy obliczeniowej — proces indeksowania pobiera ogromne ilości prądu.

Przyczyny problemów z indeksowaniem stron

Zdaję sobie sprawę, że taka odpowiedź jest bardzo ogólna. Na szczęście z punktu widzenia właściciela strony można zauważyć kilka głównych przyczyn związanych z indeksowaniem, które będziesz w stanie rozwiązać na własną rękę. Postaram się je teraz omówić.

Strony celowo blokują indeksowanie

Jednym z najprostszych do rozwiązania, a jednocześnie dość powszechnym problemem z indeksowaniem jest blokowanie robotów przez samą stronę. Flagowym przykładem może być tutaj wdrożenie nowej strony, podczas której deweloper ustawia parametr robots na wartość noindex. Możliwy jest też scenariusz, że ktoś przez przypadek ustawił taki parametr nie globalnie, ale dla pojedynczej podstrony lub grupy podstron. W takiej sytuacji Google także nie zaindeksuje tych podstron. Blokowanie przed indeksowaniem może być też spowodowane niepoprawną konfiguracją linków kanonicznych, czyli tzw. parametru canonical. Jeśli wskazuje on na inną stronę, to Google zaindeksuje tą drugą.

Kolejnym problemem z blokowaniem strony przed indeksowaniem może być plik robots.txt.

Jeśli używasz w nim dyrektyw blokujących Google, to roboty nie są w stanie odwiedzić blokowanych podstron. Efektem tego jest brak możliwości indeksowania. Wykonanie przekierowania stałego typu 301, także będzie powodem braku indeksowania, wydaje się to oczywiste, ale warto wspomnieć, że Google spróbuje zeskanować i dodać do indeksu docelowy adres URL przekierowania. Na tym etapie warto też wspomnieć o błędzie technicznym związanym ze statusem HTTP, jaki zwraca dany adres URL. Jeśli będzie to status oznaczający błąd (40X, 50X), to Google raczej nie podejmie próby indeksowania i poczeka, aż ten status zmieni się na poprawny kod (200).

Jak widzisz z powyższych przykładów, właściciel strony przyczynić się do problemów z indeksowaniem, jednak te problemy zazwyczaj bardzo łatwo zdiagnozować i wyeliminować. Najczęściej, tego typu błędy są wynikiem przeoczenia

albo braku wiedzy. Kilka chwil spędzonych w Google Search Console powinno rozwiązać większość z tych problemów.

Twoja strona jest nowa w Google

Nie jest tajemnicą, że Google nie ufa nowym stronom i poświęca im mniej uwagi. Jeśli Twoja strona jest nowa, czyli nie ma jeszcze autorytetu, to bardzo możliwe, że Google ją skanuje, ale nie dodaje do indeksu. Dzieje się tak, ponieważ wyszukiwarka woli poświęcić zasoby na strony bardziej wartościowe, oczywiście z jej punktu widzenia. Nie jest to Twoja wina, a zasada, jaką kierują się roboty. Ten problem da się rozwiązać, pracując nad swoją stroną. W miarę zwiększania autorytetu domeny, Google jej zaufa i zacznie częściej indeksować.

Dana podstrona ma słabą jakość treści

Podczas indeksowania konkretnej podstrony, robot może oznaczyć ją jako tzw. „thin content”, czyli treść słabej jakości. Jak już pewnie wiesz, Google promuje unikalne treści, które wnoszą realną wartość użytkownikom tej wyszukiwarki. Podstrony, które są kopiami innych (lub zmiany są minimalne), ewentualnie gdy zawierają małą ilość treści, będą oznaczone jako thin content i nie będą zaindeksowane. To właśnie z tego powodu należy dbać o jakość treść oraz eliminować błędy techniczne, które generują thin content.

Adres URL może być oznaczony jako tzw. „soft 404 error”

Soft 404 error, to podstrona, która wygląda jak strona błędu, podczas gdy realnie zwraca prawidłowy kod HTTP. Google sam zaczyna uważać, że dana strona jest błędem, na podstawie własnych algorytmów wyszukiwarki. Czasami wystarczy nieodpowiednia fraza w nagłówku, a jedno zdanie wprowadzające robota w błąd. Najczęstsze przyczyny tego problemu to:

  • Używanie fraz mogących wskazywać na to, że podstrona jest błędem, np: „404”, „strona nie istnieje”, „błąd”, „produkt nie jest dostępny”.
  • Google niewłaściwie renderuje JS (o tym problemie będzie trochę później), przez co robot widzi tylko komunikat „strona potrzebuje JS do poprawnego wyświetlenia”, „Włącz Java Script”, co sugeruje błąd.
  • Strona błędu to zwykła strona, o statusie 200, na którą przekierowuje się użytkownika podczas błędu (domena.pl/404). To wprowadza Google w błąd, ponieważ status 404 powinien występować pod adresem docelowym.

Podstrona może być duplikacją treści z innej podstrony, a nawet domeny

Google nie zaindeksuje strony, jeśli jej treść jest duplikacją innej treści. Jeśli skopiujesz artykuł z innej strony i w niezmienionej formie wkleisz go na swojego bloga — nie zostanie on zaindeksowany, ponieważ Google uzna go za duplikat. Z punktu widzenia wyszukiwarki, nie ma sensu indeksować dwa razy tej samej treści. Dlatego kopiowane treści słabo radzą sobie w Google. Wyszukiwarka premiuje unikalne teksty, które dają realną wartość użytkownikom.

To samo dotyczy kopii wewnętrznych, jeśli powielasz treści w ramach własnego serwisu (celowo lub wyniku błędu), to Google uzna tylko jedną, którą sam wybierze jako oryginał. Reszta nie będzie indeksowana i to normalna sytuacja. Warto więc unikać duplikacji treści, np. planując dokładnie strategię SEO. Błędy techniczne powodujące duplikację można zazwyczaj wyeliminować dość szybko wdrażając tagi kanoniczne (canonical) albo wykonując przekierowania 301 ze wszystkich kopii na jeden właściwy adres, który ma być zaindeksowany. W przypadku kopii wytworzonej przez użytkownika konieczna będzie ręczna analiza i eliminacja duplikacji np. poprzez połączenie dwóch adresów w jedną wspólną podstronę.

Podstrona ładuje się bardzo wolno

Jednym z technicznych problemów związanych z indeksowaniem jest szybkość strony. Podstrony ładujące się bardzo wolno mogą być traktowane przez Google, jako te niewarte indeksowania. Roboty nie chcą marnować cennych zasobów, żeby czekać. Zostawiają Twoją stronę i idą skanować dalej. Tutaj mamy dwa aspekty, pierwszym z nich jest to, co się dzieje po stronie serwera. Jeśli hosting jest powolny, a kod strony niezoptymalizowany pod kątem szybkości — roboty będą wolały odpuścić i wrócić w innym terminie. Warto zaznaczyć, że jeśli taka sytuacja będzie się powtarzać, to Google może zmniejszyć priorytet Twojej stronie i znacznie rzadziej ją odwiedzać.

Kolejna sprawa to renderowanie strony.

Niektóre roboty działają dosłownie jak użytkownik, i nie zerkają jedynie w kod, a nawet renderują (wyświetlają stronę jak użytkownik) za pomocą Chrome dla urządzeń mobilnych. Jeśli proces ładowania strony (szybkość strony) przez przeglądarkę jest powolny, to kolejny sygnał, żeby nieco odpuścić proces skanowania i indeksowania. Aby temu zaradzić, wystarczy

upić się na Core Web Vitals.

Problemy z renderowaniem JS

Niektóre strony buduje się przy pomocy nowoczesnych frameworków JavaScript (React, Angular, Vue). To kolejna warstwa technologiczna dla Google, która dosłownie pożera zasoby podczas procesu skanowania i indeksowania strony. Nieprawidłowa implementacja technologii może doprowadzić do tego, że roboty nie będą w stanie w ogóle skanować żadnej podstrony. Nawet jeśli strona jest wdrożona poprawnie, to ze względu na specyfikę technologii mogą wystąpić pewne okoliczności, które ograniczą Google w procesie indeksowania:

  • Robot ma ograniczenia na użycie zasobów dla Twojej strony.
  • Pliki JS uruchamiające stronę są zablokowane w robots.txt.
  • Występują błędy JS, które nie pozwalają Google poprawnie wyrenderować stronę.
  • Google nie radzi sobie z interakcją ze stroną (nie może klikać / scrollować).

Problemy związane z JS są zawsze trudne do zdiagnozowania, ale ich eliminacja będzie konieczna, jeśli chcesz, aby Twoja strona była widoczna w Google. Na szczęście tego typu strony nie są zbyt popularne w małych i średnich biznesach. Na tym etapie warto wiedzieć, że jeśli firma robiąca strony proponuje „rewolucyjną technologię”, musisz się zastanowić, czy Google sobie z tym poradzi.

Co zrobić, żeby poprawić indeksowanie swojej strony?

Strona się nie indeksuje? Listę potencjalnych problemów mamy za sobą, teraz czas na ich rozwiązanie. Mimo że Google ostatnio sprawia wiele problemów z indeksowaniem, to sytuacja nie jest beznadziejna. Zastosowanie poniższych porad niestety nie gwarantuje sukcesu, jednak na pewno zwiększysz swoje szanse.

  1. Zainstaluj Google Search Console: Narzędzie to oferuje wiele informacji o stanie indeksowania Twojej strony. Dzięki niemu możesz monitorować błędy i przeciwdziałać im. Jest to kluczowe narzędzie dla każdego właściciela strony internetowej.
  2. Próbuj indeksować ręcznie: W Google Search Console masz możliwość ręcznego zaindeksowania adresów URL. To dobre narzędzie, aby przyspieszyć indeksację nowych treści lub aktualizacji na stronie.
  3. Wyeliminuj błędy techniczne: Przeanalizuj stronę pod kątem błędów technicznych, takich jak błędy 404, duplikacje treści, błędy JavaScript itp. Popraw te błędy, aby ułatwić indeksowanie przez Google.
  4. Przyspiesz stronę: Optymalizuj stronę pod kątem szybkości ładowania. Szybsza strona lepiej radzi sobie w procesie indeksowania.
  5. Zaplanuj strukturę logiczną strony: Dbaj o odpowiednią strukturę strony, aby uniknąć problemów z duplikacją treści i kanibalizacją słów kluczowych.
  6. Buduj linkowanie wewnętrzne: Stworzenie odpowiednich linków wewnętrznych pomaga robotom zrozumieć strukturę Twojej witryny. To również przyspiesza proces indeksowania.

Podsumowując, indeksowanie stron internetowych przez Google to skomplikowany proces, który może być źródłem wielu problemów. Jednak zrozumienie tych problemów i ich rozwiązanie może przyczynić się do poprawy widoczności Twojej witryny w wynikach wyszukiwania. Pamiętaj, że proces indeksowania to długotrwały proces, ale dbałość o jakość treści, optymalizację techniczną oraz systematyczne prace nad stroną pomogą Ci zwiększyć szanse na sukces w Google.