Крутое исследование от технического директора JetOctopus Сергея Безбородова. Сергей проанализировал поведение поисковых ботов на хостинге, для лучшего понимания работы веб-краулеров.

В качестве эксперимента был проведен краулинг сайта так, как делает это поисковой бот Google или «Яндекса», а затем проанализированы логи сайта за последние шесть месяцев. Которые показали заходил ли поисковой бот на сайт, если да, то на какие страницы, как давно и как часто.

Вот несколько интересных фактов:

  • При глубине вложенности 5-6 бот Google краулит уже только половину страниц, и чем дальше, тем меньше страниц краулится.
  • В среднем, перелинковка начинает работать от одиннадцати ссылок на страницу и выше.
  • Значение Crawl Ratio критически падает на страницах размером менее 500 слов.

Статья полностью — Думай как Google: что мы узнали о поведении поискового бота Google спустя 6 млрд лог-строк