Крутое исследование от технического директора JetOctopus Сергея Безбородова. Сергей проанализировал поведение поисковых ботов на хостинге, для лучшего понимания работы веб-краулеров.
В качестве эксперимента был проведен краулинг сайта так, как делает это поисковой бот Google или «Яндекса», а затем проанализированы логи сайта за последние шесть месяцев. Которые показали заходил ли поисковой бот на сайт, если да, то на какие страницы, как давно и как часто.
Вот несколько интересных фактов:
- При глубине вложенности 5-6 бот Google краулит уже только половину страниц, и чем дальше, тем меньше страниц краулится.
- В среднем, перелинковка начинает работать от одиннадцати ссылок на страницу и выше.
- Значение Crawl Ratio критически падает на страницах размером менее 500 слов.
Статья полностью — Думай как Google: что мы узнали о поведении поискового бота Google спустя 6 млрд лог-строк