Скорость индексации изменений на сайте, довольно популярная проблема, которую раньше решали простым прогоном через Твитер, что раньше отлично помогало загнать страницы в индекс, но теперь увы этот метод потерял былую эффективность. Давайте же разберем какие основные аспекты влияют на индексацию страниц.

«Краулинговый бюджет» — это количество страниц, которые поисковый робот может обойти за конкретный промежуток времени. Если Googlebot сканирует 10 страницы в день, то месячный краулинговый бюджет составлять 310 страниц.

Алгоритм работы индексации поисковыми системами

Что бы поисковая система показала результаты выдачи, ей необходимо составить базу данных URL и их параметры, что бы понять какие именно страницы необходимо сохранить. Первое, это поиск всех URL и создания расписания дальнейшего их сканирования.

Как поисковые системы находят новые страницы:

  1. Ссылки.
  2. Браузер (Ghrome у Google и Яндекс.Браузер у Yandex) – если пользователь через эти браузеры посещает страницу, которая раннее не светилась и на нее нет ссылок, то она тоже может проиндексироватся.
  3. Система аналитика (Вебмастер, контекстная реклама).

График индексации поисковые системы составляет по многим параметрам: ссылочные связи определения PageRank и много других, давайте разберемся в наиболее значимых из них.

Главные требования, для индексации страницы:

  • Страница открыта для индексации. Код статуса – 200 и она открыта для индексация в файле robots.txt.
  • Отсутствие фильтров от поисковых систем. Сайты под фильтром поисковики активно не индексируют, максимум это периодическая переиндексация главной страницы, либо каких то других страниц. Пока наложены поисковые санкции сложно добиться быстрой индексации или переиндексации сайта.
  • Сайт не распространяет вирусы, намеренно или в случаи взлома.
  • Текстовые внутренние ссылки. Поисковые системы уже научились индексировать JavaScript и Flash, но не всегда и не при всех случаях, поэтому желательно основную навигацию реализовывать через текстовые ссылки.

Оптимизация распределения нагрузки

Если вы создали сайт на 20 000 страниц, то они вряд ли все попадут в индекс за пару секунд, у поисковой системы просто не хватит серверных мощностей. Задача поисковой системы, распределить нагрузку, в первую очередь на свои серверы, а во вторую на ваши. Логично, что у поисковых систем современные и мощные сервера, но если он будет каждую секунду скачивать по 100 URL с вашего сайта, то ваш сервер, скорее всего, просто ляжет. Поэтому для снижения нагрузки на ваш сервер поисковик делает индексацию чуть медленнее, согласно возможностям сервера и составляет оптимальное расписания индексации, что бы снизить нагрузку на серверы.

Что бы определить краулинговый бюджет сайта зайдите в панели вебмастеров > сканирование > статистика сканирования, где в виде графика можно понять:

  1. В среднем количество сканированных страниц в день.
  2. В среднем количество загруженных килобайтов в день.

Как определить краулинговый бюджет сайта

#1 — Хостинг сайта

Допустим на вашем хостинге кроме вашего сайта находятся другие сайты, поэтому поисковые системы при индексации одного сайта, понимают, что они нагружают один и тот же сервер (который они определяют по IP адресу), и что бы не перегружать серверы, они медленнее проводят индексацию сайтов с того же сервера. Отсюда ясно, что соседи на сервере могут влиять на скорость индексации, ведь если у вас молодой сайт, а с вами на одном сервере куча больших сайтов, то они будут забирать на себе весь краулинговый бюджет и оставлять вам минимум.

Поэтому выделенный сервер, это оптимальный вариант для максимально быстрой индексации.


#2 — Заголовки last modified 304

Заголовок last modified 304 – говорит поисковой системе, которая запросила страничку, что страница не изменилась, соответственно контент не будет передаваться, а будет передаваться только http заголовок.

Документ, не изменившихся с даты предыдущей индексации, которая указывается поисковым роботом в заголовке If-Modified-Since, отдает ответ 304, и поисковый паук и не скачивает ее содержимое, расходуя квоту только на реально изменившиеся со времени предыдущей индексации или же новые документы. Так же стоит учесть что матетег «Last-Modified» игнорируется Google, но другие поисковые системы могут его обрабатывать.

С помощью last modified 304 возможно исключить переиндексацию страниц, которые не изменялись с прошлой индексации, этот шаг особенно важен для сайтов с большим количеством страниц. Проверить ответ сервера на запросы роботов, можно в специальном сервисе http://last-modified.com/, который предоставляет возможность проверить любой сайт на корректность обработки заголовка If-Modified-Since.

Заголовки last modified 304


#3 — Соотношение ценных страниц к общему количеству страниц

  • Необходимо повысить качество страниц.
  • Избавиться от дублей (закрыть или оптимизировать).

 

Чаще всего, когда хотят увеличить индексацию сайтов, пользователи думают не обо всем сайте, ведь на множестве сайтах куча хлама, которая не нужна в индексе, а подразумевают только важные страницы (товары, рубрикатор, каталог).

Очень важно знать полное количество существующих страниц на сайте, помимо основных, просканируйте сайт с помощью Xenu или Screaming Frog SEO Spider, что бы найти все дубли и мусорные страницы на сайте на которые так же расходуется краулинговый бюджет.

Вам необходимо минимизировать индексацию не нужных страниц, в первую очередь, это ошибки на сайте, в виде страниц которые отдают любой код ответа отличный от 200. Так же в первую очередь необходимо убедиться в отсутствии цепочки редериктов. Например, вы перешли на https или поменяли структуру сайта, а внутри ссылки не изменили. Бывают случаи, что после всех изменений на сайте можно встретить до 4 редиректов в одной цепочке, это все будет отвлекать поисковые системы от индексации нужных страниц. Если на сайте присутствуют цепочки с большим количеством 301 или 302 редиректов, поисковые роботы могут прекратить их сканирование до того, как достигнут целевой страницы.

 

Критически важно запретить индексирование мусорных страниц. Как?

    1. Закрываем в robots.txt все не нужные страницы. Вы обязаны понимать, что у вас на сайте в виде хлама и это хлам закрывать.
    2. Проверяйте в панели вебмастеров отчет по 404 ошибкам и избавляйтесь от них, они не очень сильно влияют на ранжирования, но могут изрядно расходовать краулинговый бюджет.
    3. Избавьтесь от дублей и пустых страниц.

Однако, согласно Google, одной директивы disallow в robots.txt для этого недостаточно:

«Директива disallow не гарантирует отсутствия страницы в результатах поиска. Google всё равно может просканировать её с учётом сторонней релевантной информации, такой как входящие ссылки. Если вы хотите строго запретить индексирование страницы, используйте метатег robots со значением noindex или HTTP-заголовок X-Robots-Tag. В этом случае не следует блокировать доступ к странице в файле robots.txt, поскольку робот Google должен просканировать её, чтобы обнаружить тег и выполнить директиву».

Noindex и rel=canonnical не выход для экономии краулингового бюджета

Метатег noindex влияет на индексирование, но не на сканирование страницы. Поисковому пауку в любом случае нужно сканировать страницу, чтобы найти метатеги.

Аналогичная ситуация с атрибутом rel=canonnical. Google в любом случае пройдется по всем страницам, чтобы посмотреть, что они действительно дублируются.






Как происходить процесс индексации новых сайтов в Google?

Google добавляет новые страницы в индекс и начинает их анализировать, если эти страницы большие (минимум 500 символов контента), с уникальным контентом, то считается что качество страницы хорошее. И чем больше таких хороших страничек, тем больше страниц поисковик добавит в индекс.

Для увеличения краулингового бюджета, необходимо минимизировать страницы низкого качества на сайтеВозьмем для примера популярный вариант, с не оптимизированными страницами фильтров в интернет-магазинах. Когда выбирается больше одного фильтра, то генерируется страница с дублированным контентом. Когда такие страницы находит поисковый паук, он понимает, что нет смысла индексировать дальше потому, что велика вероятность получать только такие же страницы с низким качеством контента.

Так же очень популярно на сайтах юридической тематики добавлять статьи законов, просто скопировав их с основного источника, но поисковые системы видят, что данный контент уже встречается на другом сайте и нет смысла продолжать индексировать сайт. После чего поисковая система начинает понижать краулинговый бюджет и начинает индексировать сайт медленнее.

 


#4 — Ссылочный вес

Под ссылочный весом подразумевается: внутренний и внешний ссылочный профиль.

Внутренний ссылочный вес – с точки зрения внутренней перелинковки страницам присваивается свой ссылочный вес. Страницы с большим количеством внутренних ссылок на них будут быстрее индексироваться и чаще переиндексироватся. Поэтому если вы хотите ускорить индексацию нужных страниц, на них должны вести либо сквозные ссылки, либо ссылка с главной.

Если вы размещаете ссылку с главной, которая чаще всего более весомая, то внутренняя страница уже превращается в страницу второго уровня вложенности и быстрее проиндексируется. Поэтому также рекомендуется при добавлении новой статьи или товара показывать их на главной, что бы они быстрее попадали в индекс.

Часто можно встретить когда страницы пагинации реализуются в виде бесконечного скроллинга или когда закрывают все страницы пагинации кроме первой от индексации, в таком случаи страницы с этих страниц будут известны поисковику только с сайтмепа, и он вряд ли часто будет на них заходить, потому что на страницу нет внутренних ссылок, поэтому страницы пагинации лучше не закрывать от индексации.

Внешние ссылки: если у вас появился раздел, который почему то не индексируется, или вы просто хотите максимально быстро его проиндексировать, то вы ставите ссылку на эту страницу, на каком то трастовом сайте. Поисковики чаще заходят на трастовые сайты, и поэтому они быстрее ее найдут, дадут ей сразу весомый ссылочный вес и быстрее ее проиндексируют.


#5 — Уровень вложенности

Он исходить из предыдущего принципа, то есть ссылочный вес зависит от уровня вложенности, если у страницы 10 уровень вложенности, то у нее практически нет ссылочного веса, поэтому такая страница будет редко переиндексироватся.

Это не очень ключевой момент, ведь чаще всего страницы с таким уровнем вложенности уже старые и если они есть в индексе то все хорошо, но если вы сделали какие-то весомые изменения на такой странице, то придется долго ждать. И например если вы меняете домен или переходите с http на https, то этот процесс будет долго длиться, при наличии множества страниц с большим уровнем вложенности.


#6 — Приведите в порядок карту сайта

Файл XML Sitemap помогает поисковым роботам, организуя контент и облегчая его поиск. Поддерживайте карту сайта в актуальном состоянии и очистите её от:

      • страниц, возвращающих ошибки 4xx
      • ненужных редиректов
      • неканонических и заблокированных от индексации URL.

#7 — Скорость отдачи документов

Возвращаемся в отчет вебмастера > сканирование > статистика сканирования и смотрим на график «Время, затраченное на загрузку страницы», тут все просто, чем быстрее загружаются страницы, тем больше страниц сможет проиндексировать поисковая система.

Поисковая система выделает определенное количество времени и ей без разницы, сколько она просканирует 10 или 100. Если поисковик отправляет запрос к странице, и долго ждет ответ, получается не эффективное использование времени, это так же стоит учитывать для ускорения индексации.

      • Ускоряйте работу сервера.
      • Используйте внутренний и внешний кеш.
      • Перенесите сервер в продвигаемый регион.

# 8 — Посещаемость

Посещаемость, это очень сильный сигнал, даже если на сайт нет ни одной ссылки, куча ошибок в коде, и страница грузиться 3 минуты, но если у сайта большая посещаемость, это один из сильнейших сигналов для ускоренной индексации. В независимости, откуда вы льете трафик, контекст, социальные сети, либо ваша активность в оффлайне.