Многие владельцы сайтов на популярных движках, задаются вопросом, следует ли использовать тег noindex на страницах категорий и архивов, чтобы избежать дублирования контента. Повлияет ли это на общий трафик?

Это отличный вопрос. Для каждого SEO специалиста важно понимать, как работает Google. Итак, для начала ответ — вероятно, нет. Большинству сайтов не нужно беспокоиться о том, что Google сканирует страницы, которые не несут дополнительной пользы.

Такие страницы, как страницы тегов, категорий и результаты поиска, есть во всех популярных CMS при установки «из коробки», но их количество обычно недостаточно, чтобы иметь значение. Если Google видит в них ценность, он сканируют и индексирует их. Но, если у вас большой сайт с сотнями тысяч страниц, это может стать более серьезной проблемой, поскольку вы хотите сосредоточить краулинговый бюджет Google на важных страницах, запретив сканирование страниц которые не имеют никакой ценности.

Чтобы полностью ответить на этот вопрос, вы должны понимать разницу между блокировкой в robots.txt, мета-тегом noindex, а также, как работают 404 и soft 404.

Блокировка в Robots.txt

Если прописать запрет в robots.txt, вы фактически запретите доступ поисковым роботам к этим страницам.

Если Google обнаружит страницу, которая заблокирована в файле robots.txt, он не будут выполнять команду «Fetch» или GET для доступа к заголовку страницы. Это означает, что если позже вы решите, изменить статус страницы с 200 на 301 или 404, Google не сможет увидеть это изменение.

Команды в Robots.txt должны быть ограничены страницами, которые вы знаете, Google там не чего делать, а пользователи не будут ссылаться на них, вы не будете ссылаться на них на сайте, и они, вероятно, защищены паролем).

Страницы администратора, авторизации в систему или корзина — хороший пример страниц, которые вы можете заблокировать в robots.txt. Не стоит блокировать файлы JavaScript или CSS, которые необходимы для правильной визуализации страниц.

Meta Robots NoIndex Tag

Тэг meta robots=noindex отличается от тега robots.txt, но многие SEO специалисты относятся к нему одинаково. Главные различия тега noindex:

  • Хоть это и директива robots, она менее категорична, чем robots.txt. Google и другие поисковые системы могут посетить страницу, или отправить запрос для доступа к заголовку страницы.
  • meta robots = noindex предписывает Google именно не индексировать, то есть не добавлять страницу в результаты поиска. Google по-прежнему будет собирать все данные на странице и переходить по всем ссылкам, если вы не используете nofollow. Nofollow не является официальной директивой, но Google и другие поисковые системы учитывают ее.
  • Если вы используете тег noindex, а затем решите поставить на страницы код ответа 301 404, Google сможет получить доступ к этому изменению и соответствующим образом обновить свои данные.

404 и soft 404

Код ответа 404 указывают на то, что страница не найдена, и является веб-стандартом, который учитывают все поисковые системы. Если Google попадает на страницу с ошибкой 404, он удаляют ее из индекса, но сохраняют ее в своем плане сканирования, чтобы периодически перепроверять, чтобы убедиться, что ничего не изменилась.

Soft 404 — это неофициальное обозначение, которое Google размещает на страницах, которые могут отдавать статус 200 (Найдено), но которые не предоставляют никакого контента. Внутренние страницы результатов поиска, которые имеют нулевые результаты, отличный тому пример. Если Google определяет страницу как soft 404, он обрабатывают ее так же, как и 404. Как и в случае 404, он будет периодически проверять ее, чтобы убедиться, что она не меняется.

Стоит ли использовать Noindex на страницах категорий?

После того как мы рассмотрели варианты закрытия страниц от индексирования, можно вернутся к нашему вопросу — является ли noindex правильной стратегией для страниц категорий?

Ответ заключается в том, что если вы чувствуете, что страницы не добавляют никакой ценности, следует полностью удалить их и поставить статус 404. Если страницы важны для навигации пользователей и являются «необходимым злом» наличия блога, то на них стоит поставить noindex.

Но, если вы используете noindex на странице, Google заявил, что в конечном итоге он будет обрабатывать такие страницы как soft 404. Это означает, что никакие ссылки, на эти страницы, не будут учитываться при определении рейтинга.

noindex на странице обрабатывает как soft 404

Чего не делать

Не используйте rel=canonical на всех страницах категорий и тегов на корневые страницы блога. Это неправильное использование rel=canonic, поэтому Google будет игнорировать их.

Не блокируйте так же эти страницы в robots.txt. Если вы заблокируете их, Google не сможет увидеть изменения на них, но они будут отображаться в результатах поиска вот так:

Блокировка страницы в robots.txt

Итог

Убедитесь, что вы знаете разницу между командами robots.txt и meta robots noindex. Используйте их надлежащим образом. Если у вас есть страницы, которые не представляют никакой ценности для поисковиков в качестве целевой страницы, но они необходимы для навигации, либо переосмыслите свою стратегию навигации, либо добавьте noindex на эти страницы.

Если у вас есть только несколько таких страниц или вы не думаете, что они имеют большое значение на вашем сайте, просто оставьте их как есть. Google достаточно умен, чтобы понять это.


Читайте также: Google: директива «noindex», не поможет сохранить краулинговый бюджет | Методы оптимизации и ускорения индексации страниц сайта