Существует множество мифов вокруг того, как Google обрабатывает дублированный контента (не плагиат с сторонних ресурсов), давайте внесем ясность раз и навсегда в этот вопрос.

Многие владельцы сайтов боятся дублированного контента, больше чем спам-ссылки. Существует так много мифов вокруг дублированного контента, что он могут приводить к штрафам или что их страницы будут конкурировать друг с другом. Я постоянно вижу такие обсуждения на форумах и различных SEO площадках, где сразу становится понятно, что многие люди не понимают, как Google обрабатывает дублированный контент.

Google давно пытается убить, что эти мифы про дублированный контент всего лишь мифы. Еще в 2008 году Google заявил:

Давайте положим конец этой теме, раз и навсегда: Нет такого понятия, по крайней мере так, как большинство людей, это понимают под названием «наказание за дублированный контент».

Что такое дублированный контент?

Согласно Google:
Дублированный контент обычно относится к блокам контента внутри или между доменами, которые либо полностью, либо частично соответствуют другому контенту или в значительной мере похожи.

Люди ошибочно думают, что дублированный контент может привести к штрафным санкциям. Действительно же, дубли просто фильтруется в результатах поиска.

Сколько в Интернете дублируюшего контанта?

По словам Matt Cutts, от 25 до 30% информации в Интернете является дублированным контентом. Недавнее исследование Raven Tools подтвердил этот результат, показав, что 29% страниц были с дублирующим содержанием.

Как Google рассматривает дублированный контент?

# Дублированный контент (не путать с плагиатом) не вызывает обязательного наложения штрафных санкций на сайт.

# Google знает, что пользователи любят разнообразие в результатах поиска, а не одинаковые статьи снова и снова, таким образом Google консолидирует все результаты и показывает только одну версию.

# Google разработал алгоритм для предотвращения ранжирования дублированного контента. Он группирует различные версии информации в один кластер и отображает «лучший» URL в кластере. Алгоритм учитывает различные сигналы (например, ссылки) в пределах этого кластера.

# Дублированный контент не является основанием для принятия мер, если его целью не является манипулирование результатами поиска.

# Самое худшее, что может случиться после фильтрации, это то, что менее желательная версия страницы будет отображаться в результатах поиска.

# Google пытается определить первоисточник контента и отображать его.

# Если кто — то дублирует ваш контент без разрешения, вы можете запросить его удалить путем подачи запроса в соответствии с Законом «Digital Millennium Copyright Act».

Причины появления дублированного контента

  • HTTP и HTTPS
  • WWW и без WWW
  • Параметры навигации
  • Наличие ID сессий в URL
  • Слешы
  • Указатель страниц
  • Альтернативные версии страницы, такие как AMP страницы или страницы для печати
  • Пагинация
  • Различные версии для страны / языка

Устранение дублированного контента

Решение будет зависеть от каждой конкретной ситуации:
# Ничего не делать и надеяться, что Google правильно отобразит. Хотя я бы не рекомендовал этот вариант, но можно остановится и на нем. За последнее время Google научился эффективно решать вопросы дублирования контента.

# Канонические теги. Эти теги используются для определения нужной страницы.

# 301 редирект. Позволяет полностью удалить не нужные страницы сайта без каких либо потерь в трафике (в основном).

# Сообщить Google, как обрабатывать параметры URL. Вы можете указать Google, за что отвечают определенные параметры вместо того, чтобы позволять ему это сделать самостоятельно.

# Rel=”alternate”. Используется данный тег для закрепления альтернативных версий страниц, таких как различные страны / языки. Тег «hreflang» используется для отображения нужной страницы по критерию страна / язык в результатах поиска.

Несколько месяцев назад, Джон Мюллер, отвечая на вопросы в видеовстречи веб — мастеров, сказал, что настройка hreflang не приведет к подъему позиций сайта, но поможет показывать правильную версию сайта конкретным пользователям.

# Rel=”prev” и rel=”next”. Используется для нумерации страниц.

Выводы

Есть множество возможностей, которые помогают вебмастерам правильно настраивать индексацию сайта, что даже имея дублирующий контент, всеравно в результатах поиска показывать только нужные страницы. Настройка файла robots.txt, теги «NoFollow», «NOINDEX», настройка канонических страниц, все они ориентированы, чтобы указать, как вы хотят ранжировать ваше содержание на сайте.

Мифы о штрафах за дублированный контент должен умереть. Недопонимание правильной информации породило этот миф, но не каких штрафных санкций не бывает за дубль контента, абсолютный максимум, это ухудшение индексации самого сайта, потому что поисковый паук может уделять время не нужным страницам, либо определить за главную не ту страницу, но это максимум. Есть множество способов консолидации сигналов на нескольких страницах, и даже если вы ими не воспользуетесь, Google будет пытаться объединить их за вас.


Похожие статьи: Факторы ранжирования на странице