Главная » Продвижение сайтов » Контент » Что такое дублированный контент и как это исправлять

Что такое дублированный контент и как это исправлять

[sc name=»ads3″]

Всегда, когда речь заходит о дублированном контенте на сайте, то SEO профессионалы советуют избегать этой ситуации. Дубли контента могут возникать на любых сайтах, независимо от их системы управления, в том числе и WordPress. Но это не значит, что когда люди лгут вам, когда говорят: «WordPress является SEO оптимизированным». Хотя в чем-то они и не правы. Когда вы решаете создать сайт на платформе WordPress, то принимаете мудрое решение, однако это еще не все. Есть много вещей, которые нужно сделать в первый же день.

Проблемы с дублированным контентом могут возникать по многим причинам, и сегодня мы рассмотрим некоторые основные из них и способы их решения.

Что именно подразумевается под дублированным контентом?

Дублированный контент – это когда на вашем сайте есть определенное содержание, которое может быть доступно по двум, или более, разным URL.

Также есть такое понятие, как внешний дублированный контент – содержимое, которое было скопировано с вашего сайта и размещено на стороннем ресурсе.

Например, на плохо оптимизированном блоге одинаковый контент может находится по таким разным URL:

  • http://2wordpress.net/rabota-v-adsense (основная страница)
  • http://www.2wordpress.net/rabota-v-adsense (страница на дублированном домене)
  • http://2wordpress.net/rabota-v-adsense/print (версия страницы для печати)
  • http://www.2wordpress.net/rabota-v-adsense/print (версия страницы для печати на дублированном домене)
  • http://2wordpress.net/tag/zarabotok (часть записи или запись в целом на странице прикрепленного тега)
  • http://www.2wordpress.net/tag/zarabotok (тот же тег, только на продублированном домене)
  • http://2wordpress.net/category/zarabotok (часть поста или пост целиком на странице принадлежащий определенной категории)
  • http://www.2wordpress.net/category/zarabotok (проблема с категорией на дубле домена)
  • http://2wordpress.net/page/5/ (часть статьи или полный вывод содержимого на постраничной навигации)
  • http://www.2wordpress.net/page/5/ (страничная навигация на продублированном домене)
  • http://wordpressinside.ru/adsense-post (внешний дубль)
[sc name=»ads2″]

Вот вам простой пример, при котором поисковые системы будут находить 10 дублей на разных страницах вашего сайта. При наличии небольшого количества дублей поисковики будут выбирать один из них и делать приоритетным в выдаче. Если же дублей много, то в таком случае на сайт будут накладываться санкции.

Как найти дублированный контент

Здесь мы говорим о дублированном контенте в пределах вашего блога – это главное место, где нужно начать исправлять проблемы.

Находить вручную дубли, когда блог имеет много страниц, довольно нудно и скучно.

  1. Оценивать уникальность содержимого каждой записи. Сделать это можно через специальные программы, которые предоставляют биржи статей. Данный метод займет у вас очень много времени, так как придется проверять каждую страницу отдельно.
  2. Заходите в поисковую систему, выбираете расширений поиск, указываете адрес своего сайта и вбиваете в поиск часть текста страницы, которую нужно проверить на продублированность. Если на странице выдачи появилась одна страница, то все хорошо, если больше – это, скорее всего, указывает на дубли. Чтобы проверить перейдите на страницы с выдачи и проанализируйте: действительно ли содержимое продублировалось или вы написали две похожих статьи.
  3. Заходим в Google и в строку поиска вводим имя вашего сайта в следующем формате «site:2wordpress.net». Сразу переходите на последние страницы выдачи и проанализируйте их. Там не должно быть в индексе страниц с тегами, архивами, авторами, версиями для печати и т.д.

Если вы обнаружили дубли, то это значит, что пришло время поработать над вашим сайтом в плане оптимизации.

Что вызывает дубли?

Теги и категории

Это первое место, с которого вы должны начать. В случае, когда вы используете полный вывод  содержимого (это когда содержимое статьи от начала и до конца выводиться на главной странице и в других местах, а не пару абзацев как обычно), то стоит скрыть от индексации ваши категории, так как они будут создавать дубли контента.

Теги же я советую скрывать от индексации в любом случае. Дело в том, что они не предназначены для поисковых систем и не несут никакой ценности для них, они рассчитаны на реальных пользователей, которым легче будет ориентироваться по материалах.

Архивы и архивы авторов

В WordPress есть возможность просматривать архивы статей предыдущих месяцев, а также архивы авторов. Эта особенность полезна для пользователей, однако от поисковых роботов этот раздел следует скрывать, так как в обеих случаях вы будете иметь дело с дублированным контентом.

Вложенные изображения

Вот вам еще одна проблема, которую многие из вас, наверное, не принимают всерьез, пока сами не столкнетесь с ей. Когда вы вставляете картинки в запись, то часто используете разные лайтбоксы, которые открывают изображение поверх контента. Возможно вы не используете такого, но ведь видели в других блогах, да?

Так вот, скажем, у вас есть статья с таким URL:

  • http://2wordpress.net/post

А в запись вставлена картинка с название «kartinka». Теперь, чтобы картинка всплывала поверх контента плагин проставляет на нее специальную ссылку, которая может выглядеть примерно так:

  • http://2wordpress.net/post/kartinka

В результате у нас получается дубль. И это связанно не только с картинками, но и другими элементами, которые касаются этой проблемы.

Чтобы избегать подобных моментов, я советую использовать плагин Yoast SEO, в настройках которого есть такая опция «Redirect attachment URL’s to parent post URL», которая позволяет перенаправлять все ссылки на дочернюю страницу (статью).

Ответы на комментарии ReplytoCom

С этой проблемой блогеры сталкиваются еще с далекого 2011 года. Сейчас, если не ошибаюсь, WordPress исправил этот коварный момент. Однако если проверить сейчас результаты поиска, то в выдаче есть много проблемных блогов. Возможно, люди сидят на старых версиях WordPress, а возможно проблема все еще осталась. Так что вам следует проверить.

Причиной являются древовидные комментарии, которые, на самом деле, важны только для пользователей, так как помогают им в общении з другими пользователями.

Однако при нажатии на кнопку «Ответить» создается полный дубль страницы.

Самым простым решением будет следующая строчка в вашем robots.txt:

Disallow: /*?replytocom

Канонические URL-адреса

Канонические URL-адреса являются важным аспектом в SEO-оптимизации вашего сайта. Дело в том, что ваши страницы могут иметь такую структуру:

  • http://2wordpress.net/post
  • http://2wordpress.net/post/
  • http://www.2wordpress.net/post
  • http://www.2wordpress.net/post/
  • http://2wordpress.net/post/index.php
  • https://2wordpress.net/post/
  •  http://www.2wordpress.net/post/index.php

Все эти адреса как-бы разные и ведут они на одну и ту же страницу, таким образом создавая дублированный контент.

Установив канонический адрес, вы будете перенаправлять поисковые системы на тот URL, с которым они должны связать страницы в своем индексе.

В новых версиях WordPress это предусмотрено по умолчанию. Однако вы можете использовать другие SEO-плагины, чтобы быстро добавить канонический адрес на свой блог.

Кроме того, стоит позаботиться об наличии такого кода в секции <head>:

<?php if ( is_singular() ) { ?>
<link rel="canonical" href="<?php the_permalink(); ?>" />
<?php } ?>

Убираем дубли в случае воровства контента

Когда какой-то блогер нагло скопировал вашу статью, даже не оставь ссылки на источник, то следует избавиться от такого дубля.

Здесь нам нужно воспользоваться Google DMCA. Google DMCA очень полезен для блогеров и вебмастеров, он позволяет подать жалобу в отношении любого сворованного контента с вашего сайта. Если это блог создан на BlogSpot, то Google немедленно удалит скопированный контент, если это другой блог или статический сайт, то Google снимет страницу, которая нарушает ваше авторское право, с результатов поиска.

Также прочитайте: Как пользоваться Google DMCA

Как скрывать рубрики, теги, страницы и т.д. от индексации

Практически все вышеперечисленные проблемы можно решить с помощью SEO-плагинов, например, Yoast SEO, All in One SEO Pack, Platinum SEO Pack и другие.

Также используйте для этих целей свой robots.txt, за пример можете взять мой образец 2wordpress.net/robots.txt.

В заключение хочу поделиться еще одной мыслью, что поисковые роботы с каждым годом становятся все умнее, поэтому они уже сейчас способны фильтровать дубли на вашем сайте и просто опускать их из поиска, что никак не повлияет на ранжирование вашего сайта.

[sc name=»ads3″]

То есть, по сути, сейчас эта проблема не так опасна, как скажем пару лет назад. Некоторые веб-мастера советуют новичкам вообще ничего не предпринимать, так как без опыта они могут загнать в noindex не те страницы и навредить сайту куда сильнее, чем простые дубли, которые находятся в «соплях» выдачи.

Мне, например, также наплевать на дубли, однако мне хочется, чтобы в индексе страниц моих сайтов был порядок – сугубо главная страница, записи блога и страницы с информацией, без тегов, категорий, архивов и т.д.

Знаете другие проблемы, которые влекут за собой возникновение дублей страниц? Тогда поделись этим в комментариях. Также напишите своем мнение – страшны ли дубли на самом деле?

3 комментария

  1. Наталья

    Роман, очень полезная заметка. Я и не знала, что такое возможно. Что получается, отвечать на комментарии нужно не через «ответить» в консоли блога, а на странице, где расположена заметка?

    • Наталья, честно говоря, я не уверен, что данная проблема все еще актуальна для новых версий движка. Ранее – да, создавался полностью полный дубль страницы, примерно до конца 2014 года. Если загуглить «Disallow: /*?replytocom», то можно наблюдать сотни сайтов, в robots.txt которых прописана эта функция. Что наверняка убедиться, попробуйте ввести в строку поиска такое: site:2wordpress.net replytocom, заменив на свой адрес.

  2. Ирина

    Никогда даже не могла и предположить, что есть дублированный контент. Давно работаю коперайтером и пишу отзывы и не разу не сталкивалась с этим. Спасибо автору,за столь подробную подборку, теперь буду знать все необходимые нюансы и как их можно исправить. Вопрос а как же, защитить свои работы от дублирования?

Оставить комментарий

Ваш email нигде не будет показанОбязательные для заполнения поля помечены *

*