Pull to refresh

Дублированный контент в Гугле

Reading time2 min
Views636
На последней конференции «Стратегии поисковых систем» в Чикаго было много вопросов о дублирующемся контенте. Мы признаем что есть много тонкостей и узких мест ( наших ошибок ) по работе с таким контентом, поэтому я бы хотел прояснить некоторые моменты:
Почему Гугль заботится об оригинальности контента ?
Наши пользователи обычно хотят видеть подборку различных сайтов ( или статей ) по своему запросу. Представляете каково будет разочарование если введя свой запрос человек увидит 10 одинаковых статей на разных сайтах на первой странице серпа? А вэбмастера еще ругают нас за то что страница вида example.com/contentredir?value=shorty-george=en может оказаться выше чем example.com/en/shorty-george.htm
Что гугль делает с дублированным контентом ?
В процессе индексации и ранжирования сайтов мы стараемся выбирать страницы с оригинальной информацией. Эти фильтры означают что если ваша статья на сайте есть в двух вариантах — «обычный» и «для печати» и один из них не заблокирован через robots.txt или через noindex то сохранен в индексе будет только один вариант статьи. В редких случаях, когда мы видим что дублирующийся контент находится на сайте с целью манипулировать результатами поиска — мы можем исключить такой сайт из серпа. Однако мы предпочитаем заниматься именно фильтрацией вместо удаления сайтов с дублированым контентом из выдачи. Поэтому в большинстве случаев худшее что может случиться с вашим сайтом это «более низкое» место в серпе.
Как лучше распределять дублированный текст ?
— Вместо того что бы предоставлять нашему роботу какую из копий текста выбрать ( т.е. обычную или «для принтера» и т.п. ). Блокируйте лишние копии через файл роботс
— используйте 301 редирект если вы изменили структуру сайта ( с помощью .htaccess ).
— Используйте полные ссылки, а не /page/ или /page или /page/index.htm
— Используйте домены а не субдомены, также не забывайте что при ранжировании активно используется определение страны ( т.е. русскоязычным пользователям в первую очередь будут показаны домены .ru и т.п. )
— Используйте RSS аккуратно, всегда следите что бы сайты которые импортируют ваши статьи ссылались на ваш сайт в КАЖДОЙ статье
— Если на ваш сайт ссылаются как на «site.ru» так и на «www.site.ru» указываете КАКУЮ ИМЕННО версию сайта индексировать.
— Минимизируйте повторяющиеся блоки текста на страницах, например если внизу или вверху каждой статьи вы в нескольких предложениях расписали запреты на копирование контента и т.п., то лучшим решением будет вынести такой текст в отдельную страницу и поставить на нее ссылку во всех статьях.
— Избегайте опубликования по алфавиту или например по странам в том случае если кликнув по одной из ссылок пользователь увидит пустой шаблон ( т.е. например нет у вас статей на букву Я, но ссылка на «Я» есть ). Пользователи не любят такие шутки, а мы работаем для пользователей.
— Будьте «на ты» с вашей CMS, постарайтесь узнать все способы которыми дублируется контент ( например версия для печати, версия для мобильных, и т.п.)
— «Не парься, будь счастлив» Не слишком беспокойтесь о дублировании или воровстве контента с вашего сайта, как правило гугль справляется с такими воришками без проблем. Если уж вас совсем достал какой-нибудь «ксерокс» обратитесь в www.google.com/dmca.html — они отправят нам запрос на удаление его из индекса.
Оригинал статьи http://googlewebmastercentral.blogspot.com/2006/12/deftly-dealing-with-duplicate-content.html
Русский перевод статьи http://blog.seotrade.ru/?p=12
Tags:
Hubs:
Total votes 9: ↑2 and ↓7-5
Comments0

Articles