Поисковики в силах убить копипастинг! Почему нет? / Habr

Поисковики в силах убыть копипастинг! Почему нет?

Прочитав несколько топиков о борьбе с ненавистным копипастингом, возникло ощущение, что недостаёт чего-то достаточно простого, чтобы остудить основную массу злобных копипастеров и ресурсов их обитания.

Идея такая

Если мы имеем, что в интернете всё сильно завязано вокруг поисковиков (первые позиции, трафик, SEO), то почему бы именно поисковикам не взять на себя заботу о защите прав авторов оригинального контента?

Нечто из того, что здесь вы прочитаете, покажется вам повторением уже давно озвученных мыслей, но хочется сформировать полную схему и найти причины, по которым такого ещё нету на просторах сети.

Итак:

От копирования свободно доступной информации защититься невозможно.

Но можно попробовать сделать так, чтобы такое копирование не было рентабельным.

Попробуем оттолкнуться от того, что ресурсы, которые публикую контент, хотят быть хорошо видимы в поисковиках, так как это приносит дополнительный трафик и соответственно деньги. На этом можно попробовать сыграть, исключая ресурсы, или отдельные их страницы из индекса при нарушении правил перепубликации.

Судя по тому, что я прочитал в топиках и комментариях к ним, это далеко не ново и по сути так и делается сейчас, но только по инициативе правообладателя. Стандартная практика: стучать поисковикам и провайдерам на доставшие вас сайты через специальные формы. Но эта практика очень неэффективная, так как нужно время, пока вашу жалобу рассмотрят в ручном режиме. Основная проблема — отсутствие автоматизации.

Причин отсутствия автоматизации много, но основная — это то, что любой может настучать на любой сайт.

Что же делать?

В качественном оригинальном и недублированном контенте заинтересованы все: и автор, и новостной ресурс и поисковики (ссылка на оригинал в результатах поиска). Контент рекламного характера сюда не входит, так как бесконтрольное копирование и распространение только на руку рекламодателю.

Но из этих трёх, только поисковики в силах повлиять на ситуацию. Вот почему решение можно ожидать именно от них, а не от отдельного информационного агентства, которое введёт защиту своего контента.

Больше того, поисковики имеют возможности автоматизировать такой процесс. Всё, что нужно для возможности автоматизации — это точно знать, кто автор контента. Очевидно, что автором есть тот, у кого этот контент раньше появился. Отсюда следует, что таким игрокам, как Google и Яндекс достаточно, кроме стандартной формы «добавить сайт», сделать форму «добавить оригинальный контент». И кто этой формой первый воспользуется — тот и автор.

Форма заявки очень простая:

Собственно контент (не хтмл страница со всем мусором, а именно чистый текст публикации с заголовком, чтобы не напрягать систему лишней информацией)
URL (или несколько, при разбитии на страницы), по которому контент должен быть доступен в сети. Важно, чтобы на момент отправления этой формы, данная страница не имела ни одной внешней ссылки и ещё не засветилась в RSS. То есть была доступна извне, но как бы по секретному адресу. Это не обязательно, но желательно для того, чтобы кто-то другой не успел увидеть контент в сети, и раньше вас отправить такую «заявку на авторство». После отправки этой формы (и подтверждения о внесении в базу со стороны поисковика), страницу с контентом можно открывать публике и роботам (пустить в RSS и ссылаться с других страниц сайта).
По возможности этот запрос (добавление в базу и индексирование страницы) должен обрабатываться в режиме реального времени, а не ставиться в очередь (это же не добавление целого сайта), но это не обязательно, так как наличие в очереди первой такой заявки не даст пройти другим заявкам на такой же контент. Но в первом варианте, если, после обработки такой заявки, паук проиндексирует страницу с таким же контентом, он уже сможет определить, оригинал это, или уже копия.
Дополнительные поля для автора публикации возможны такие:
- Вид, в котом допустимо использование данного контента на других сайтах: ни в каком виде; только со ссылкой на оригинал; только небольшая часть со ссылкой на оригинал; только заголовок со ссылкой; использование без ограничений)
- Возможность составить списки сайтов для которых делать исключения и какие (полных запрет для конкурентов, полная свобода для партнеров, отдельные условия для агрегаторов и тд…). Так легко можно настроить постинг на Хабре и в личном блоге, на пример.
- Список небольших конкурентных сайтов местного/отраслевого масштаба, которые стоит проверять при индексировании (это нужно для осуществления целевой проверки сайтов, так как абсолютно все ресурсы сети проверять при появлении у них новых публикаций, думаю, никогда не станет возможным по техническим причинам)
Очевидно, что если автор часто генерирует контент, поисковик должен обеспечить возможность сохранять такие настройки в личном аккаунте автора/информационного_агентства для использования в последующих заявках на авторство публикации.

В идеале, чтобы не посылать такую заявку в каждый поисковик, не дублировать везде базы авторства контента и настройки публикации для каждого автора, такой сервис должен существовать независимо от поисковиков, а последние должны использовать такую общую базу при индексировании и ранжирование станиц с одинаковым контентом.
Точно такую схему предложил flashvoid в одном из комментариев. Но он предложил отталкивался от сервиса к поисковикам:

А когда накопиться значительная база подписанных статей — можно будет предложить универсальный API поисковикам что бы те выделяли в поиске оригинальные статьи.

Это конечно же более правильно, но всё же исходя из того, что есть, я считаю, что инициативу должны взять на себя именно поисковики, так как они уже имеют власть влиять на рентабельность копипастинга. Создание подобного независимого интернационального сервиса непонятно кем должно финансироваться и пахнет, в следствии, платностью в использовании для авторов, в то время как для поисковиков эта схема поможет им же улучшить качество результатов поиска. Достаточно будет, чтобы они договорились о едином стандарте для настроек аккаунта публикатора (так как получилось с sitemap, чтобы можно было один файл настроек использовать во всех поисковиках).

Рано или поздно реализацию подобной схемы должен будет внедрить каждый уважаемый себя поисковик, иначе он будет проигрывать конкурентам, которые отвечают качественной ссылкой на оригинал, в то время, когда он отвечает искусственно выведенной в топ страницей с украденным контентом, которая откроется у читателя фонтаном баннеров всех цветов радуги и всплывающими окнами всех возможных форм и размеров.

Что может делать поисковик при индексировании страницы с украденным контентом? Это уже зависит от стратегии поисковика: от исключения ресурса из индекса (через предупреждение), исключение конкретной страницы и понижение рейтинга ресурса, до понижения рейтинга этой конкретной страницы, чтобы она точно не оказалась выше оригинала, даже если ссылок на неё больше (всё это желательно делать с соответствующими сообщениями, по которым владельцы ресурсов поймут, что они сделали не так и больше не повторялись, а не тупо удивлялись снижением позиции в выдаче, или вообще исчезновением их сайта из индекса. Адреса админов давно можно брать из соответствующих сервисов поисковиков для вебмастеров, к которым все нормальные сайты стараются быть подключены, или показывать сообщения прямо в этих сервисах). Именно от этой стратегии в итоге будет зависеть репутация и качество выдачи поисковика.

Ещё один момент. Поисковики должны будут предоставить API, через который по урлю контента можно будет узнать, какие автором поставлены ограничения на его использование.

В итоге

Сайт, типа информационного агентства, для которого важна позиция в поисковике (трафик = прибыль, а ведь за множественное нарушение ограничений можно не только понижать рейтинг, но и банить в конце концов), не позволит себе опубликовать чужой контент, нарушая ограничения поставленные автором (поисковик же легко определит, есть ли ссылка на оригинал, какой объем публикации по сравнению с оригиналом и тд), а перед любой сомнительной публикацией, будет проверяться через API и страховаться от нежелательных последствий.

В ситуации с блогосферой, сервисами обсуждений и агрегаторами проще: они в поисковой выдаче просто не должны подниматься выше оригинала. А результат поиска, когда первым ликном идёт оригинал, а вторым — обсуждение на сервисе обсуждения, вполне даже полезный.
Для большинства же маленьких сайтов вообще ничего не изменится. Они ни на что не влияют, вот и парится с ними не стоит, за исключением заявки автора, или включения автором такого ресурса, в список таких, которые желательно проверять (конкурентный местный или тематический небольшой ресурс, который по умолчанию не проверялся бы).

В ситуации с переводами думаю нормальной практикой должен быть перевод с согласия автора оригинала, с последующей подачей заявки на авторство перевода уже от переводчика.

В любом случае при публикации будет нужно посылать заявку, даже с опцией «полное свободное использование» для того, чтобы кто-то другой не взял ваш материал и не послал заявку на его авторство с запретом на перепубликацию.

Подобная схема очень даже нужна, эффективна и, главное, реализуема, на мой взгляд.

Замеченные плюсы и минусы:

– Понижение в рейтинге поисковика может быть не критичным для ресурсов, которые сами создают свою аудиторию и не зависят от трафика из поиска.

– Как быть, когда о случившимся событии будут реально написаны очень похожие тексты, которые система посчитает дубликатами? Или наоборот можно так изменить текст и проверить через API, что система не увидит в нём сходство и тогда выдать за свой (но сильное изменение текста действительно тянет на свой труд, а мы же боремся со злобным копипастингом).

– При индексировании, у поисковика появляется ресурсоёмкая задача сравнение поступившего контента с базой для определения дублей и нарушения правил перепубликации. Это, как мне кажется и есть причина отсутствия реализации подобной схемы на сегодняшний день. Но вычислительные ресурсы увеличиваются день ото дня, и тогда это только вопрос времени. С другой стороны глупо при индексировании новой странички на narod.ru без единой внешней ссылки, сразу сверять её со всей базой. Достаточно тщательно проверять только самые активные ресурсы-платформы для публикация (где большая аудитория и от которых зависит направление трафика) и сверять только со свежими недавними публикациями (опять же, интерес к которым всё ещё привлекает трафик). То есть, можно спокойно откладывать (и даже не осуществлять) проверку маленьких сайтов, и не сверяться со старыми публикациями, важность которых давно угасла. Но оставить возможность сделать такую проверку по запросу правообладателя публикации, который, увидев копию своей десятилетней статьи на портале своего соседа через забор, шлёт ссылку на сайт и система в автоматическом режиме делает такую проверку и изменение позиции в выдаче (это уже возможно, так как таких запросов будет терпимое количество). И ещё раз подчёркиваю главное — всё это автоматизировано.

+ В поисковиков есть всё рычаги, ресурсы и технические возможности (возможно почти) для реализации подобной схемы.

+ Интернациональность и бесплатность решения. (В недавнем посте предлагалось решение на уровне государственного контроля, с юридической увязкой, или платный сервис)

+ Полная автоматизация процессов, которые сейчас так нуждаются в этом.

Как вы считаете, почему подобная схема до сих пор не реализована?

В идеале хотелось бы услышать мысли представителей Яндекса или Google.