Поисковики в силах убить копипастинг! Почему нет?

    Поисковики в силах убыть копипастинг! Почему нет?
    Прочитав несколько топиков о борьбе с ненавистным копипастингом, возникло ощущение, что недостаёт чего-то достаточно простого, чтобы остудить основную массу злобных копипастеров и ресурсов их обитания.

    Идея такая

    Если мы имеем, что в интернете всё сильно завязано вокруг поисковиков (первые позиции, трафик, SEO), то почему бы именно поисковикам не взять на себя заботу о защите прав авторов оригинального контента?


    Нечто из того, что здесь вы прочитаете, покажется вам повторением уже давно озвученных мыслей, но хочется сформировать полную схему и найти причины, по которым такого ещё нету на просторах сети.

    Итак:

    От копирования свободно доступной информации защититься невозможно.

    Но можно попробовать сделать так, чтобы такое копирование не было рентабельным.

    Попробуем оттолкнуться от того, что ресурсы, которые публикую контент, хотят быть хорошо видимы в поисковиках, так как это приносит дополнительный трафик и соответственно деньги. На этом можно попробовать сыграть, исключая ресурсы, или отдельные их страницы из индекса при нарушении правил перепубликации.

    Судя по тому, что я прочитал в топиках и комментариях к ним, это далеко не ново и по сути так и делается сейчас, но только по инициативе правообладателя. Стандартная практика: стучать поисковикам и провайдерам на доставшие вас сайты через специальные формы. Но эта практика очень неэффективная, так как нужно время, пока вашу жалобу рассмотрят в ручном режиме. Основная проблема — отсутствие автоматизации.

    Причин отсутствия автоматизации много, но основная — это то, что любой может настучать на любой сайт.


    Что же делать?


    В качественном оригинальном и недублированном контенте заинтересованы все: и автор, и новостной ресурс и поисковики (ссылка на оригинал в результатах поиска). Контент рекламного характера сюда не входит, так как бесконтрольное копирование и распространение только на руку рекламодателю.

    Но из этих трёх, только поисковики в силах повлиять на ситуацию. Вот почему решение можно ожидать именно от них, а не от отдельного информационного агентства, которое введёт защиту своего контента.

    Больше того, поисковики имеют возможности автоматизировать такой процесс. Всё, что нужно для возможности автоматизации — это точно знать, кто автор контента. Очевидно, что автором есть тот, у кого этот контент раньше появился. Отсюда следует, что таким игрокам, как Google и Яндекс достаточно, кроме стандартной формы «добавить сайт», сделать форму «добавить оригинальный контент». И кто этой формой первый воспользуется — тот и автор.

    Форма заявки очень простая:
    • Собственно контент (не хтмл страница со всем мусором, а именно чистый текст публикации с заголовком, чтобы не напрягать систему лишней информацией)

    • URL (или несколько, при разбитии на страницы), по которому контент должен быть доступен в сети. Важно, чтобы на момент отправления этой формы, данная страница не имела ни одной внешней ссылки и ещё не засветилась в RSS. То есть была доступна извне, но как бы по секретному адресу. Это не обязательно, но желательно для того, чтобы кто-то другой не успел увидеть контент в сети, и раньше вас отправить такую «заявку на авторство». После отправки этой формы (и подтверждения о внесении в базу со стороны поисковика), страницу с контентом можно открывать публике и роботам (пустить в RSS и ссылаться с других страниц сайта).
      По возможности этот запрос (добавление в базу и индексирование страницы) должен обрабатываться в режиме реального времени, а не ставиться в очередь (это же не добавление целого сайта), но это не обязательно, так как наличие в очереди первой такой заявки не даст пройти другим заявкам на такой же контент. Но в первом варианте, если, после обработки такой заявки, паук проиндексирует страницу с таким же контентом, он уже сможет определить, оригинал это, или уже копия.

    • Дополнительные поля для автора публикации возможны такие:
      • Вид, в котом допустимо использование данного контента на других сайтах: ни в каком виде; только со ссылкой на оригинал; только небольшая часть со ссылкой на оригинал; только заголовок со ссылкой; использование без ограничений)
      • Возможность составить списки сайтов для которых делать исключения и какие (полных запрет для конкурентов, полная свобода для партнеров, отдельные условия для агрегаторов и тд…). Так легко можно настроить постинг на Хабре и в личном блоге, на пример.
      • Список небольших конкурентных сайтов местного/отраслевого масштаба, которые стоит проверять при индексировании (это нужно для осуществления целевой проверки сайтов, так как абсолютно все ресурсы сети проверять при появлении у них новых публикаций, думаю, никогда не станет возможным по техническим причинам)
      Очевидно, что если автор часто генерирует контент, поисковик должен обеспечить возможность сохранять такие настройки в личном аккаунте автора/информационного_агентства для использования в последующих заявках на авторство публикации.

    В идеале, чтобы не посылать такую заявку в каждый поисковик, не дублировать везде базы авторства контента и настройки публикации для каждого автора, такой сервис должен существовать независимо от поисковиков, а последние должны использовать такую общую базу при индексировании и ранжирование станиц с одинаковым контентом.
    Точно такую схему предложил flashvoid в одном из комментариев. Но он предложил отталкивался от сервиса к поисковикам:
    А когда накопиться значительная база подписанных статей — можно будет предложить универсальный API поисковикам что бы те выделяли в поиске оригинальные статьи.
    Это конечно же более правильно, но всё же исходя из того, что есть, я считаю, что инициативу должны взять на себя именно поисковики, так как они уже имеют власть влиять на рентабельность копипастинга. Создание подобного независимого интернационального сервиса непонятно кем должно финансироваться и пахнет, в следствии, платностью в использовании для авторов, в то время как для поисковиков эта схема поможет им же улучшить качество результатов поиска. Достаточно будет, чтобы они договорились о едином стандарте для настроек аккаунта публикатора (так как получилось с sitemap, чтобы можно было один файл настроек использовать во всех поисковиках).

    Рано или поздно реализацию подобной схемы должен будет внедрить каждый уважаемый себя поисковик, иначе он будет проигрывать конкурентам, которые отвечают качественной ссылкой на оригинал, в то время, когда он отвечает искусственно выведенной в топ страницей с украденным контентом, которая откроется у читателя фонтаном баннеров всех цветов радуги и всплывающими окнами всех возможных форм и размеров.

    Что может делать поисковик при индексировании страницы с украденным контентом? Это уже зависит от стратегии поисковика: от исключения ресурса из индекса (через предупреждение), исключение конкретной страницы и понижение рейтинга ресурса, до понижения рейтинга этой конкретной страницы, чтобы она точно не оказалась выше оригинала, даже если ссылок на неё больше (всё это желательно делать с соответствующими сообщениями, по которым владельцы ресурсов поймут, что они сделали не так и больше не повторялись, а не тупо удивлялись снижением позиции в выдаче, или вообще исчезновением их сайта из индекса. Адреса админов давно можно брать из соответствующих сервисов поисковиков для вебмастеров, к которым все нормальные сайты стараются быть подключены, или показывать сообщения прямо в этих сервисах). Именно от этой стратегии в итоге будет зависеть репутация и качество выдачи поисковика.

    Ещё один момент. Поисковики должны будут предоставить API, через который по урлю контента можно будет узнать, какие автором поставлены ограничения на его использование.



    В итоге


    Сайт, типа информационного агентства, для которого важна позиция в поисковике (трафик = прибыль, а ведь за множественное нарушение ограничений можно не только понижать рейтинг, но и банить в конце концов), не позволит себе опубликовать чужой контент, нарушая ограничения поставленные автором (поисковик же легко определит, есть ли ссылка на оригинал, какой объем публикации по сравнению с оригиналом и тд), а перед любой сомнительной публикацией, будет проверяться через API и страховаться от нежелательных последствий.

    В ситуации с блогосферой, сервисами обсуждений и агрегаторами проще: они в поисковой выдаче просто не должны подниматься выше оригинала. А результат поиска, когда первым ликном идёт оригинал, а вторым — обсуждение на сервисе обсуждения, вполне даже полезный.
    Для большинства же маленьких сайтов вообще ничего не изменится. Они ни на что не влияют, вот и парится с ними не стоит, за исключением заявки автора, или включения автором такого ресурса, в список таких, которые желательно проверять (конкурентный местный или тематический небольшой ресурс, который по умолчанию не проверялся бы).

    В ситуации с переводами думаю нормальной практикой должен быть перевод с согласия автора оригинала, с последующей подачей заявки на авторство перевода уже от переводчика.

    В любом случае при публикации будет нужно посылать заявку, даже с опцией «полное свободное использование» для того, чтобы кто-то другой не взял ваш материал и не послал заявку на его авторство с запретом на перепубликацию.


    Подобная схема очень даже нужна, эффективна и, главное, реализуема, на мой взгляд.




    Замеченные плюсы и минусы:


    – Понижение в рейтинге поисковика может быть не критичным для ресурсов, которые сами создают свою аудиторию и не зависят от трафика из поиска.

    – Как быть, когда о случившимся событии будут реально написаны очень похожие тексты, которые система посчитает дубликатами? Или наоборот можно так изменить текст и проверить через API, что система не увидит в нём сходство и тогда выдать за свой (но сильное изменение текста действительно тянет на свой труд, а мы же боремся со злобным копипастингом).

    – При индексировании, у поисковика появляется ресурсоёмкая задача сравнение поступившего контента с базой для определения дублей и нарушения правил перепубликации. Это, как мне кажется и есть причина отсутствия реализации подобной схемы на сегодняшний день. Но вычислительные ресурсы увеличиваются день ото дня, и тогда это только вопрос времени. С другой стороны глупо при индексировании новой странички на narod.ru без единой внешней ссылки, сразу сверять её со всей базой. Достаточно тщательно проверять только самые активные ресурсы-платформы для публикация (где большая аудитория и от которых зависит направление трафика) и сверять только со свежими недавними публикациями (опять же, интерес к которым всё ещё привлекает трафик). То есть, можно спокойно откладывать (и даже не осуществлять) проверку маленьких сайтов, и не сверяться со старыми публикациями, важность которых давно угасла. Но оставить возможность сделать такую проверку по запросу правообладателя публикации, который, увидев копию своей десятилетней статьи на портале своего соседа через забор, шлёт ссылку на сайт и система в автоматическом режиме делает такую проверку и изменение позиции в выдаче (это уже возможно, так как таких запросов будет терпимое количество). И ещё раз подчёркиваю главное — всё это автоматизировано.

    + В поисковиков есть всё рычаги, ресурсы и технические возможности (возможно почти) для реализации подобной схемы.

    + Интернациональность и бесплатность решения. (В недавнем посте предлагалось решение на уровне государственного контроля, с юридической увязкой, или платный сервис)

    + Полная автоматизация процессов, которые сейчас так нуждаются в этом.



    Как вы считаете, почему подобная схема до сих пор не реализована?


    В идеале хотелось бы услышать мысли представителей Яндекса или Google.


    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 132

    • UFO just landed and posted this here
        –2
        Поисковик же в силах определить, когда оригинал удалили, и тогда все ограничения как бы и не в силе — в результатах поиска сразу появляются копии.
          +3
          А кто их будет публиковать зная, что пока оригинал жив они не будут в индексе?
            +2
            Многие мелкие сайты, на которых такая схема не распространяется. И конечно же web.archive.org
              –1
              Этого явно не достаточно, бывает что сайт лежит и недоступен а там оригинал и нет копий
                +1
                Это не причина не бороться с тупым копипастом. Тем более, что при нормальном применение схемы, будет нормальная практика перепубликаций, просто обязательно будет ссылка на источник (хоть и мёртвый в некоторых случаях).

                Вы же взялись рассматривать крайний случай с неадекватным публикатором, который решил вообще запретить перепубликацию в любом виде, а сам выложил материал на своём домашнем сервере.
                  0
                  Если есть ссылка на источник то нет санкций? верно я понимаю?

                  А часто сайты ложатся от чрезмерной нагрузки, погуглите сколько упало сайтов СМИ от запросов «Михайло Джексон»
                    0
                    Если есть ссылка на источник то нет санкций? верно я понимаю?
                    Грубо говоря, да.

                    сайты ложатся от чрезмерной нагрузки
                    Это на совести публикатора.
                    0
                    Ни в одном поисковике я не видел, чтоб они нормально определяли дубликаты. Гугл кажется показывает иногда, что упс, результаты кончились, остальное похоже повторы, но при этом несколько копий одного и того же на первой показывает…

                    Вообще, если они научатся выделять на индексируемых страничках статью, и понимать её идентичность другим статьям — пусть группируют в результатах поиска по статьям: типа, вот есть ещё такой текст по вашему запросу, и вот у него такие зеркала/копии есть. Примерно как они сейчас разделы сайта показывают, под ссылкой на корень сайта.
            0
            копия из кэша поисковика Вас спасёт
            +1
            Механизм, предложенный вами, многие уже реализуют самостоятельно: пингуют поисковики с тем, чтобы те их проиндексировали, а уже потом открывают контент для всех. Но встает вопрос: что сможет сделать поисковик? Побить вора?

            А что касается вопроса, какую ссылку ставить выше — авторскую или воровскую, тут тоже не все однозначно. Может у автора дизайн паршивый, а у вора с этим все ок, плюс материал снабжен очень полезной сопутствующей информацией. В таком случае автор обижен, но объективно страница вора лучше. Дилемма?
              –1
              Может у автора дизайн паршивый, а у вора с этим все ок, плюс материал снабжен очень полезной сопутствующей информацией.
              Думаю стоит такой хороший материал ставить вторым после оригинала. Тогда он и доступен и правомерно дышит автору в затылок. Но оценка качества — это ещё одна задача.
                +1
                А теперь возьмём пример. Набрал я в поисковике к примеру «flash dragStart», и мне выдалось 10 сайтов, с одной и тойже статьёй? Бред, я предпочитаю текущий вариант, когда в топ 10 разные варианты, статей подходящих под это условие.

                Я думаю лучше всего подходит другой вариант. Ввести «рейтинг копипаста», основанный к примеру на проценте краденых статей. И уже на основе рейтинга управлять позицией сайта.
                +1
                А некоторые уже понижают статью в выдаче при явной копии. Гугл, насколько я знаю, экспериментировал с такими вещами.

                Красота дизайна — вещь слишком субъективная чтобы здесь обращать на неё внимание.
                  0
                  Надо просто все ссылки на оригинал и копии — выводить в результате поиска вместе, единой группой. На первом месте оригинал, ежели поисковиком определится, а сразу дальше, с отступом вправо — список копий.
                    0
                    и копии после 5-ой или 10-ой — уносить ссылкой на отдельной странице — типа «ещё копии»
                  +6
                  Поисковики занимаются вещами которые приносят прибыль, тратить мощности на вещи которые этой прибыли не приносят, неразумно по меньшей мере.
                    +2
                    Качественная выдача без массы дубликатов в перспективе как раз может превратится в прибыль.
                      0
                      что бы она превратилась в прибыль нужны договоры с производителем контента. А это большие заморочки и опять потеря ресурсов.
                        +1
                        В такой схеме как раз и не нужно договоров, в том то и суть. В такой схеме всё самоорганизуется, так как процессы автоматизированы.
                          0
                          это лишнее усложнение алгоритмов и нагрузка на поисковик. Далее как правило новости предоставляются интернет-изданиям от новостных агентств по закрытой подписке. То есть автором является агентство, но оно не публикует эти материалы.
                      0
                      Насчет прибыли — рекомендую поближе познакомиться с историей компании Google, у которой изначально не было цели вести финансовую деятельность; также посмотреть их ближайшие планы и методы развития и попытаться понять в чем же их феноменальный успех.

                      Чем дешевле, качественнее и удобнее продукт — тем более высока аудитория. Чем выше аудитория — (додумывайте сами)

                      Мысль автора топика — один из весьма рациональных вариантов улучшения качества выдачи искомой информации. Поиск и устранение дубликатов — это одна из важных целей каждой компании, занимающейся хранением и обработкой информации.
                        0
                        изначально Google был создан при университете для обучения и был студенческим проектом. А далее — «В один прекрасный день, когда студенческим проектом начали пользоваться до 10 000 человек ежедневно — поиск начал “есть” 50% всего университетского трафика, ребятам мягко намекнули, что пора уже и честь знать и искать новое место обитания.»

                        Просить оппонента учить историю не зная ее самому глупо.
                          0
                          Я не это имел ввиду, прошу прощения за грубость.

                          Успех Google складывался из многих факторов. Самыми важными из которых были удобство пользования, объем собранной и грамотно структурированной информации, количество обрабатываемых запросов и размер аудитории.

                          Финансовый доход у компании появился в 1999-2000 году, т.е. аж через 4 года упорного труда без каких либо финансовых перспектив…

                          P.S.: Я никогда не считал, что проекты изначально жестко привязанные к финансовым требованиям смогут оправдать ожидания. А уж если финансовые требования заставляют компанию отказываться от рациональных способов потенциального увеличения аудитории — так тем более.
                      +2
                      «убИть» в заголовке
                        –1
                        Потому что уникальный контент это отлично, но порой сгенерировать уникальное описание нереально… придумайте красивую текстовку для патч-корда ))
                          –1
                          Патчкордим своими силами с помощью отвертки!
                            +1
                            придумайте красивую текстовку для патч-корда
                            Не думаю, что это те тексты за которые кто-то будет переживать, чтобы у них не украли… Речь идёт о другого сорта публикациях.
                            +2
                            Рассказываю почему

                            Предположим — у тебя слабенький сайт, с pr1, тиц10
                            А у меня — раскрученный pr5, тиц100
                            Ты выкладываешь статью
                            Я ее передираю и выкладываю у себя
                            Кому больше будет доверять ПС? Правильно — моему сайту

                            Понятно теперь чего так ПС не делают?
                              –1
                              Если сайт популярный и порядочный, то сошлётся на сайт автора, и последний будет только рад. Если же не сошлётся, то поисковики не должны, по моему мнению, игнорировать такое поведение (и не игнорируют, так как есть же возможность написать жалобу, но это не очень эффективная схема).
                                0
                                Поисковики верят своему рейтингу а не писульке какого-то человека
                                Вот в чем их суть

                                Иначе бы легко было конкурентов давить стуком
                                  +1
                                  зачастую большинство банов от поисковика — именно «по стуку»
                                    0
                                    При этом в большинстве случаев — в пользу сайта с большими пузомерками
                                +2
                                Это почему они так не делают сейчас. Но определять таким образом автора не корректно: я мог написать статью в своём блоге на том же Хабре, у которого тИЦ и PR будут нулевыми, а сворует её какой-нибудь говносайт с тИЦ 10. И Яндекс будет думать, что тот сайт — источник. Ну и куда это годится?
                                Тот сайт будет зарабатывать (например, притворятся СДЛом с уникальным контентом, размещая ссылки) на мне, ничего мне не платя, но я при этом ничего не смогу сделать.
                                Если написать в саппорт, вам вежливо ответят, что единственный способ стать источником в глазах поисковика — попросить тех, кто ворует мой контент ставить ссылку на меня, то есть на источник. Ага, вор будет ставить на меня ссылку. Аж две.
                                Автор предлагает правильные вещи. Уверен, Яндекс занимается чем-то подобным, а не только совершенствует свой алгоритм поиска дубликатов.
                                  0
                                  Хабр будет трастовее говносайтов, тиц конкретного поддомена (вашего блога) не имеет значения
                                    0
                                    Хабр будет трастовее (хотя не 100% факт), а мой личный блог (ЖЖ, Я.ру, standalone) — нет.
                                  0
                                  + Немаловажный момент что раскрученный pr5, тиц100 проиндексится быстрей, и страница уже будет в выдаче а pr1, тиц10 еще и не проиндексили.

                                  Мысли в слух.
                                  Владелец сайта не будет забивать руками, весь свой контент который у него есть поисковикам.
                                  А если так, то тогда можно бороться с конкурентами.
                                  К примеру я на сайт, выкладываю все комменты с этой страници.
                                  Заполняю форму для поисковиков.
                                  И указываю что ты своровал мой контент.
                                  ты ведь не будешь все комменты к статье стравливать поисковику?
                                  И что тогда получится в данном примере?
                                    0
                                    Дык есть sitemap автоматический, зачем руками то забивать.
                                • UFO just landed and posted this here
                                    0
                                    Есть такой же метод внедрения скрытых ключевых слов на странице и поисковики работают над выявлением такого поведения. Но в любом случае серьёзный ресурс такое себе не позволит, а именно такие могут увести трафик.
                                    +8
                                    Идея неплохая, но недодуманная. Главное, что неверно, вот это:
                                    «И кто этой формой первый воспользуется — тот и автор».
                                    Если вдруг хоть один поисковик начнет так и делать — представьте, что начнется.
                                    В сети отсутствует пока масса информации, которая, к примеру, уже опубликована в печати.
                                    Тут же восторжествует это правило — кто первый встал, того и тапки?
                                    То есть автором будет признан не настоящий автор, а кто первым запихнул в эту форму?
                                    А завтра скриптами туда пихать начнуть, понимаете? И кто первым качественный скрипт напишет — будет автором кучи контента?
                                    Вы не считаете, что это чушь?
                                      +3
                                      Вот это действительно уязвимость. Спасибо за коммент. Буду думать.
                                        +1
                                        Согласитесь с тем, что в поисковиках, в том же Яндексе, совсем не глупые люди работают.
                                        И они пока явно не решили эту проблему. А то, что она есть и она серьезная — факт.
                                        Сколько контента в сети воруют — никто никогда не считал, ясно, что очень много.
                                        Просто решение проблемы не лежит на поверхности, поскольку проблема слишком сложная.
                                          –1
                                          Проблема ещё и в том, что в этой ситуации поисковики получат определенную власть над пользователями, и станут, по-сути, жизненно необходимым инструментом для абсолютно любого контентного сайта.

                                          Дойдет до того, что скрипты КМС-ки, добавляющие текст на сайт, будут одновременно в автоматическом режиме слать текст на яндекс, и это станет правилом для любого редактора.

                                          Причем автору надо будет добавлять сайт потом во все поисковики — и яндекс, и гугл, и яху, и нигму, и т.д. и т.п. А это, на мой взгляд, неправильно.

                                          Должны быть механизмы правового регулирования копипастинга, иначе «привязав» себя к поисковикам те не преминут этим воспользоваться в собственных корыстных целях — ведь поисковик это в первую очердь коммерческое предприятие, нацеленное на получение максимальной прибыли.
                                            0
                                            Должны быть механизмы правового регулирования копипастинга, иначе «привязав» себя к поисковикам те не преминут этим воспользоваться в собственных корыстных целях — ведь поисковик это в первую очердь коммерческое предприятие, нацеленное на получение максимальной прибыли.
                                            Это же просто не в их интересах, они от этого ничего не получат, только репутацию потеряют.
                                              0
                                              Они именно что «получат» — деньги :)
                                              Хочешь завизировать контент у Яндекса? 10 центов за 1000 знаков, будь добр. Не хочешь? Тогда всё будет на «авось», как раньше. Возмущаетесь? Ну так ведь и у нас нагрузка на серверы возрасла, то-сё, надо денег на амортизацию серверов, и тэдэ. Какбэ.

                                              — вот такое поисковики вполне могут сделать.
                                                0
                                                Могут, но не сделают, так как всегда найдётся тот, который так нагло делать не будет, и за это его будут больше любить в народе. И соответственно приносить ему больше прибыли.
                                                  0
                                                  Когда действует монополист, он может делать что хочет. Например, для пользователя всё равно, легальный или нелегальный контент он получает.
                                                  Крупным новостным порталам ничего не стоит платить деньги (небольшие для них) поисковикам. А мелкие вебмастера ни коим образом поисковику помешать не смогут — хочешь не хочешь, но с ним придется работать, потому что оттуда идут клиенты.
                                        0
                                        Думаю, что это не чушь, так как:
                                        В сети отсутствует пока масса информации, которая, к примеру, уже опубликована в печати.
                                        Тут же восторжествует это правило — кто первый встал, того и тапки?
                                        При наличие такой системы или без нее всегда будет иметь место публикация того, чего не в сети. Вот почему владельцы печатных изданий заинтересованы в параллельной публикации в сеть (иначе они просто упускают честно заслуженный лакомый кусок). Даже если издание держит за правило публиковать материалы в сеть с задержкой, то отправлять «заявки на авторство» они могут одновременно с выходом в печать, так как заявка на публикацию и её контент нигде не светится.

                                        И кто первым качественный скрипт напишет — будет автором кучи контента?
                                        Нет подать заявку на контент, который уже есть в сети, невозможно (проверить наличие не сложно). Если же вы говорите о автоматизированном сканировании печатных материалов и публикацию их в сеть, то общество за такое только поблагодарит, а авторы материалов в любой момент могут оспорить авторство, если им это понадобится (хотя до этого им, как предполагается, было наплевать на публикацию в сети).
                                          0
                                          Считать автором не автора — неверно в принципе. За что тут благодарить?
                                          А тех, кому сегодня плевать на сеть, становится все меньше и меньше.
                                          А через некоторое время их и совсем не будет, не так ли?
                                          А оспаривать авторство — ну не у поисковиков же правды в данном случае искать, для этого суд есть.
                                            0
                                            Считать автором не автора — неверно в принципе
                                            Это, конечно, да.

                                            За что тут благодарить?
                                            Я имел ввиду за оцифровку и публикацию в сеты нового оригинального контента. Важность же авторства для потребителя — это уже другой вопрос.

                                            А оспаривать авторство — ну не у поисковиков же правды в данном случае искать, для этого суд есть.
                                            Но многие же сейчас пользуются возможностью пожаловаться на спам и на воровство контента именно поисковикам и провайдерам, а аж потом в суд. Потому что так эффективнее на данный момент.

                                              0
                                              Вы когда-нибудь пробовали пожаловаться на воровство контента именно поисковикам? :)
                                              Если нет — попробуйте, узнаете для себя много нового.
                                                0
                                                Я это написал к тому, что люди кроме судов ещё и им жалуются. Я же не написал, что это эффективный способ борьбы, но сказал, что это дополнительный и часто более продуктивный нежели суд.

                                                Топик вообще выступает против классической схемы жалоб с ручной обработкой.
                                                  0
                                                  Странно. Этот не просто непродуктивный — это никакой способ. Вы читали хоть один ответ службы поддержки Яндекса по этому вопросу?
                                                  Сомневаюсь. Иначе бы не написали, что он продуктивный.
                                                    0
                                                    Я посылал абузы в других системах и получал позитивные результаты.
                                        +1
                                        Тысячи авторов уже трудятся, переписывая статьи и делая их еще более уникальными и неповторимыми — это рерайт.

                                        Думаю такой механизм спасёт только от школьников, а нормальные воротила переписывают новости на свой лад и манеру письма.
                                          0
                                          Я же написал, что эта схема направлена против «злобных копипастеров» а не против рерайта.
                                            0
                                            Зачем же так горячиться? Есть же не только рерайт, есть и синонимайзеры — хотя их Яндекс уже раскусил.
                                        • UFO just landed and posted this here
                                            +1
                                            А я с Вами согласен. Почти полностью, за исключением самого последнего предложения. Очень нередки стали случаи, когда трется (банится Яндексом или выбрасывается из индекса) уже не хлам, а уникальный авторский текст. А тот же текст на сайте воришки чудно индексируется и показывается в поиске. Именно потому, что Яндекс не умеет определять авторство. И его алгоритмы, совершающие такие ошибки, конечно, не идеальны.
                                            А вот Гугль так не поступает, я, по крайней мере, не замечал.
                                            • UFO just landed and posted this here
                                                +2
                                                Яндекс не воюет с оптимизаторами, запомните.
                                                Яндекс борется против говносайтов в выдаче.
                                                • UFO just landed and posted this here
                                            –1
                                            Это перекладывание ответственности на плечи поисковиков к решению не приведет. Почему поисковики должны заниматься решением проблем, которые им нафиг не нужны? Так можно скатиться и до того, что кто-то напишет, что бутерброды с мышьяком самые вкусные, поисковик это проиндексит, кто-то найдёт, а потом будет философствовать на тему того, как, мол, так — не могли, что ли, из серпа убрать такое?!
                                              0
                                              Идея имеет право на жизнь, но

                                              1) автор слишком сильно полагается на слово «автоматизированный». В реале все намного страшнее. Нет системы, которая могла бы быстро определить, списан текст или нет. Хотя есть алгоритмы, позволяющие сравнить два текста на предмет похожести, для того, чтобы найти две похожие статьи потребуется много времени и ресурсов. А новый контент появляется каждую секунду (взять, к примеру, этот коммент)

                                              2) Заявка на авторство — это что-то типа патента получится. Посмотрите, чем заканчиваются патенты и копирайты (фармацевтические компании, 1-Click, небезызвестные RIAA и РАО вам в пример).

                                              Вы (с) хотите превратить Интернет(тм) в сборище копирейтеров (с). А что будет (с), например, с Википедией(?), контент (patent us #304992) которой создается обществом (с) на базе другого контента (patent us #304992, род. падеж)?

                                              3) Результатом этой идеи будет еще одна индустрия — Продвижение в поисковиках с обходом копирайт-протекта. Она будет основана на синонимайзерах, замене русских «а» на латинские, &нбсп вместо пробелов и прочей фигне, которую на тот момент поисковики еще не осознают.

                                              — Уменьшить количество копипаста можно намного проще. Яндекс правильно поступает, снижая рейтинг сайтов со всякими попандерами и пр. Можно аналогично снижать рейтинг особенно копипастящих сайтов. Вот эта идея, пожалуй, мне по душе.

                                              Поскольку раскрутка сайта — дело не одного дня и немалых денег порой. То такой ручной подход и обеспечит их нерентабельность. Будут, конечно, и побочные эффекты… 4чан, двач и другие анонимусы вполне смогут завалить любой поисковик жалобами на BBC.ru =)

                                              — Сейчас даже публикация статей в журнале не спасает от копирования (я б даже сказал, что во многих случаях, это его гарантирует). Но задумайтесь, зачем вы вообще пишете?
                                                0
                                                Нет системы, которая могла бы быстро определить, списан текст или нет. Хотя есть алгоритмы, позволяющие сравнить два текста на предмет похожести, для того, чтобы найти две похожие статьи потребуется много времени и ресурсов.
                                                Если определять только практически одинаковые тексты (злобный копипаст) и делать это с теми ограничениями, которые я описал (важность сайтов и важность инфы), то всё на много реалистичнее. Но техническая сторона остаётся пока самым узким местом.

                                                А новый контент появляется каждую секунду (взять, к примеру, этот коммент)
                                                Комментарии — не тот контент, который нуждается в такой проверке.
                                                0
                                                новый контент размещается на рандомно сгенерируемом url,
                                                rpc ping'ом отправляется url поисковым системам,
                                                страниц индексируется быстророботом и если достаточно уникальна то попадает в индекс. Видим страницу в индексе -> делаем публикацию поста. (используя редирект с random url в форматный ЧПУ блога: site.com/articles/2009/08/04/)

                                                Вопрос в том — хватит ли ресурсов ПС чтобы слать роботов на каждый сайт что послал пинг, тянуть контент и на лету проверять ступень уникальности?
                                                  0
                                                  также, если не ошибаюсь, используя .htaccess запретить всем, кроме Я и Г заходить в раздел\статью.

                                                  Сделать чтобы поисковик увидел контент быстрее копипейстера не трудно. Проблема в том что ПС «доверяют» прокачанным сайтам сильнее чем нулевикам, что писалось выше.
                                                    +1
                                                    И частообновляемые ресурсы ПС индексируют быстрее…
                                                    Поэтому сейчас делают сайты-RSS-агрегаторы, собирающие RSS ленты разных нерегулярнообновляемых сайтов. В итоге все эти сайты-доноры контента просто не успевают попасть в индекс до сайта-агрегатора…

                                                    Лично мне временно удалось решить эту проблему забанив сайт-агрегатор по IP…
                                                  0
                                                  Кроме всего прочего, подобная схема практически убивает Fair use и 100% будет использоваться для харрасмента небольших сми и блоггеров со стороны мэйнстрим сми.
                                                    0
                                                    Кроме всего прочего, подобная схема практически убивает Fair use
                                                    Нет конечно, так как большинство публикаций будут иметь нормальные ограничения использования — текст и обязательная ссылка на источник. Так как и есть сейчас между порядочными ресурсами.

                                                    100% будет использоваться для харрасмента небольших сми и блоггеров со стороны мэйнстрим сми.
                                                    Нет не будет, так как небольшие сми и блоги — не угроза для мейнстрим сми.
                                                      +1
                                                      Lazarus прав. Убивает.
                                                      Например, компания А отправляет свой пресс-релиз на 10 отраслевых сайтов и 5 агрегаторов. Один из них получает текст (контент!) и автоматически стучит поисковику, что именно он является первоисточником. Как следствие, еще 14 потенциально хороших сайтов становятся в глазах ПС копипастерами и попадают под санкции без причины.

                                                        +1
                                                        Чтобы такого не было, публикатор перед такой рассылкой обязан отослать заявку на авторство — дело 2 минут + можно автоматизировать.
                                                          0
                                                          А нормально ли что санкции поисковиков применяться к статьям на агрегаторах?
                                                            0
                                                            Это зависит от того, нарушает ли агрегатор при публикации ограничения выставленные автором (наличие ссылки, процент контента в перепубликации и тд). Но думаю в результатах поиска копия контента на агрегаторе должна идти после оригинала.
                                                              0
                                                              А как вы планируете определять это копия в агрегаторе? или просто копи-паст?
                                                    0
                                                    Скажите, а как узнать кто первый разместил? Тот, кого первого проиндексировали? :)
                                                      0
                                                      Прочтите там где о форме «заявки на авторство».
                                                      0
                                                      Еще одна проблема. Если будет схема, позволяющая мгновенно проиндексировать контент по запросу, этим воспользуются дорвейщики, забивая в индекс тонны бредотекстов.
                                                        0
                                                        «Заявка на авторство» ≠ занесения в индекс поисковика.
                                                          0
                                                          Присвоение авторства без индексации имеет смысл?
                                                            +1
                                                            Здесь речь о разной индексации для сайта и для авторского контента.
                                                              0
                                                              Тогда ПС нужно держать параллельный индекс только для определения авторства. Вопрос: зачем создавать инфраструктуру, требующую немалых затрат, не приносящую прибыли, а только тешащую эго авторов свободно доступной информации?
                                                                +1
                                                                Чтобы очистить выдачу от копипаста. Топик об этом. Решение такой задачи вообще без каких либо затрат — иллюзия.
                                                                  +1
                                                                  Цель ПС — не выдача без копипаста, а релевантная выдача, отвечающая на вопрос пользователя.

                                                                  Кроме того, в выдаче довольно мало неуникального контента по ВЧ и СЧ запросам. Существующие фильтры («ты последний» в Яндексе и Supplemental Index в Google) в целом справляются с задачей без громоздких решений вроде нового индекса авторства.
                                                                    +1
                                                                    Цель ПС — не выдача без копипаста, а релевантная выдача, отвечающая на вопрос пользователя.
                                                                    Я не написал, что цель ПС именно «выдача без копипаста». Я думаю, что их цель — релевантная выдача без копипаста.
                                                                      0
                                                                      То есть ваши умозаключения базируются на том, что
                                                                        +1
                                                                        Сорри, глюк.

                                                                        Вы думаете? То есть ваши умозаключения базируются исключительно на том, как вы видите бизнес-процессы и цели сторонней компании, особенно не вдаваясь в их суть?
                                                                          0
                                                                          Я же тоже активный пользователь этих систем, и могу же по себе сказать, как я делаю выбор в пользу того или другого поисковика: релевантность выдачи и процент мусора.
                                                          0
                                                          А мне вообще непонятна эта борьба.
                                                          Пример: ты идешь и видишь на стене стих написан (прикольный такой стих) тебе он понравился.
                                                          Ты пришел домой и запостил его на блог. А твой блог читаю сотни людей.
                                                          А в доль забора проходишь только 3 человека в день.
                                                          Соответственно этот стих никто не прочитает если сделать такой запрет на копипаст.
                                                            0
                                                            Ссылки на оригинал никто не отменяет же.
                                                            +2
                                                            Идея классная, но слишком радикальная. Лучше так: в результатах поиска показывать оригинал, а под ним ссылка «показать дубликаты»
                                                              +1
                                                              Да, возможны разные варианты. Это и есть то, что я назвал «стратегия поисковиков» в этом вопросе.
                                                                +1
                                                                Для автора контента очень обидно быть среди «дубликатов». А автора на 100% поисковики определять не смогут :(
                                                                  +1
                                                                  Вы внимательно читали статью? Для этого предполагается механизм «патентования» контента у поисковиков
                                                                +2
                                                                Знаете, отсюда опять недалеко до идеи деанонимизации сети.

                                                                Так как поскольку именно это, ИМХО, является первопричиной (я не говорю — «корнем зла») многих бед интернета. А уже потом для преодоления последствий бед пишутся гиперсистемы, придумываются сверхидеи и мегапроекты…

                                                                Но это так, лирика.

                                                                По теме:

                                                                Скажите, не проще ли легализовать/упорядочить уже ставший стандартом де-факто значок "(с) не моё"? Ну и "(с) моё", конечно :-)

                                                                Например, тег такой предложить в Wc3?

                                                                (с) моё
                                                                  +1
                                                                  отсюда опять недалеко до идеи деанонимизации сети
                                                                  В чём же вы увидели деанонимизацию?
                                                                    +1
                                                                    Слушайте, я, видать, зарапортовался :-)

                                                                    Я ведь не только саму статью прочитал, но и все предыдущие комментарии. И моё замечание относилось, скорее, не к самой статье, а к дискуссии в целом.

                                                                    Но основная идея осталась: для реального соблюдения авторских прав необходима идентификация каждого публикатора.

                                                                    То, что мне это не нравится — другой вопрос, но против фактов не попрёшь.
                                                                  0
                                                                  Чтобы эта идея ожила поисковик должен быть магом и волшебником. Представьте, какой колоссальный объем информации придется обрабатывать этим бедняжкам при ранжировании страниц!
                                                                  Вы предложили организовать данный сервис анологично яндесовской аддурилке, да только страниц ежедневно появляется на порядок больше, чем сайтов, а аппаратно реализовать данную систему в наши дни с необходимым быстродействием нет возможности.
                                                                    +2
                                                                    Предложенный вами подход – это попытка перенести/поддержать устаревшие бизнес-модели медиа. Он ошибочен принципиально, а значит, нежизнеспособен в долгосрочной перспективе. Я работаю в отрасли с 1999 года, с проблемой воровства контента сталкивался всё это время. Надо переходить на новые модели, а не цепляться за старые. Посмотрите вот эти материалы, если интересно.

                                                                    Кроме того, в вашем предложении есть ряд слабых мест, которые делают вашу схему абсолютно нерабочей.
                                                                    Первое – определение аутентичности по времени публикации. Один из моих конкурентов брал мои новости и указывал время публикации на 10 минут раньше. Доказать своё первенство невозможно – всегда можно сослаться на политику выдачи контента с намеренной задержкой, сбои в каналах передачи и т.п.
                                                                    Второе – алгоритмы поисковых систем сами по себе стоят на низком уровне развития, в силу разницы форматов новостного контента поисковик зачастую не может корректно определить, что контент из разных источников это всё одна новость, об одном и том же. Десятки раз сталкивался с этим на Яндексе и Гугле.
                                                                    Третье – проблема «Драматургии из „Собачьего зала“

                                                                    Ещё раз вернусь к тому, с чего начал. С чего вы взяли, что копипаст плох? Нет-нет, я не об этике. Задумайтесь над самой постановкой вопроса. Почему СМИ, которое призвано массово распространять информацию, борется с тем, что кто-то помогает ему это делать? Смените бизнес-модель, и проблема решится сама собой.
                                                                      0
                                                                      Первое – определение аутентичности по времени публикации. Один из моих конкурентов брал мои новости и указывал время публикации на 10 минут раньше.
                                                                      Вы не так поняли схему с зявкой на авторство.

                                                                      поисковик зачастую не может корректно определить, что контент из разных источников это всё одна новость
                                                                      Тупого копипаста это не касается.

                                                                      Почему СМИ, которое призвано массово распространять информацию, борется с тем, что кто-то помогает ему это делать?
                                                                      Потому что есть такие, которые тупо публикуют твой текст и не делают ссылку на источник — вот основная проблема копипастинга, и то, чем он так бесит.
                                                                        0
                                                                        > Потому что есть такие, которые тупо публикуют твой текст и не делают ссылку на источник — вот основная проблема копипастинга, и то, чем он так бесит.

                                                                        Правильно ли я понимаю, что для вас это проблема больше эмоциональная, этическая, чем материальная? Если да, то извините, я характеризовал её как бизнес.
                                                                          0
                                                                          Правильно ли я понимаю, что для вас это проблема больше эмоциональная, этическая, чем материальная?
                                                                          Не совсем так.
                                                                            +1
                                                                            в суд подать не пробовали?
                                                                              0
                                                                              на всех копипастеров нужно много денег для судовых исков :(
                                                                                0
                                                                                всю рыбу из реки не выловишь

                                                                                выбрал ближайшего, который находится в том же государстве, а лучше — в том же городе, подал в суд, выиграл дело, окупил расходы за счёт ответчика, вывесил на сайте сканы решения суда, потом принимайся за следующего

                                                                                коль вы так чтите копирайты, берите пример с RIAA и компании — они не могут засудить всех и каждого, но они выигрывают одно дело за другим, на устрашение оставшимся
                                                                                  0
                                                                                  И успешно завоевали себе имидж пидоразов
                                                                                    0
                                                                                    ну у тебя всегда есть выбор, или ты за свободу информации, или за "пидоразов"
                                                                                      0
                                                                                      Я за свободу информации
                                                                            0
                                                                            Эмоциональность поста действительно зашкаливает.
                                                                            Это скорее крик души чем продуманная идея
                                                                        0
                                                                        В меру возможного-разумного идея давно уже реализована, хоть и без примитивной формочки «заявку на авторство». Называется Яндекс-новости. Кроме как модераторский отбор доверенных источников других вариантов не видно.

                                                                        Если распространить на весь индекс — что изменится? Придется точно так же бороться с дублями, но не в собранном, а в присланном индексе.

                                                                        PS идею сделать спецательную формочку «дарили миру» на серчах не один раз.
                                                                          +2
                                                                          Вижу много минусов в вашей статье:

                                                                          — заявка на сайт и оригинальный контент… Простите, а если оригинальный контент обновляется каждые 10-15 минут? А если на форуме оригинальный контент, куда пишут сотни?

                                                                          — определение оригинальности контента — проверка 100% совпадения? Ерунда. Легко можно сделать не 100% и тогда будет оригинальный в соседнем блоге. А если не 100% — через неделю любую запись в блоге, форуме или новостях поисковик будет считать копипастом. Очень скоро поисковик начнет понижать рейтинг даже у самих новостных агенств — из-за не 100%-ого совпадения контента…

                                                                          — не совсем правомерные действия на копипаст, который не очень-то и считается преступлением.

                                                                          Так что, дорабатывайте идею :)
                                                                            –1
                                                                            Простите, а если оригинальный контент обновляется каждые 10-15 минут? А если на форуме оригинальный контент, куда пишут сотни?
                                                                            Давайте рассматривать отдельные публикацию научных трудов, исследований, аналитики, где авторство важно, а не опускаться до форумов.
                                                                              +1
                                                                              разве форум это опускаться, есть очень много примеров когда на форумах, есть такой контент и он настолько ценен, что его нет нигде больше и главное он решает проблему того кто искал ее решение
                                                                                0
                                                                                Ну я имел в виду не форумы, которые служат платформой для публикаций (тогда объектом становится отдельная страничка с материалом, не комменты), а те, на которых только обсуждают.
                                                                                  0
                                                                                  А не важно какой размер публикации, и не важно где был найдет онтвет, обычно ТС(топик стартер) пишет вопрос, а не ответ
                                                                              0
                                                                              определение оригинальности контента…
                                                                              Тупой копипаст определить не сложно, а рерайтинг уже не так страшен.
                                                                                +1
                                                                                Ну если вы ратуете за поиск скопированного материала вручную со страницы, тогда ладно. Этим вы избавитесь от нескольких неудачников.

                                                                                Достаточно будет переписать скрипты, которые забирают материал с сайтов, таким образом, чтобы они слегка правили его (например вставляли пару не значащих абзацев, меняли несколько слов на аналогичные либо переставляли предложения).

                                                                                Вот и добъетесь вы каких-то результатов, только вот каких — непонятно.
                                                                                Программы пауки продолжат сбор контента и даже никак не отреагируют на глобальные изменения в поисковиках.
                                                                                0
                                                                                не совсем правомерные действия на копипаст, который не очень-то и считается преступлением
                                                                                Речь едёт об тупом копипасте без ссылки на оригинал. Не считаю такую практику нормальной.
                                                                                  0
                                                                                  Вы знаете, а мне обычно плевать, где я найду ответ на свой вопрос — в оригинале или копии.
                                                                                  Главное, чтобы найти его быстро. И чем больше копий — тем быстрее найду.

                                                                                  Копирование материала, конечно-же плохо, но не подсудно. Это как борьба с зайцами в транспорте… И пока объективных решений нет.
                                                                                +1
                                                                                А вот я выскажу непопулярное мнение, что проблема должна решаться в юридической плоскости, и нарушители наказываться рублём.

                                                                                Если я спёр чужую статью и подписал своим именем (или не привёл имени настоящего автора, что есть почти то же самое, или хотя бы не написал явно, что автор мне неизвестен — и такое бывает) — надо подавать в суд и получать компенсацию, а не надеяться на «интеллект» поисковика. Они и так уже слишком умные стали (поисковики) — норовят выдавать то, что им хочется, а не то, что мне нужно

                                                                                Например (сорри за оффтопик) попробуйте набрать «download free mp3 beatles» в гугле — релевантность будет нулевой, ибо ни один из сайтов первой десятки реально не даст вам ничего скачать нахаляву. Я понимаю, пиратство, всё такое, но поисковик должен искать то, что я от него требую, а не становиться верховным судьёй и гнуть свою политику.
                                                                                  +1
                                                                                  А мне кажется это не будет работать. Это занимает немало времени и бабла много не срубишь (хотя про бабло я не знаю).
                                                                                  Плюс необходимо доказывать что контент именно твой…
                                                                                    –1
                                                                                    Ну вот вы думаете, что проще грамотно переделать поисковики.
                                                                                    А я надеюсь, что с тем же успехом можно подредактировать законы — чтобы доказательства занимали меньше времени, а бабла можно было получить больше…
                                                                                      0
                                                                                      с тем же успехом можно подредактировать законы
                                                                                      Ага, во всех странах?
                                                                                        0
                                                                                        Мило. А вас не смущает, что хозяева поисковика и будут, фактически, вместо закона во всех странах? Просто дикий запад какой-то…
                                                                                          0
                                                                                          Ранжирование в поисковой выдаче — это не то же самое, что регулирование на юридическом уровне.
                                                                                            0
                                                                                            Эх, иногда это даже хуже. Одно дело штраф заплатить, а другое — когда твоя фирма в выдаче гугла уходит на третью страницу. И гудбай, бизнес :(
                                                                                  0
                                                                                  Возможно схема, когда искомая информация представляется в виде ссылки на сайт автора(?) является устаревшей.

                                                                                  Это я все к тому, что зачем человеку искать информацию, да по сайтам серфить. Есть портальные яндекс/майл.ру/рамблер, которые предоставляют доходчивый сервис вида все-в-одном т.е. почту, магазины, библиотеки, игры, объявления, адреса, карты и т.п. С развитием интегрированных сервисов поиск по чужим сайтам уже не очень-то и нужен будет…
                                                                                    0
                                                                                    поиск по чужим сайтам уже не очень-то и нужен будет…
                                                                                    Ничего себе портальчик должен быть :)
                                                                                    0
                                                                                    Как быть с публикациями, допустим, классической литературы или какого-нибудь народного фольклора?
                                                                                    Получается, кто раньше его опубликовал, того и права? :-)
                                                                                      –1
                                                                                      Меня тут автор топика попросил высказаться — и я могу так сказать. Крупные поисковики, с их прибылями, могут встать на защиту кого угодно. У гугла, например, на счету без дела лежат 20 млрд. долларов.

                                                                                      На эти деньги гугл может встать на защиту, например, больных российских детей, информация о болезнях которых распространяется из блога в блог и купить им всем лекарства — ведь гугл так любит блоггеров. А у яндекса так вообще яндекс-блоги есть — тем более яндексу стоит купить лекарств, а не копить сотни миллионов долларов прибылей на своих счетах. Но они этого не делают (по крайней мере в заметных масштабах) и, честно говоря, я не очень понимаю почему. Ну т.е. я не понимаю — если они не тратят деньги на развитие технологий, ну пусть акционерам дивиденды заплатят, чтобы акционеры могли их потратить на развитие технологий или на благотворительность, или сами на благотворительность потратят — покупали же российские банки до кризиса для российских детских домов оборудование, делали ремонты.

                                                                                      Так что мне кажется, тут все упирается не в технологические проблемы, а в некую социальную ответственность. У нашей компании пока таких прибылей нет, но и до защиты прав авторов контента мы обязательно когда-то доберемся, спасибо за идеи!
                                                                                        0
                                                                                        Спасибо, за внимание.

                                                                                      Only users with full accounts can post comments. Log in, please.