Как черные SEO-оптимизаторы собирают миллионы посетителей по высоко-актуальным запросам в Яндексе

    Мне казалось, что поисковики давно победили black hat тактики с помощью машинного обучения и других мощных технологий. Сети дорвеев если и остались, то только где-то на обочине интернета, в маргинальных тематиках типа казино или контента для взрослых.

    Но недавно я наткнулся сразу на целую кучу спамных сайтов, которые собирают миллионы посетителей из Яндекса, легко побеждают качественные и авторитетные проекты даже в белых нишах.

    image

    Для запросов, по которым очень важна актуальность информации, Яндекс подмешивает в обычную поисковую выдачу самые свежие документы. Это звучит логично, не все сайты попадают в Яндекс Новости, свежая статья блоггера о ДТП в Пензе может быть более качественным ответом на вопрос пользователя, чем старая новость на авторитетном сайте.

    Но есть два странных момента:

    • Появляются такие ответы для довольно неожиданных запросов, для которых актуальность измеряется явно не часами или днями. Например, «рецепт оладушек на кефире» или «домашние чебуреки».
    • Для ранжирования Яндекс использует алгоритмы, которые значительно отличаются от алгоритмов основной выдачи. Например, игнорируется, что контент неуникальный или сгенерированный.

    Особые приметы


    Первые позиции по таким запросам обычно отдаются страницам, которые были опубликованы в течение нескольких последних часов. Помимо отметки о возрасте документа справа от сниппета, эти страницы отличаются наличием в URL сохраненной копии параметра src=FT. Например,
    http://hghltd.yandex.net/yandbtm?fmode=inject&url=https%3A%2F%2Fzakupka.tv%2Frecipe%2Fchebureki-7764&tld=ru&la=1510220416&tm=1510221945&text=%D0%B4%D0%BE%D0%BC%D0%B0%D1%88%D0%BD%D0%B8%D0%B5%20%D1%87%D0%B5%D0%B1%D1%83%D1%80%D0%B5%D0%BA%D0%B8&l10n=ru&isu=1&dsn=0&sg=vla1-0074.search.yandex.net%3A7301&sh=-1&d=4900&src=FT&mime=html&sign=287713794a48239813318f67a221cb09&keyno=0

    Устаревая, эти документы спускается в выдаче ниже, перемешиваются с основной выдачей, многие выпадают совсем.

    Если с помощью Serpstat или Advodka посмотреть выдачу по другим запросам, по которым ранжируются найденные сайты, вы увидите десятки таких проектов. Они специализируются на получении псевдо-новостного трафика, месячная посещаемость некоторых из них доходит до десятков миллионов визитов.

    Примеры


    Разберем несколько страниц, находящихся в топ 5 по запросу «домашние чебуреки» (см скриншот в начале поста). Чтобы определить действительно ли тексты являются новыми и актуальным, будем в Яндексе и Google искать закавыченные куски этих текстов. Это поможет нам найти документы с точным вхождением искомого куска текста.

    По первому сайту дубликатов найти не удалось, а вот второй сайт
    lady-day .ru/chebureki-retsept-myaso-ochen-udachnoe-testo/ сразу вызвал вопросы.

    На странице liveinternet .ru/users/5168383/post329973643/ эту статью скопировали еще в 2014, Google в последний раз проиндексировал статью 4 ноября, в кеше на самой странице указано, что статья опубликована 4 ноября 2017. В текущей версии дата публикации — 9 ноября 2017. Сайт явно многократно переопубликовывал статью для манипуляции выдачей Яндекса.

    Следующий сайт — ladiesvenue .ru/chebureki-s-myasom-recept-krymskij-ochen-udachnoe-xrustkoe-testo/. В кеше Яндекса есть этот же текст на этом же сайте, но опубликованный 4 дня назад, на это указывает url в кеше ladiesvenue .ru/05-11-2017-sochnye-chebureki-recept-klassicheskij-samyj-vkusnyj-s-foto/. Причем эта страница тоже есть в выдаче по запросу «домашние чебуреки». Почему-то Яндекс не может определить дубликат даже внутри одного сайта. По закавыченному куску текста находятся еще сразу несколько аналогичных сайтов.

    Следующий — poleznue-soveti .ru/chebureki-s-myasom-udacshnoe-testo.html. По закавыченному куску текста Google находит полную копию этой статьи, но на другом сайте, проиндексированную 11 дней назад. Яндекс тоже проиндексировал эту страницу, но все равно считает, что свежий дубликат актуальнее других сайтов.

    С mywomenblog .ru/chebureki-s-myasom-recept-ochen-udachnoe-xrustkoe-testo-36187/ аналогичная ситуация, находится закешированный текст другого сайта, тоже проиндексированный 11 дней назад.

    Эти сайты размещают свой и чужой ранее опубликованный контент под новыми датами, компилируют из нескольких чужих статей новую статью. Но по другим запросам встречаются и совсем патологические ситуации — страницы со сгенерированным бессмысленным текстом, например, такие:
    healtherbal .ru/news/klassicheskaya-vozdushnaya-sharlotka-s-yablokami-b-retsept-b-s-foto-vsyo-chto-izvestno.html
    jurnal24 .ru/vkusnaya-sharlotka-s-yablokami-prostoj-recept-vsyo-chto-izvestno-na-dannyj-moment/

    image

    Как они это делают?


    Мне не удалось найти повторяющихся признаков в верстке таких сайтов. Некоторые применяют только микроразметку, некоторые — просто явным образом указывают дату публикации, некоторые комбинируют оба способа.

    Не удалось найти подтверждений, что Яндекс выводит эти страницы ориентируясь на ссылки с других сайтов, у большинства страниц их нет.

    Единственная закономерность помимо актуальной даты — в основном выходят сайты, которые занимаются добыванием только такого трафика. Возможно, наличие большого количества страниц релевантных псевдо-новостным запросам является позитивным сигналом для Яндекса.

    Похоже, что достаточно просто собрать подходящие запросы, выбрать под них релевантные статьи других проектов и с нескольких сайтов публиковать их под разными URL, указывая текущее время и дату публикации. Возможно, один текст можно опубликовать ограниченное число раз, я встречал не так много копий. Они в основном обнаруживались в Google, не в Яндексе. Скорее всего для максимизации результата, сайты публикуют их в оптимальное время перед пиками дневного трафика в выбранной нише.

    По ряду запросов, этим сайтам удается обмануть и Яндекс Новости, выдавая рецепты за новости:

    image

    Вспомнил, что еще в марте знакомый мне рассказывал о том, что выдачу по рецептам заполоняют страницы с текущей датой публикации, но не придал этому значению. Судя по трендам посещаемости встреченных мною сайтов, проблема существует минимум несколько лет.

    На прошлой неделе я отправил жалобу на поисковой спам, надеюсь, что сотрудники Яндекса обратят на нее внимание.
    Поделиться публикацией
    Комментарии 206
      +13
      Рецепт то нашли?
        +1
        Желаете повторить? :) Судя по всему, достаточно выбрать запросы с таким типом выдачи и постоянно публиковать контент заточенный под них:
        Похоже, что достаточно просто собрать подходящие запросы, выбрать под них релевантные статьи других проектов и с нескольких сайтов публиковать их под разными URL, указывая текущее время и дату публикации. Возможно, один текст можно опубликовать ограниченное число раз, я встречал не так много копий. Они в основном обнаруживались в Google, не в Яндексе. Скорее всего для максимизации результата, сайты публикуют их в оптимальное время перед пиками дневного трафика в выбранной нише.
          +16
          Я так понял, ragequit спрашивал про рецепт «домашних чебуреков», а не рецепт выхода в топ поисковой выдачи черными методами.
            0
            Верно, я что-то не смекнул. Да, и домашние чебуреки, и оладушки на кефире.
              +3
              Вопрос кстати при всей видимости шутки — явно не совсем шуточный.
              Яндексу по большому счету плевать на производителей контента, вебмастеров и т.п.
              Если ниша некомерческая и продать в ней рекламу особо не выйдет, то — контент релевантен запросу (рецепт то вы нашли) и ладно.
              Поскольку данные доры воруют деньги не у яндекса а у других вебмастеров, то яндекс сильно напрягаться не будет. Подозреваю что если бы не эта статья то вообще шансов что отреагировали бы — особо и не было. Вот если люди воруют деньги у яндекса (доры в коммерческой нише), тогда другой компот…
                0
                Именно так.
                Только это отбивает охоте писать или искать авторов, договариваться с правообладателями. Зачем? Если завтра этот текст скопипастят и Яндекс покажет в выдаче копипаст, вместо оригинала.
                  0
                  Вот еще. Забыл.
                  Последний эксперимент, который поставил после того как «вылизал» сайт технически, учтя все рекомендации Яндекса. И после того, как результат был нулевым.
                  Разместил блоки Директа на всех «вкусных» местах. На лучших местах.
                  И тоже эффекта не было.
                  Т.е. даже вариант «копипаст» выше в выдаче, потому как Яндекс от них получает больше денег не очень работает.
                  Ворам Яндекс помогает бескорыстно.
                  А производителей контента пессимизирует принципиально.
                    –2
                    Если бы на сайтах стоял штамп «вор/оригинальный автор» — то ваши идеи имели бы смысл.

                    А так… Яндекс просто не умеет отличать вора от автора — а поскольку тексты одинаковые, то что выигрывает: автор-то тратит время на то, чтобы новые тексты писать, а вор — на то, чтобы Яндекс обмануть.

                    На Западе эта проблема менее остра из-за DMCA: требования снять из выдачи определённые страницы не только убирают сами эти страницы, но и, вполне резонно, «бросают пятно» на сайты, где эти страницы находятся, сайты, которые на них ссылаются и так далее.

                    Есть, правда, и побочный эффект: Робин Гуды тоже оказываются отсеянными… Но тут уж ничего не попишешь…
                      –1
                      Отличить очень просто. Определить дату, когда текст впервые появился в сети может даже любитель. Но видимо квалификация работников Яндекса ниже любительской.
                      На самом деле это неумение Яндекса делает выдачу хуже.
                      Например, если я журналист, то мне важен источник. С Яндексом это нереально.
                      Если ученый — тоже. Если пишу статью, требующую ссылки на источники — тоже.
                      Если хочу понять, откуда «ноги растут» у новости, информации или фейка — тоже Яндекс в пролете.
                      Если хочу связаться с автором — тоже нужен первоисточник.
                      И т.д. Есть множество причин, почему пользователям нужен оригинал текста, а не копипаст.
                        –1
                        Определить дату, когда текст впервые появился в сети может даже любитель.
                        Вы это серьёзно?

                        Вот, из недавнего: эпопея с NeverCalled EraseAll. Тут, тут и даже тут… но попробуйте найти оригинал — и скажите как вы это сделали.

                        Ответ под спойлером
                        Ссылка на оригинал: вот она — rsdn.org/forum/cpp/5653492?tree=tree

                        На самом деле это неумение Яндекса делает выдачу хуже.
                        Кто бы спорил…

                        Есть множество причин, почему пользователям нужен оригинал текста, а не копипаст.
                        Угу. А теперь — забег начинается: обьясняем каким поисковиком и с какими «бубнами» вы найдёте исходя из ключевых слов NeverCalled EraseAll вы найдёте ссылку на оригинал, скрытый под спойлером. И да, текст оттуда скопирован вполне себе дословно во все эти статьи (кроме последней — там из неё плакат сделали, потому немного переформатировали).

                        P.S. На самом деле ссылку на оригинал найти-таки можно. Но CAPTCHAу тоже, вроде, может «даже любитель» прочитать. Если покопает хорошо. А компьютер… компьютер — пока нет. Так что не стоит чушь писать про «квалификацию работников Яндекса». Сделать что-то — это одна задача. Научить компьютер делать то же самое — совсем другая.
                          0
                          Яндексу я уже отправлял алгоритм поиска первоисточника.
                          Что касается Ваших заданий, то я к Вам не нанимался. Поэтому пока Вам рано давать мне задания.
                          О квалификации работников Яндекса сужу по результату.
                          Ужасающему.
                          Изменится квалификация — буду хвалить.
                          А пока копипаст выше источника — хвалить не за что.
                            –2
                            Яндексу я уже отправлял алгоритм поиска первоисточника.
                            Серьёзно? Алгоритм в духе «Станьте ежиками. Если вы будете колючими, вас никто не съест!»

                            Что касается Ваших заданий, то я к Вам не нанимался. Поэтому пока Вам рано давать мне задания.
                            Понятно. «Мое дело — стратегия! Вся эта ваша х&№ня с тактикой меня не интересует!».

                            Как в анекдоте про новобрачных: «дочка — ты хочешь быть правой… или счастиливой?»

                            Если есть задача получить с Яндекса посетителей — то эта задача решаема, если есть задача — повысить ЧСВ путём обсирания Яндекса — эта задача ещё проще.

                            Но вы уж решите — что для вас полезнее. Это разные задачи.

                            В приниципе мне-то пофигу, это ваши проблемы, не мои.
                              0
                              Нет. Нормальный алгоритм.
                              Впрочем, он у Яндекса был. В 2010 году, например. И нормально работал.
                              Грубить мне не стоит.
                              И я к Вам действительно не нанимался. Если Вы сотрудник Яндекса и хотите реально исправить ошибку, то пишите в личку — поговорим.
                              Моя задача, чтобы Яндекс услышал и понял важность этой проблемы.
                              Если эта проблемы будет решена, то я получу посетителей, которых честно заработал хорошими текстами.
                              А пока Яндекс помогает ворам, то он заслуживает тех слов, которые заслуживают стоящие на шухере.
        0
        А что если Яндекс-матрица сама создала эту сетку чтобы тестировать себя? Да ну, бред какой-то…
          +16
          100% верно, 100% точно, 100% правда.
          «Яндекс тоже проиндексировал эту страницу, но все равно считает, что свежий дубликат актуальнее других сайтов.» — главная фраза статьи.
          Компилятор, копипастер, вор крадет чужой контент, меняет дату и выдает за свой.
          Я писал об этом Яндексу много раз. Много лет. В том числе лично сотрудникам.
          Толку — ноль.
          Яндексу видимо выгодно поощрять воровство и копипаст.
          При этом у Яндекса был механизм отсекания копипаста и выдача копипаста ниже первопубликации в 2010-2011 году.
          А потом Яндекс на это «забил».

          А на самом деле ведь все очень просто. Есть web.archive.org на котором есть копии всех текстов с датами первопубликаций.
          Индексируется web.archive.org, сравнивается с базой текстов и выдается первым самый старый текст. Таким образом копипастеры оказываются ниже или вылетают.
          Ведь текст у копипастера не изменен. Это точная копия. Он же ничего, кроме как воровать не умеет. Писать тексты не умеет.
          Почему Яндекс это не делает — загадка.
          Почему подсовывает пользователям продукт «второй свежести» — непонятно.
          Вероятно, Яндекс не уважает ни авторов, ни вебмастеров, ни пользователей.
          Проще всего послать Яндекс в ответ и пользоваться Гууглом.
          Другого выхода я не вижу.
            +3
            Думаю, что даже вебархив не нужен, скорее всего Яндекс индексирует намного больше сайтов. По моим наблюдениям, они неплохо определяют первоисточник, но есть исключения. Например, когда текст растиражирован на очень большом количестве сайтов/страниц. Типичный случай — текст к себе утаскивает пользователь Liveinternet, потом другие пользователи лайвинтернета его «цитируют», создавая еще несколько сотен копий. Тогда почему-то Яндекс может ошибаться.

            А конкретно в этой ситуации, думаю, они исправят проблему.
              +5
              Ну уже 5 лет как не исправляют и даже не «чешутся».
              +6
              Поддержу. В «вебмастере» есть даже вкладка «оригинальные тексты». Я пробовал отсылать свой текст в как «оригинальный», потом делать пост у себя на сайте, а уже потом, через несколько дней, постить на популярном ресурсе. При этом Яндекс мой сайт вообще будто игнорирует — в выдаче первой будет висеть статья с популярного ресурса, даже.

              Очень раздражает такой подход.
                +3
                Спасибо за поддержку. Дополню.
                У меня как раз очень старый и в прошлом очень популярный ресурс, который как раз из-за того, что Яндекс вместо моих тестов показывает копипасты (а их десятки на каждую статью), стал гораздо менее популярным. За 5 лет примерно в 8 раз!
                +2
                Не к вопросу о воровстве, но к вопросу о справедливости.
                Статья, авторская, с несколькими авторскими видео и картинками, в Google не добирается даже до 5 страницы, в Яндексе занимает топ-3 буквально через неделю.

                Даже спустя год в Google статья так и болтается где-то за пределами 5 страницы, за-то на первой странице огрызки из двух абзацев, которые ну никак не отвечают на вопрос, и не раскрывают сути.

                Все чаще замечаю, что в Google сидят старики с давным-давно не актуальным контентом, который уже наполовину устарел, поэтому приходится ставить в настройках отображение результатов за последний год, чтобы поубирать из выдачи не актуальную информацию. В Яндексе проще вылезти на первую страницу, особенно с качественной статьей. Для новичков это шанс «взять контентом». Больше мотивации для создания качественного полноценного контента.
                  0
                  Если Ваша авторская статья выше моей авторской, то нет никаких проблем. Это и сравнивать трудно.
                  Речь о тупом копипасте, который Яндекс показывает выше первопубликации — оригинального текста.
                    +1
                    Т.е. речь в моем посте идет об одинаковых текстах. Точных копиях. Т.е. ничего нового не появилось. Максимум — дата публикации.
                    Таким образом «актуальность контента» и «устаревание» одинаковое.
                    Разумеется, речь идет о качественном контенте. Плохие тексты не воруют.
                    И в результате я вижу в выдаче 70 копий моей статьи на сайтах копипастерах. И не вижу своего оригинала нигде.
                      0
                      Возможно сайт копипастеров более удобен для пользователей чем ваш, так почему яндекс должен ранжировать вашу оригинальную статью на неудобном сайте, выше чем копипастную статью на удобном сайте, ведь яндекс старается сделать релевантную выдачу для пользователей а не справедливую для вебмастеров…
                        0
                        Сравнивал и это. Не прокатывает. И не только потому, что не могут 30-70 копипастеров быть удобнее, но и по расположению текста, обилию рекламы, скорости загрузки и пр.
                          0
                          «релевантную выдачу для пользователей» — это значит соответствующую запросу. Т.е. речь о релевантности текстов. Она одинаковая, т.к. тексты идентичные.
                          Что касается юзабилити, то сравнивал все возможные параметры. У меня или лучше или наравне.
                          Технические параметры (теги и пр.) — наравне.
                          Скорость загрузки, рекламная нагрузка, размещение (видимость) текста — у меня лучше.
                          Но в выдаче по совсем не новостному запросу копипастеры есть, а моего первоисточника — нет.
                            +1
                            Что насчёт ссылочной массы? Социальных сигналов? Поведенческих факторов? Вообще заморачивались сео, или у сайта куча незакрытых дублей? Такое ощущение что вы тратите деньги (время) на контент но вовсе не на сео. Ну и вообще такое ощущение что сайт вы делаете для людей, а не для Яндекса, вот он и обижается.
                              0
                              Такое ощущение что вы тратите деньги (время) на контент но вовсе не на сео. Ну и вообще такое ощущение что сайт вы делаете для людей, а не для Яндекса, вот он и обижается.

                              Это кстати является рекомендациями всех поисковых систем. «Делайте сайт для людей, а не для роботов, и всё будет на мази». А в итоге нет.
                                0
                                Ну блин, нельзя верить всему, что написано… Нужно делать так, чтоб Яндекс думал, что делаете для людей…
                                Пообщайтесь с Алисой, может быть забавно но быстро понимаете что очень похоже на диалоги из игры «Рандеву с незнакомкой»… Поисковая система не может воспринимать ваш сайт как человек, поэтому у неё есть много фильтров которые косвенно свидетельствуют что сайт спамный, или наоборот что сайт сделан для людей… Вероятно Вы просто попадаете под один из фильтров. Возможно блокировка асессором в ручном режиме, но не верю я, что в политике Яндекса есть дискриминация сайтов с оригинальными текстами, но не уверен что есть хоть какаят то плюшка, возможно, при большом числе копирования Яндекс начинает воспринимать как текст закона или инструкцию по эксплуатации… Правда вариантов очень много, поищите грамотного сеошника…
                                  –1
                                  Dgoneee
                                  Если только под «непубличный фильтр лояльности» ибо под иными фильтрами меня нет о чем мне Яндекс писал уже раз десять.
                                  И про асессоров он уверял меня, что «нет». Но я тут не очень верю.
                                  И проблема то не только у меня. Здесь в обсуждениях есть жалобы и от других авторов и вебмастеров.
                                  Про «не верю». Можно, конечно, не верить, но это факт. Дискриминация первопубликаций и оригиналов происходит.
                                  Про «текст закона» — возможно. В этом обсуждении было такое предположение. Но даже текст закона или инструкцию лучше читать на сайте законодателя или производителя, что бы быть уверенным в точности.
                                    0
                                    Вероятно Вы

                                    Конкретно я тут мимо проходил, и сделал ремарку.
                                  0
                                  Dgoneee
                                  Ага. Для людей делаю.
                                  Спасибо, что вразумили.
                                  Но буду продолжать делать для людей, а не для сео.
                                  Ссылок на меня много. До того, как их стали учитывать поисковики было еще больше.
                                  Незакрытых дублей, насколько я знаю, нет.
                                    0
                                    1. Вашему сайту больше 20 лет… круто…
                                    2. При этом вы не уверенны насчёт дублей? как то странно.
                                    3. Вы делали ред дизайн сайту? большинство 20 летних сайтов выглядят убого…
                                      0
                                      Вообще человек уже не в первой статье пишет про проблемы со своим сайтом, причем очень активно (в этой чуть ли не половина комментариев оказывается его — примерно 47% вроде). Уже прямо интересно, что за сайт у него такой? Я кстати попробовал поискать среди его сообщений — он везде шифруется — что за сайт.
                                        0
                                        Это не так важно, хотя в личном сообщении я отвечал.
                                        Согласен с вами на счет активности. Меня она тоже раздражает и отнимает время. Но я не вижу на данный момент иного способа достучаться до Яндекса (остальные уже все исчерпал).
                                        А не важно какой сайт по той причине, что даже в этом обсуждении хозяева других сайтов приводили аналогичные примеры.
                                        Т.е. дело не в сайте. Это будет уход от темы. Дело в проблеме неадекватной выдачи.
                                          0
                                          Ну просто я вот столько комментариев прочитал — что мне теперь интересно оценить сайт с точки зрения обычного пользователя, сравнить его с другими и т.п. Ну т.е. грубо говоря — понять, какой сайт выбрал бы я, если бы искал информацию по определенной теме.
                                            0
                                            Антон. Мне не жалко и это не секрет. Дело тут в другом. Дело в принципе. Копипаст в принципе должен быть в выдаче ниже, чем оригинал. И это постулирую не я. Это четко написано у Яндекса.
                                            Написано, но не выполняется.
                                            Поскольку от поддержки я получаю отписки, а иные адреса в Яндексе просто отмалчиваются, то я сделал обсуждение публичным.
                                            А если мы начнем говорить о моем сайте, то мы отклонимся от темы.
                                            Но если хотите — отвечу в личке.
                                              0
                                              Ну вот лично мне — было бы интересно глянуть
                                                0
                                                ок
                                        0
                                        1. Моему сайту 20 лет будет только через несколько месяцев. Более 20-ти лет моей работе по написанию статей и текстов. Сначала это было в офф-лайне, в газетах и журналах. Но по специальности. экспертные.
                                        2. «Не уверен» в том смысле, что мне о них не известно. но допускаю, что они могут быть. Я слежу за этим и провайдер тоже помогает. (или я не понял Вас про «странно»)
                                        3. Делал. Но кому-то он может не нравится. Допускаю.
                                        Это же вкусовщина.
                                        Большинство сайтов с хорошей информацией, которыми я пользуюсь с точки зрения «красоты» могут быть не очень. Но информация на них хорошая.
                                        Я же за информацией прихожу. И в поисковик, и на сайт.
                                        Поиск по красивостям, по картинкам — есть такая функция в поиске. Но мы говорим не о ней.
                                          +1
                                          Ну например Если у вас сайт на WordPress или Joomla, то они как правило генерируют кучу дублей, там всякие архивы и т.п., (конечно если с ним по колдовать, прописать всё лишнее в роботекст, то будет всё норм). Проблема в том что достоверно определить первоисточник довольно трудно, ну далеко не всегда тот кто первый тот и автор, например бот Яндекса заходит к вам раз в неделю, и смотрит не появилась ли у Вас новая статья, а к вашему копипастеру который публикует по 100 статей вдень, + социальные сигналы с его сайта бот просто не вылазит. Поэтому вполне вероятна история что автором признают его…
                                            –2
                                            Понял Вас. 20 лет назад не было ни WordPress, Joomla :)
                                            И Яндекс только затевался, насколько я помню.
                                            Так что дублей нет.
                                            Признаком первопубликации является дата, а не количество публикаций в день или социальные сигналы.
                                            Дату можно проверить по вебархиву. Это нужно сделать один раз. Но Яндексу это делать не хочется. А свою базу он похоже спалил в 2012 году.
                                              0
                                              Дату можно проверить по вебархиву.

                                              Который появляется ещё реже, чем боты яндекса. Копирайтеры успеют скопирайтить статьи у копирайтеров второго уровня, которые скопирайтили статьи у копирайтеров первого уровня, которые стащили статьи у вас, прежде чем вебархив зайдёт к вам и удостоверится в наличии статьи.
                                                +1
                                                Примерно это же пытаюсь донести до человека…
                                                  –2
                                                  Да. Но по нему можно довольно точно проверить архивы публикаций до 2003 примерно года. А потом посмотреть, сколько скопипастили и вычистить из выдачи злостных воров.
                                                  С новыми текстами, конечно, сложнее. Но есть «оригинальные тексты» Яндекса. Это хоть что-то.
                                                  Если начать решать задачу, то можно потихоньку прийти к решению.
                                                  Вычищение злостных воров после анализа вебархива уже поможет очистить выдачу от мусора.
                                                  Дальше еще проще. Если текст появился, например, в 2001 году, а сайт с копией в 2007, то это явно копия и копипастер.
                                                  Потихоньку выявится пул надежных сайтов, которые следят за своим контентом и создают его.
                                                  Единственная проблема — не все авторы используют «оригинальные тексты». Как это решить я пока не придумал.
                                                  Может быть сделать некую «кнопку», наподобии тИЦ или счетчика — загрузил информацию, нажал на кнопку — Яндекс зафиксировал обновление и проиндексировал, отметил дату и т.д.
                                                  Не знаю. Честно.
                                                  Но делать это точно надо.
                                                  Можно обвинить меня в мистицизме, но я полагаю, что снижение качества поиска, качества для пользователя каким-то образом связано с тем, что Яндекс игнорирует оригиналы и выдает копипаст.
                              –1
                              У Яндекса не должно быть задачи показать исходный текст всегда выше копипасты. Это может быть одним из важных факторов, но точно не может быть конечным критерием.
                              Яндекс должен показать выше ответ максимально удовлетворяющий пользователя. И весьма вероятно что он покажет украденный текст выше просто потому, что сам сайт, который текст украл намного превосходит оригинальный по всем метрикам.

                                +2
                                Должно быть. Более того — это публично озвученное правило «мы понижаем… сайты с вторичным, неоригинальным...» и т.д. Это написано в правилах Яндекса.
                                Идентичные тексты идентично удовлетворяют пользователя. Таким образом копипаст никак не ценнее.
                                Я ставил массу экспериментов: скорость загрузки, положение текста, картинки, тэги, заголовки, форматирование, видео, минимизация рекламы и еще пара десятков параметров. Более того, присылал Яндесу примеры копипастеров, которые, например, перегружены рекламой, грузятся в 10 раз дольше и пр. Без толку.
                                Так что копипастер ни в чем мой сайт не превосходит. Тем более, когда копипастеров 70 в выдаче с моим текстом. А моего сайта нет вообще!
                                  0
                                  А главное. Копипаст — это воровство. Если Яндекс поощряет воровство, то это его право. Нужно только честно об этом сказать. И ждать исков.
                                    +1
                                    И что вы напишите в иске? Как вы докажите что являетесь правообладателем? Вы собираетесь депонировать свои тексты? Главное почему иски к Яндексу, а не к сайтам копипастерам? за каждую статью что у вас скопипастили можно получить 10 к рублей 70 раз получаем 700 к. А как же древнее правило «ПЛЕВАТЬ НА ЛЮБОЙ КОПИРАЙТ» как то некрасиво получается?
                                      –1
                                      О. Это элементарно. Это совсем не представляет проблемы, уверяю Вас.
                                      Почему к Яндексу? Основания есть, а выбор ответчика — это привилегия истца.
                                      Я не совсем понял про «древнее правило». Мне не плевать на копирайт.
                                      Если Вы имеете ввиду не авторское право, а копирайтеров, то это еще одно зло. Копирайтер — это человек, который берет чужой текст, изменяет его, согласно сео-методикам и публикует.
                                      Иногда это меняет смысл текста полностью, поскольку копирайтер не понимает его смысла и не является специалистом.
                                        0
                                        Каким образом вы собираетесь доказать что автором текста являетесь именно Вы?
                                          0
                                          Есть несколько вариантов доказать авторство текста. К данному обсуждению это отношения не имеет.
                                          Здесь речь идет о первопубликации в Интернет и положении первопубликации в выдаче над копипастом.
                                            +1
                                            Да что Вы, как можно понижать в выдачи сайт копипастер, если не можем определить кто автор? Поверите, это довольно сложная задача даже для суда, а вы хотите чтоб это делал бот…
                                              –1
                                              А давайте рассуждать логически.
                                              Яндекс пишет (не дословно, но могу найти цитату): «мы понижаем сайты с вторичным неоригинальным контентом».
                                              Для этого нужно знать, где оригинальный.
                                              Значит, Яндекс знает, но врет и понижает как раз оригинал.
                                              Или не знает, но врет, что знает и понизит вторичный.
                                              Вранье и там и там.
                                              Я «хочу», чтобы это «делал бот» по одной простой причине. Он уже это делал и успешно. Например, в 2007-2011 годах.
                                                +1
                                                оригинальный контент это контент коорый есть в единственном экземпляре, вашь контент не является оригинальным поскольку его скопировало 70 сайтов… Вот вас и ранжируют ниже плинтуса… Если на вашем сайте только не оригинальный контент…
                                                  –1
                                                  Стоп. Вы что-то запутались.
                                                  Я написал статью. Разместил статью. Допустим, в 1998г.
                                                  Статья хорошая, поэтому ее непрерывно копипастят без спроса и без указания источника, а порой и автора.
                                                  Но первопубликация у меня. И ранжировать ниже плинтуса нужно воров — копипастеров. А опускают или выбрасывают из выдачи наоборот — первопубликацию.
                                                  И так со всем моим контентом. 95% контента на моем сайте первопубликации — примерно 5100 страниц.
                                                    0
                                                    Нет, если инфа продублирована многократно, поисковики снижают её ценность… в независимости от того кто автор… Но это основываясь на личных наблюдениях 3-5 годовалой давности, но возможно конечно я не прав…
                            –3
                            тут речь про новости. и вот как раз для новостей важнее те что свежее.
                              +4
                              Новость рецепт чебуреков? Новость введение прикормов? Новость дисбактериоз?
                              Я еще готов поверить, что новость — грипп. Но все остальное… Нужно иметь очень богатую фантазию. Это под силу только работникам Яндекса. И пациентам с заболеваниям ЦНС.
                              0
                              Копирование это не воровство, это скорее форк вашей инфы, но в другой обертке.
                                0
                                Это не инфа. Это труд. Использование результатов чужого труда без спроса и оплаты — это воровство.
                                Нормальные СМИ и в офф-лайне и в он-лайне это понимают и за статьи платят.
                                А копипастер ворует.
                                Все в магазине платят, а копипастер рассказывает, что может товар взять и это будет «скорее форк… в другой обертке».
                                Но нет. Это будет банальное воровство.
                                И в магазине за таким «в другой обертке» последовал бы суд и тюрьма.
                                Копипастер ворует по причине собственной творческой и интеллектуальной импотенции — неспособности написать толковый текст.
                                  0

                                  Товар из "магазина" никуда не девается.
                                  Хотя я с вами согласен, копировать чужой текст и выдавать за свой — нехорошо.

                                    0
                                    «девается», поскольку в поисковой выдаче вместо оригинала оказывается копипаст.
                                    А в результате доход (в любой форме, в том числе и в форме «сайт популярен у пользователей») получает вор-копипастер а помогает ему в этом Яндекс.
                                    0
                                    Я смотрю как потребитель, мне лично не так важно кто автор мне важен контент в нужной подаче, имхо если мы идем в сторону свободного интернета, то это должно быть понятно всем. Право автора не отчуждаемо это само собой, это значит только что нельзя подписаться под чужим произведением, а вот если выложил в интернет что-то, то считай общественное достояние.
                                      0
                                      Вы сначала потрудитесь написать пару сотен статей, а потом посчитайте это «общественным достоянием».
                                      Копипастер и вор никогда не указывает верный источник и авторов и не ставит ссылок. Потому что он — вор.
                                        0
                                        Вам это «не так важно» до первой необходимости написать автору текста. До первой попытки выяснить фейк или нет, можно тексту доверять или нет, какой авторитет за ним стоит и т.д.
                                          0
                                          Не признаю авторитетов, просто научный принцип который применяю и в жизни. Не указывать авторство это плохо, но не преступление. Про с начало напиши ну это просто принцип «сперва добейся», тут нечего комментировать. Копипастер вор это просто слова с эмоциональным окрасом, опять таки повторю что как потребителю пофиг как вы называете поставщиков контента, я их выбираю не на этом принципе. Мне например даже хабр удобнее читать на моем собственном сервисе со спарсенными статьями, ну и я то я тоже преступник если скопировал без спроса? или нет если не давал в общественный доступ.
                                            0
                                            Копипастер — вор. Это факт, а не эмоции.
                                            Вам «пофиг» до первого серьезного вопроса.
                                            Копировать «для себя» — на здоровье. Это лишь способ изучения информации. Сразу прочитать или позже.
                                            Речь вообще не об этом. Речь о том, что если Яндекс хороший поисковик, то первым в выдаче должен быть оригинал текста, источник. А все копии должны быть в выдаче ниже.
                                            Это и потребителю будет удобнее.
                                            Например, про введение прикормов написано 10 оригинальных разных текстов. Если все эти оригиналы представлены на первой странице выдачи, то потребитель сразу получает весь спектр мнений + возможность дальнейшей связи с авторами и пр.
                                            А если на первой странице по два копипаста каждого мнения, то часть мнений оказывается пользователю труднодоступна, а часть непонятно какого происхождения. То ли непрофессионал написал, то ли доктор, то ли это копирайтерский текст, исказивший первоначальный смысл, то ли это официальная позиция минздрава. Все это важно для анализа получаемой информации и всего этого лишен потребитель, читающий копипаст.
                                            Кроме этого, через замусоренную копипастом выдачу совершенно невозможно пробиться, допустим, научной статье. Да, читать ее неспециалисту сложно, но есть специалисты. А неспециалисты могут написать автору и попросить объяснений. А если статьи в выдаче нет, если ее можно найти лишь на 10-й станице, то потребитель просто лишается информации. В результате копипаста и при пособничества Яндекса.
                                        0
                                        Да ладно, копипастер использует чужие тексты потому что это более экономически целесообразней.
                                          0
                                          Конечно. Писать тексты труднее. Нужны мозги, знания, умения. А своровать дело не хитрое.
                                          Вот, к примеру, если у вас есть что-то ценное, например, деньги, то «экономически целесообразней» их у вас своровать.
                                          Именно так рассуждает и вор, и копипастер.
                                          И, похоже, Яндекс.
                                            +1
                                            Э брат, сделать сайт на копипасте, да так чтоб он был выше оригинала, поверь это намного сложней чем написать хорошую интересную статью… Человек делающий сайты на копипасте, это вам не простой писака статей, это программист, админ, вебдизайнер, сеошник, бизнесмен в одном лице… Вы ведь не думаете, что кто то ручками ваши статьи ворует, это программка парсит ваши статьи, очищает их от ссылок и вставляет их на сайт…
                                    +5
                                    Еще один вариант ответа, не вполне согласующийся с текстом статьи такой.
                                    И это итог многолетнего исследования.
                                    У Яндекса есть тайный, не публичный фильтр.
                                    Как устроен тайный фильтр Яндекса?
                                    Очень просто. Если сайт отвечает всем техническим требованиям Яндекса, если на нем расположена хорошая и оригинальная информация, но сайт по каким-то причинам, назовем их «личными», не устраивает Яндекс, то происходит вот что.
                                    Сайт исправно индексируется и в Вебмастере видно, что все страницы «находятся в поиске».
                                    Но на самом деле, из выдачи постепенно выпадают страницы сайта.
                                    Страница за страницей.
                                    Вместо них появляются страницы сайтов-воров, скопипастивших текст.
                                    Т.е. пока текст никто не своровал, Яндекс выдает их на пессимизируемом «по личным соображениям» сайте. Но как только этот же текст появляется на сайте копипастера, то страница сайта первоисточника из поиска выпадает, а остается страница сайта-копипастера.
                                    При этом сайт-первоисточник, по всем публично озвученным Яндексом требованиям, может многократно превосходить сайт-копипастер. Но в выдаче будет только копипастер.
                                    Такая вот оригинальная «блокировочка».
                                    Действует она примерно с 2012 года.
                                    Что это дает Яндексу? Видимо так Яндекс проявляет свою «лояльность». (Хотя сайт, пропадающий из выдачи, может быть любой нейтральной тематики).
                                    К чему это приведет? К тому, что строчка в резюме «работал в Яндекс» будет восприниматься как минус при последующем трудоустройстве.
                                    Ну а Яндекс, разумеется, продолжит терять долю рынка.
                                    Как писали С.Левитт и С.Дабнер «информация представляет собой валюту Интернета», а раз так, то исключая первопубликации из выдачи, Яндекс обворовывает авторов и способствует «продаже краденного».
                                    Так что вопрос многомилионных исков к Яндексу это лишь вопрос времени.
                                      +2

                                      Типичная теория заговора.

                                        +3
                                        Да. Но иного в голову не приходит, ибо за 5 лет все иные варианты проверены.
                                          +1
                                          Да проще всё — плевать ему на вас, вот и всё.
                                          Помните историю с ЦОП-ами? Вы ребята свою работу выполнили, можно выбрасывать.
                                          С какой стати компания с таким подходом будет думать о тех с кем они вообще не сотрудничали? Работает и ладно. От такого косяка страдаете ВЫ А НЕ ОНИ.
                                          Не изучал эту тему, но может там у дорвеев есть РСЯ?
                                            0
                                            Так когда плюешь на одного, то рано или поздно это возвращается. Например, потерей пользователей.
                                        +3
                                        работал в Яндекс

                                        Видимо уже. Судя по слухам, оттуда разбежались все вменяемые программисты. Яндекс, куда раньше и на собеседование было не попасть, сейчас пользуется помощью рекрутинговых агенств и эйчаров-аутсорсеров, которые спамят в мой круг и линкедин регулярно.
                                          0
                                          Похоже, что так…
                                            0
                                            Очень многие ушли после смерти Сегаловича.
                                              0
                                              Инсайдов у меня нет, но я тоже пришел к выводу, что после ухода Сегаловича все рухнуло.
                                                0
                                                Я пришел работать в Яндекс за месяц до его смерти и видел некоторые изменения.

                                                Ну а потом следил снаружи.
                                                  0
                                                  Тот случай, когда я сожалею, что мои предположения подтвердились.
                                                  Ну и конечно, уход Сегаловича огромная потеря…
                                                  Как оказалось, для Рунета в целом, а не только для родных или Яндекса.
                                          0
                                          «Сети дорвеев если и остались, то только где-то на обочине интернета, в маргинальных тематиках типа казино или контента для взрослых.» — в Google последний год для дорвеев просто райские времена настали, например для сериальной тематики по некоторым ВЧ запросам 9 из 10 результатов — доры и прочий шлак.
                                            0
                                            С удовольствием посмотрел бы в личку пример
                                            +1

                                            Недавно пытался кросскомпилировать библиотеку APR с помощью MinGW, но завяз где-то в системных хедерах. Решил погуглить по запросу apache portable runtime mingw. Вторая ссылка в гугле ведёт на tomdeman <dot> com/apache-portable/apache-portable-runtime-mingw.html — шикарную по своей наглости и наивности страницу...

                                            +4
                                            Так это же новый сервис — Яндекс.Дорвей
                                              +1
                                              Интересно, что же на это скажет «промолчит» Яндекс?
                                                0
                                                Вероятно, промолчит или скажет, что «такого не может быть, потому что не может быть никогда». И только Яндекс умный, а остальные…
                                                +4
                                                Пару недель назад я отправлял в Яндекс жалобу на подобного рода сайты в выдаче. В моем случае они занимали первые ТРИ СТРАНИЦЫ поиска. Это просто невероятно. При этом в гугле все было ок. Знаете, что мне ответили? Что сайты эти отвечают всем требованиям поисковой выдачи Яндекс и ничего не нарушают. Замечательно :)
                                                PS. Вот, кстати, текст ответа:
                                                Насколько я вижу из Вашего скриншота, результаты поиска соответствуют запросу.

                                                Хочу отметить, что Яндекс индексирует сайты, созданные независимыми людьми и организациями. Мы не отвечаем за качество и содержание страниц, которые вы можете найти при помощи нашей поисковой машины. Нам тоже многое не нравится, однако Яндекс — зеркало Рунета, а не цензор. Мы также не отвечаем за бракованные программы, выполнение или невыполнение тех услуг, которые вам могут предложить на найденных при помощи Яндекса сайтах, и за убытки, которые вы можете понести, воспользовавшись такими услугами.
                                                Если указанные сайты нарушают законодательство, то следует обратиться к провайдеру, оказывающему услуги для этих сайтов, а если это не поможет, то в правоохранительные органы.
                                                Спасибо за письмо!
                                                  –2
                                                  " Яндекс — зеркало Рунета".
                                                  По факту — ложь.
                                                  Зеркало отражает «как есть». Значит оригинал текста должен быть выше копипаста.
                                                  А пока Яндекс — кривое зеркало Рунета.
                                                  +22
                                                  image
                                                    +1
                                                    Сверхрелевантная выдача… Все, что нужно знать о качестве Яндекса.
                                                      +1
                                                      Да, забавно. В этой статье «определенно» описан рецепт приготовления домашних чебуреков.
                                                      Как же так? А если бы кто-то другой написал бы вчера статью, в которой был уникальный контент?
                                                      Кто работал с Яндекс.Толокой, знает, что по всем инструкциям данная статья просто содержит упоминание предмета и нахождение ее на первой странице, пусть и в самом низу, как-то неоправданно.
                                                      НА мой взгляд, тут либо то о чем говорилось выше про «необъективность» и «не публичный фильтр», либо несовершенство системы… Либо не публичный фильтр завуалированный под несовершенство системы))))

                                                      Отойдем от понимания (или непонимания) всех этих сложных процессов построения поисковой выдачи и просто представим пользователя, который ищет «домашние чебуреки», то зачем ему наша статья, которая безусловно интересна, но не является целью поиска в данном случае?
                                                        0
                                                        «не публичный фильтр завуалированный под несовершенство системы» — шикарно!
                                                          0
                                                          Ну тут играет огромный траст сайта, возможно выдача персонализирована…
                                                          0
                                                          А вы залогинены? Вероятно, это поправка на «интересы пользователя».
                                                            0
                                                            У меня то же самое выдаётся и с приватной страницы, не залогиненным. 10-е место у этой статьи.
                                                          +1
                                                          Тема еще в 2012 году работа так и сейчас работает.
                                                          devvver.ru/seo/vyvod-v-top-po-vch-zaprosu-za-paru-dnej-v-yandekse
                                                          Такую выдачу часто называют «новостной».
                                                          Используется Яндексом не основной индексатор, а так называемый «быстроробот».
                                                          Он и копипалст хорошо ест. В 2013 году было куча подобных дорвеев, особенно по запросам с драйверами.
                                                          В топ страницы заганялись по разному — сначала твитер, потом и вк, фб работал. Одно время очень хорошо даже работали кнопки «поделиться» от Яндекса.
                                                            0
                                                            Ну и зачем? Какая новость может быть в рецепте чебуреков, описании заболевания, вида животного и даже принципов html-верстки (если это справочная информация).
                                                            Зачем тогда «хорошо есть» копипаст.
                                                            Получается, что единственная форма выдачи Яндекса — новостная?
                                                            Т.е. ничего, кроме новостей Яндекс искать не умеет? А новость он умеет определять только по дате?
                                                            И над этим работают 3000 человек пару десятков лет?
                                                              0
                                                              Очень просто можно решить эту проблему.
                                                              1. Отказаться от влияния ссылок на ранжирование. Вообще. Навсегда. Забыть про тИЦ и пр. надстройки.
                                                              2. Сравнивать тексты и выдавать текст, опубликованный раньше, если эти тексты идентичны или схожи, допустим, на какой-то % (это и копирайт уберет из выдачи).

                                                              В результате пользователь получит качественный текст из первоисточника. А не перепечатанный много раз так, что концов не найдешь.
                                                              И в выдаче освободится место для конкуренции текстов, авторов, качества информации.
                                                              А сейчас выдача — это соревнование СЕО, который Яндекс, по факту, поощряет.
                                                                –1
                                                                Хорошо, а если новость в первоисточнике была такая: «Обрушился подъезд дома. Выясняются причины.». Потом появилась «Обрушился подъезд дома. На месте аварии работают 200 спасателей.» А потом «Обрушился подъезд дома. Спасли 2 человек. Перекрыли движение.». Какой из этих новостей Яндекс должен отдать предпочтение, последней? Выглядит как копипаст с дополнениями, но новость с наибольшей датой выглядит актуальнее. Мне кажется Яндекс так и работает.
                                                                  +1
                                                                  Я говорил о точной копии текста.
                                                                  Это важно.
                                                                  И о том, что оригинал из выдачи просто исчезает.
                                                                  Кроме этого разделить ресурсы на новостные и не новостные очень просто. Новостных ресурсов гораздо меньше.

                                                                  Если это Яндексу с 3000 сотрудниками одолеть сложно, то можно делать специальный блок новостной выдачи. Справа или слева. Или сверху. Выделенным блоком.
                                                                  И людям будет удобнее.
                                                                  Потому что «дизентерия в Самаре» — это скорее всего новость. А «дизентерия», «дизентерия лечение» — это поиск информативной не новостной статьи.
                                                                  Если 3000 сотрудников Яндекса немножко напрягут часть своего мозга, то они смогут решить эту непомерно сложную задачу для 3-го класса школы.
                                                                  0
                                                                  1)Пробовали отказываться от ссылок. Выдача становилась плохой, поэтому влияние ссылок вернули. Кстати в быстророботе работают все ссылки, в том числе и закрытые nofollow(если нет фильтра у источника). Из всех ссылок сейчас по факту работает наверное только 3%. Яндекс использует отдельные алгоритмы для борьбы с подобными аккаунтами в соц сетях.
                                                                  2) Такой механизм работает. Но нужно понимать: новости сами по себе имеют низкую уникальность.
                                                                    0
                                                                    1. Откуда такая информация? Когда выдача становилась плохой от отключения значения ссылок?
                                                                        0
                                                                        Датировано 12 марта 2014, 15:14
                                                                        А бардак с выдачей начался в 2012г. Т.е. копипаст стал выше первоисточника начиная с 2012 года. За два года до отказа от учета ссылок.
                                                                          0
                                                                          Вопрос был другой. Без ссылок ранжировать нормально не смогли, end of story, они остаются на месте
                                                                            0
                                                                            Дата начала бардака 2012 год. Дата отмены ссылок 2014. Т.о. ссылки на бардак не влияют.
                                                                            Тем более, что в прошлом году яндекс уверял, что ссылки на выдачу не влияют.
                                                                            Опять врал?
                                                                              0
                                                                              Да, ссылки с копипастой связаны слабо.
                                                                              Да, если говорят о бесполезности ссылок, то это ложь. Думаю, там шла речь о том, что это не настолько критический фактор, а один из множества. Тем не менее, без него всё разваливается.
                                                                                0
                                                                                Помню первые тесты отключения еще где то в 2010 году в одном из апов.
                                                                                На следующий ап вернули. Было еще объяснение, что пытались построить модель графов без ссылок. Результат получился плохой. Пруфов не просите, давно было, не найду.
                                                                                А ссылки очень хорошо работают. Как покупались, так и покупаются.
                                                                                  +1
                                                                                  Слышал что пытались убрать платные ссылки. Вообще от ссылок отказаться первый раз слышу… Это как бы фундамент (базис) а поведенческие и т.д. только дополняют…
                                                                                    –1
                                                                                    Видимо этот базис ошибочен, поскольку в результате он дал в руки ворам множество отмычек.
                                                                          0
                                                                          всегда… причем сначала этого хлебнули гуглеводы, потом яндексоиды, по своейственной им традиции, решили станцевать на персональных граблях
                                                                          0
                                                                          Devvver. Не понял про 2.
                                                                          Я говорю не о новостях, а о нормальных, полноценных информационно-аналитических текстах. Например, о статье про какое-либо заболевание. Или про, допустим, введение прикорма, расшифровку анализа и т.д.
                                                                          Если механизм определения уникальности и есть, то он явно не работает как надо. Иначе я не видел бы по запросу 70 копипастов моей статьи на чужих сайтах в выдаче, вместо моего сайта — первоисточника.
                                                                          70 копипастов. 70 идентичных текстов. В выдаче. Но оригинала этого текста в выдаче нет.
                                                                          (Технические параметры моего сайта сейчас близки к идеальным и превосходят любой из сайтов-копипастеров).
                                                                            0
                                                                            Есть 2 бота: быстроробот и обычный индексатор. Так вот быстроробот не совершенный. Он ест копипалст по той причине, что уникальность — не главный параметр оценки вывода статьи в топ. Главнее сколько людей ей поделились, внутренние факторы аккаунта(количество подписчиков, ретвиты и т.д.). То есть быстроробот ставит в выдачу то, что люди считают интересным и обсуждают. А дорвейщики лишь манипулируют этими данными. У многих есть целых твиттерфермы под это дело.
                                                                              0
                                                                              Уникальность должна быть главным критерием. При этом установить это проще, чем количество «поделившихся».
                                                                              А иначе не выдача, а помойка.
                                                                                0
                                                                                Уникальный текст, размещенный на нонейм-сайте, уступит своей же копии на любом крупном. Банально приоритеты — на крупный сайт юзер перейдет с большей вероятностью, что на руку поисковику. Ведь мы смотрим на URL перед кликом, да? vasya-pupkin-news.com выглядит так себе, не внушает доверия, а тут взрослые дяди из nytimes.com что-то похожее написали.

                                                                                А кто был первый — ну, это чисто публичные заявления. Они стараются, но в примере выше вася, наверное, никогда не обгонит профильное издание со своими новостями.
                                                                                  0
                                                                                  У меня крупный, старый, большой сайт на хорошем платном хостинге.
                                                                                  А копии могут оказаться и на помойках. И эти помойки выше в выдаче.
                                                                                  А часто в выдаче только копии.
                                                                                  Так что если использовать Вашу метафору, то именно «васи» обгоняют в выдаче «профильное издание». А иногда «профильного издания» в выдаче просто нет.
                                                                                  Это против правил Яндекса о «мы понижаем сайты с вторичным, неоригинальным контентом».
                                                                                  Кто был первый проверить очень просто. И это довольно часто нужно знать пользователям.
                                                                                  +1
                                                                                  Как часто вы связываетесь с автором статьи? Я думаю очень редко, поэтому для подавляющего количества пользователей читать первоисточник или копипастера обсалютно фиолетово, а Яндекс ориентируется на большинство, а не на узких специалистов где связь с автором важна… Поисковая система не должна ставить задачу защищать прав авторов, вы разве платите Яндексу за то что он взялся бы защищать права авторов. У вас всегда есть вариант прописать запрет Яндексу вообще индексировать Ваш сайт и рекламироваться на телевизоре. Вы как вебмастер пользуетесь бесплатными услугами Яндекса и ещё вместо спасибо предъявляете хотелки… Хотите быть в топе, запросто, есть платная услуга, называется директ.
                                                                            0
                                                                            Вы пытаетесь вернуться во времена Рамблера и поисковых каталогов?
                                                                              0
                                                                              Нет. Гуугл нормально выдает мои первопубликации выше копипаста. А у Яндекса с этим проблемы.
                                                                            +1
                                                                            «Новостная выдача» формируется по любому запросу по которому резко появляется много статей. Пример
                                                                            Посмотрите по запросу «умер Задорнов» сейчас выдачу.
                                                                            Почему появилось много статей по запросу чебуреков? Причин может быть много. Часто это инфоповод. В Какой кокой то передаче на ТВ упомянули о домашних чебуреках, народ пошел гуглить, семантики увидели рост запросов и начали добавлять статьи, а тут и дорвейщики подтянулись.
                                                                              0
                                                                              Ну так вот. Авторские оригинальные тексты, как и тексты рецептов и пр. никогда не формируют резкого появления запросов или статей. Они примерно одинаковы.
                                                                              Упоминание по ТВ чебуреков не приведет к резкому росту запросов. Никогда.
                                                                                0
                                                                                телек как раз всегда апает тренды, причем очень заметно и зачастую с нуля до овердофига
                                                                                  0
                                                                                  Допустим. Но это не имеет отношения к темам моих текстов. Тем более, что я проверял в разное время, в разные года и т.д. Это не коррелирует с новостями. Совсем.
                                                                                  0
                                                                                  Тренды формируются очень часто. Не обязательно узнать по ТВ. Вот у меня на одном из сайтов есть курс валют (тайского бата). Просматривая статистику обратил внимание на резко пошедший траф по запросу «24 бата 2 пакета». За день пришло больше 200 человек. Оказалось что это не накрутка. Просто одна бьюти-блоггерша с 10К подписчиков на Ютубе упомянула, что купила в Таиланде 2 пакета какой то травы. И народ повалил гулить незнакомые слова. Если бы этот момент отловили бы дорвейщики (например через прямой эфир Яндекса export.yandex.ru/last/last20x.xml), то они могли бы нагенерировать дорвеев, которые бы отжали у меня трафик за счет формирования новостной выдачи по запросу.
                                                                                    0
                                                                                    Допустим. Только идентичный текст остается одинаковым вне зависимости от даты публикации. Если Яндекс этого понять не может, то грош ему цена.
                                                                                      0
                                                                                      Для быстроробота уникальность — один из десятка факторов, не самый главный.
                                                                                        +2
                                                                                        Это как? Т.е. для него не важен источник новости, текста?
                                                                                        Впрочем, пожалуй Вы правы. Поэтому и качество поиска у Яндекса отвратительное.
                                                                                  +3
                                                                                  Для новостей же есть отдельная вкладка, почему нельзя применять «новостную выдачу» только там, если так сложно разделять новостные темы и обычные? И у того же Гугла в поиске по запросам типа «Умер Задорнов» с всплеском статей над основной выдачей появляется отдельная выделенная область «новости», предлагающая пару страниц из «новостной выдачи» и собственно возможность перейти на поиск по новостям.
                                                                                    0
                                                                                    Логично.
                                                                              0

                                                                              По-моему, объяснение куда проще. Сами ведь написали — эту выдачу дает новостной бот. Как обычно выглядят новости?


                                                                              11.01.20ХХ — Из зоопарка нашего города сбежал бегемот.
                                                                              13.01.20ХХ — Ночью в центре города кто-то повалил памятник Пушкину. В виду наличия следов крупного животного, подозревается бегемот. Напомним, что 11.01.20ХХ Из зоопарка нашего города сбежал бегемот.
                                                                              15.01.20ХХ — Сбежавший бегемот вандал, все что известно на данный момент. Полиция загнала бегемота в здание мэрии. Напомним, что два дня назад ночью в центре города кто-то повалил памятник Пушкину. В виду наличия следов крупного животного, подозревается бегемот, который сбежал из зоопарка нашего города.


                                                                              Какую из трёх статей вы хотели бы найти в поиске утром 15-ого числа?

                                                                                +2
                                                                                Еще раз давайте повторим. Я понимаю что автор дважды писал про это в статье и еще в обсуждении несколько раз повторялось, но никогда не поздно повторить еще раз:
                                                                                1) речь идет о СОВЕРШЕННО ОДИНАКОВЫХ текстах. Не измененных а идентичных. И нет, отделить основной текст от окружающего не так уж и сложно. Если я делал это в начале нулевых, то и яндекс как-то справится.
                                                                                2) Речь идет о новостной выдаче в совершенно не новостной тематике. И нет, это не так сложно более тщательно классифицировать популярные тематики. Просто лень. Пользователь находит что искал, пусть и ворованное. Яндекс показывает рекламу. Все счастливы, а проблемы индейцев администрацию не волнуют (по мнению яндекса).
                                                                                  0
                                                                                  Спасибо!
                                                                                +1
                                                                                Все намного проще. Это делается двумя инструментами, например Wmsn Doorway Generator и сервисом «быстробот»
                                                                                  0
                                                                                  Кстати. У Яндекса уже был такой глюк, что копипаст был выше оригинала в выдаче. Это было примерно в 2001-2003 году, если память меня не подводит.
                                                                                  Я переписывался с поддержкой около года.
                                                                                  После этого, наконец, оригинал появился в выдаче выше копипаста.
                                                                                  А в 2012 году история повторилась.
                                                                                  Но теперь и 5 лет переписки результата не дают.
                                                                                  А сайт тот же… Тексты те же… Ситуация повторяется буквально до «запятой».
                                                                                  Раньше Яндекс не с первого раза, но услышал. Сейчас не слышит и с сотого.
                                                                                    –1
                                                                                    А сайт тот же… Тексты те же… Ситуация повторяется буквально до «запятой».
                                                                                    А почему вы считаете, что сайт, на котором ничего не меняется должен быть в выдаче выше сайтов, которые популярнее и нравятся пользователям больше?

                                                                                    Если вы не подали на эти сайты в суд и информация на них всё ещё доступна, то как и откуда Яндекс должен узнать, что она ворованная, я извиняюсь?

                                                                                    Раньше Яндекс не с первого раза, но услышал. Сейчас не слышит и с сотого.
                                                                                    Извините, но вы страдаете манией величия. Могу вас уверить, что ваш сайт ни в тот раз, ни в этот никто никуда не двигал. Просто в тот раз посмотрев на жалобы вебмастеров Яндекс решил, что дорвеев уж слишком много и начал их активно давить — а в этот раз, согласно его метрикам, проблема — не так остра. Вот и всё.

                                                                                    Я, впрочем, понимаю, что «мечу бисер перед свиьями (одна фраза „роботу все равно какой набор слов искать“ уже сразу говорит о том, что обсуждать алгоритмы работы поисковика с вами беспослезно чуть более, чем полностью), но это всё-таки Хабр…
                                                                                      0
                                                                                      Почему не меняется. Добавляется новая информация, сервисы, статьи. Улучшается юзабилити, технические характеристики, скорость загрузки, навигация, добавляются новые разделы. Много чего делается.
                                                                                      А даже если и не делается, то это не дает Яндексу право потакать ворам и показывать копипаст в выдаче вместо первопубликации.
                                                                                      Про популярнее и больше нравится — лукавство. Если сайт в выдаче — на него приходят. Нет в выдаче — не приходят.
                                                                                      А за мое качество говорит как раз то, что мои статьи сворованы многократно. На десятки других сайтов, которые есть в выдаче.
                                                                                      Выдают же информацию. Информация идентичная, моя, качественная (плохую не воруют).
                                                                                      Вот только эта моя качественная информация в выдаче показана на сайтах ворах при пособничестве Яндекса.

                                                                                      Яндекс может запросто узнать, где первопубликация, а где вторичный контент. Во всяком случае в 2011 году у него с этим проблем не было.
                                                                                      И никакой суд не нужен. Копипаст ниже в выдаче. Этого достаточно.
                                                                                      Судиться с каждым вором — жизни не хватит. Чем они и пользуются.

                                                                                      Маний у меня нет. Есть факты. Если мои обращения совпали с иными факторами — прекрасно. Меня интересует результат, а не мое участие в процессе. я бы предпочел заниматься чем-то иным, а не перепиской с Яндексом или здесь.

                                                                                      Да. Со мной не нужно обсуждать алгоритмы. Нужно просто исправить баг, тем более, что раньше он уже был исправлен.
                                                                                      Я занимаюсь своим делом — создаю хороший контент. Вы — своим — создаете выдачу при которой первопубликация выше оригинала.

                                                                                      И не придется ругаться.
                                                                                        0
                                                                                        Что-то я не вижу откуда Вы взяли цитату „роботу все равно какой набор слов искать“. Похоже, что Вы или читать не умеете, или цитировать, или не понимаете прочитанного.
                                                                                        Или пытаетесь приписать мне то, что я не говорил.
                                                                                        И тогда Ваши зоологические сравнения Вам следует использовать относительно себя.
                                                                                          –1
                                                                                          Что-то я не вижу откуда Вы взяли цитату „роботу все равно какой набор слов искать“
                                                                                          Из вашей статьи, однако.

                                                                                          А даже если и не делается, то это не дает Яндексу право потакать ворам и показывать копипаст в выдаче вместо первопубликации.
                                                                                          Почему нет? Задача Яндекса — привести человека туда, где ему понравится. А не установить «вселенскую справедливость».

                                                                                          Яндекс может запросто узнать, где первопубликация, а где вторичный контент. Во всяком случае в 2011 году у него с этим проблем не было.
                                                                                          Были. И сейчас есть. А поскольку у спамеров есть задача — сделать для него это как можно более проблематичным, то это вечное соревнование «брони и снаряда».

                                                                                          И никакой суд не нужен. Копипаст ниже в выдаче. Этого достаточно.
                                                                                          Судиться с каждым вором — жизни не хватит. Чем они и пользуются.
                                                                                          Ну то есть вы хотите, чтобы ваши проблемы за вас решал Яндекс. А почему он, собственно, должен это делать?

                                                                                          Я занимаюсь своим делом — создаю хороший контент. Вы — своим — создаете выдачу при которой первопубликация выше оригинала.
                                                                                          А где это, я извиняюсь, Яндекс вам это обещал? Понижение сайтов без оригинального контента — далеко не всегда хорошая стратегия. Выкидывание новых сайтов «без разбору» — тоже.

                                                                                          В данном случае у Яндекса однозначная проблема — но не факт, что её можно пофиксить малой кровью так, чтобы запросы про «взрыв дома в Ижевске» давали адекватный результат тоже…

                                                                                          P.S. И я не сотрудник Яндекса — просто знаком со многими работающими как в Яндексе, так и у их конкурента. Потому неплохо понимаю как работает поиск. Главное — не кто голосует, а кто считает. В конечном итоге все алгоритмы прогоняются не через сотрудников Яндекса, а через обычных пользователей. И у них спрашивают: хотите вы видеть вверху резлультата вот этот сайт — или этот? И чтобы там кто ни постулировал — если «Средний Вася» скажет, что сайт с копией ваших статей ему нравится больше, чем ваш сайт — значит туда его и будут отправлять. Вы с этой точки зрения на свой сайт смотрели?
                                                                                            0
                                                                                            Ясно. Значит не справились с «прочитать и понять». Объясняю. В поисковую строку Яндекса можно было на момент написания той статьи поместить до 40 слов (так писал Яндекс). И в данном абзаце речь шла о поиске цитаты. Например, стихотворной строчки. И роботу ставилась простая задача — найти цитату. Гуугл справился «на раз». Яндекс облажался по полной.
                                                                                            2. По поводу справедливости. Еще раз говорю — текст идентичный, а читать его проще на оригинальном сайте. Остальные «танцы» про «нравится пользователю» — это лишь попытка Яндекса оправдать свой непрофессионализм.
                                                                                            3. «И сейчас есть». Ну так используйте. Или пополните свои знания посредством анализа web.archive.org — хотя бы старые первоисточники определите верно.
                                                                                            4. Что бы пользователь не уходили в Гуугл, чтобы исков к Яндексу не возникло, чтобы публично декларируемое «мы не ранжируем высоко вторичный контент» было правдой, а не враньем. Чтобы сотрудничать с создателями контента, а не с ворами. Вроде это вполне естественно — желать делать работу хорошо. Разве нет?
                                                                                            5. Где Яндекс мне это обещал? В правилах для вебмастеров. Обещал для всех, не только для меня.
                                                                                            Яндекс-Вебмастер-Некачественные сайты:
                                                                                            «Создавайте сайты с оригинальным контентом или сервисом.»
                                                                                            «Мы стараемся не индексировать или не ранжировать высоко:
                                                                                            Сайты, копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.»
                                                                                            P.S. С этой точки зрения смотрел. Иначе бы не возмущался.

                                                                                              –1
                                                                                              Из Ваших слов получается, что Яндекс такой умный, что может определить, что интереснее пользователю, но такой глупый, что не может определить первоисточник…
                                                                                              Это, право, смешно.
                                                                                              Особенно если первоисточник не показывать, а показывать только копии.
                                                                                                –1
                                                                                                Из Ваших слов получается, что Яндекс такой умный, что может определить, что интереснее пользователю, но такой глупый, что не может определить первоисточник…
                                                                                                Из ваших слов получается, что говорить с вами о Яндексе бессмысленно чуть более, чем совсем. Яндекс — это не человек. Он не может быть умным или глупым.

                                                                                                Это, право, смешно.
                                                                                                Это не смешно, это грустно.

                                                                                                Особенно если первоисточник не показывать, а показывать только копии.
                                                                                                Ещё раз: для того, чтобы первоисточник найти — нужно сначала понять, что это — одинаковые сайты. А это — ни разу не очевидно бывает. Есть разные способы обойти сравнивалку: часть букв заменить на латинницу. Или нпаиасть солва нмеонго по дургмоу (я утрирую, но суть понятна?). Поверьте — люди, которые ваши тексты компируют знают об алгоритме, которым Яндекс определяет одинаковые статьи чуть ли не больше, чем Яндекс… что не значит, конечно, что с ними не нужно бороться… но не нужно выставлять это как «проблема выеденного яйца не стоит — а Яндекс не смог».

                                                                                                «И сейчас есть». Ну так используйте. Или пополните свои знания посредством анализа web.archive.org — хотя бы старые первоисточники определите верно.
                                                                                                Когда вашу статью копирует к себе какое-то веб-сайт — то это проблема, ужас, качмар. Когда Яндекс пойдёт и в нарушение лицензии заберёт себе web.archive.org — то это нормально. Странные у вас какие-то двойные стандарты.

                                                                                                Где Яндекс мне это обещал? В правилах для вебмастеров. Обещал для всех, не только для меня.
                                                                                                Яндекс-Вебмастер-Некачественные сайты:
                                                                                                «Создавайте сайты с оригинальным контентом или сервисом.»
                                                                                                «Мы стараемся не индексировать или не ранжировать высоко:
                                                                                                Стараться — стремиться, хотеть сделать что-либо. Обещаний — вижу.

                                                                                                Объясняю. В поисковую строку Яндекса можно было на момент написания той статьи поместить до 40 слов (так писал Яндекс). И в данном абзаце речь шла о поиске цитаты. Например, стихотворной строчки. И роботу ставилась простая задача — найти цитату.
                                                                                                А вот это — собственно: вишенка на торте. Дело в том, что эта «простая задача» — это «не по-профилю». Обычная поисковая система на это в принципе неспособна. Найти текст по одному слову для неё — раз плюнуть, по двум — уже сложнее, по 40 — это почти катастрофа. Ну вот так сложилось. Потому что люди по двум-трём-пяти словам ищут чаще, чем по длинным кускам текста. И вся организация данных «заточена» под поиск по небольшому числу слов. Инвертированный индекс, вот это вот всё.

                                                                                                И у Гугла была такая проблема. Лет 5 назад. И они потратили несколько миллиардов, чтобы её, до некоторой степени, решить. А я Яндекс — не захотел (или не смог — не знаю).

                                                                                                Поэтому я на эту вашу фразу и среагировал. С человеком, искренне пишущий чушь типа «роботу все равно какой набор слов искать» бессмысленно обсуждать проблемы поиска на Яндексе, уж извините. Просто бессмысленно.

                                                                                                Для него поисковая система — это «коробка с магией», а потому продложения по её улучшению будут выглядеть примерно как — «добавьте порошка из печени дракона — должно помочь».

                                                                                                Причём, что самое ужасное, сам человек будет искренне верить в то, что он предалагает дельные советы.

                                                                                                P.S. Если на вашем сайте статьи того же уровня, что и тутошняя дискуссия, то мне, увы, вас совершенно не жаль… но возможно в других темах вы разбиратесь чуть получше, чем в поиске…
                                                                                                  0
                                                                                                  Объясняю. В поисковую строку Яндекса можно было на момент написания той статьи поместить до 40 слов (так писал Яндекс). И в данном абзаце речь шла о поиске цитаты. Например, стихотворной строчки. И роботу ставилась простая задача — найти цитату.

                                                                                                  А вот это — собственно: вишенка на торте. Дело в том, что эта «простая задача» — это «не по-профилю». Обычная поисковая система на это в принципе неспособна. Найти текст по одному слову для неё — раз плюнуть, по двум — уже сложнее, по 40 — это почти катастрофа. Ну вот так сложилось. Потому что люди по двум-трём-пяти словам ищут чаще, чем по длинным кускам текста. И вся организация данных «заточена» под поиск по небольшому числу слов. Инвертированный индекс, вот это вот всё.


                                                                                                  khim, Яндекс находит цитату по точному вхождению, но на первом месте далеко не всегда выводит первоисточник. Часто бывает, что по одной фразе из текста правильно определяет первоисточник, а по другой — ставит копипастеров на первое место. Почему так?
                                                                                                    –1
                                                                                                    khim
                                                                                                    Ух, как много слов. И все мимо.
                                                                                                    Про 40 слов Вам уже объяснили. Надеюсь, наконец, понятно.
                                                                                                    Я привел слова службы поддержки Яндекса. Можно сделать цитату и короче. Это не суть. Это нужно лишь для выявления копипаста или поиска цитаты.
                                                                                                    Поскольку это позволяет выявить копипаст, то Ваши рассуждения про замены символов (которые имеют место, но не в этом случае) не имеют смысла.
                                                                                                    Так же как бессмысленно Ваше сообщение о знакомых в Яндексе и Вашей компетенции, основаной на этом знакомстве. Пить пиво с охранником или кофе с секретаршей не означает компетенции в поиске.
                                                                                                    Поскольку Вы бессмысленно дергаете ото всюду слова, даже не пытаясь понять их смысл становятся понятны ваши умственные возможности. Вы школу-то закончили?
                                                                                                    Анализ вебархива не нарушает лицензию Яндекса.
                                                                                                    Анализ нужен по одной простой причине.
                                                                                                    В вебархиве собраны тексты с датами и URL. Поэтому сравнив URL и дату в вебархиве и их же на сайтах можно легко понять, где первопубликация.
                                                                                                    Аналогично и с копипастом. Как символы не меняй, значительный % текста будет идентичен.
                                                                                                    Об «оригинальных» текстах я вообще не говорю. Там все еще проще, поскольку они предваряют публикацию и привязаны к домену.
                                                                                                    Вот только Яндекс не использует ни то, ни другое.
                                                                                                    Поскольку Вы с трудом, как я понял, воспринимаете текст, то специально для Вас перефразирую:
                                                                                                    «Из Ваших слов получается, что сотрудники Яндекса такие умные, что могут определить, что интереснее пользователю, но такие глупые, что не могут определить первоисточник…»
                                                                                                    Так понятнее? Или еще разжевать?
                                                                                                      –1
                                                                                                      Часто бывает, что по одной фразе из текста правильно определяет первоисточник, а по другой — ставит копипастеров на первое место. Почему так?
                                                                                                      А давайте я вам задам другой вопрос: а почему иногда Alpha Go ставит камень на доске туда, а иногда — сюда?

                                                                                                      Внутри у неё — тот же самый, примерно, движок, что и в поиске: примерно такая же нейронная сеть. С весами и коэффициентами — но это позволяет ей обыгрывать чемпионов со счётом 40/0. И довольно глупо ожидать, что «логику» её работы можно будет описать словами в комментарии на Хабрахабре: если бы кто-то мог это сделать, то что помешало бы ему «нагнуть» всех чемпионов и заработать кучу призовых денег?

                                                                                                      То же самое и с поиском. У поисковика ведь нет задачи «вселенскую справедливость» устраивать. Как AlphaGo учится играть в Го на примерах — так Гугл и Яндекс учатся отправлять людей туда, где им понравится. Первоисточником новостей может быть агенство «Рейтер», но оказывается, что даже если оно оказывается на первом месте, то люди предпочитают CNN или там New York time.

                                                                                                      Иногда алгоритм даёт сбой (а спамеры стремятся любой сбой усугубить — например накликать переходов на свой сайт, чтобы робот решил, что сайт — популярнее CNN), тогда нужно смотреть на конкретные примеры и его менять. Вернее не алгоритм менять, а переклассифицировать данные для него. Ибо часто оказывается, что простое, грубое, изменение — ведёт к проблемам по другим, более частым, запросам.
                                                                                                        +1
                                                                                                        Было бы конечно здорово четко понимать в чем в каждом конкретном случае проблема. В том, что поисковик думает, что первоисточник таковым не является или в том, что у первоисточника остальные показатели (поведенческие, ссылочные и тд) хуже, чем у плагиатора.

                                                                                                        Это пригодилось бы вебмастерам для выбора на чем мне фокусировать усилия — добиваться удаления дубликатов или улучшать качество сайта.

                                                                                                        Интересно, сотрудники поддержки Яндекса могут видеть в выдаче пометки кого алгоритмы считают плагиатором, а кого — нет?
                                                                                                          0
                                                                                                          Это пригодилось бы вебмастерам для выбора на чем мне фокусировать усилия — добиваться удаления дубликатов или улучшать качество сайта.
                                                                                                          А ещё больше это пригодилось бы спамерам.

                                                                                                          Как вы думаете — у кого больше времени и желания «подкручивать» сайты, чтобы они проходили через фильтры? У вебмастеров? Или у спамеров?

                                                                                                          Интересно, сотрудники поддержки Яндекса могут видеть в выдаче пометки кого алгоритмы считают плагиатором, а кого — нет?
                                                                                                          И да — и нет. Не знаю — могут ли они получить эту информацию (скорее всего да), но знаю, что проинтерпретировать её — они не могут (просто потому, что это действительно очень сложно — там сотни параметров).

                                                                                                          Обычно такие жалобы собираются в пакеты — и когда их накапливается достаточно много передаются аналитикам.

                                                                                                          Которые уже и решают — что со всем этим делать.

                                                                                                          P.S. Но вообще, судя по тому ужасу, что описан в статье и тому факту, что «домашние чебуреки» всё ещё ведут сюда с Яндекса похоже, что с классификацией у них всё реально плохо. И проблема не только в «быстром», «новостном» боте. На второй станице «новостного» бота быть не должно. Да и это, блин, что такое? Если даже это и «новость» — то она уже протухла давно…
                                                                                                            0
                                                                                                            А ещё больше это пригодилось бы спамерам.
                                                                                                            Как вы думаете — у кого больше времени и желания «подкручивать» сайты, чтобы они проходили через фильтры? У вебмастеров? Или у спамеров?


                                                                                                            Так можно про все инструменты панели вебмастера Яндекса сказать. Но Яндекс их развивает.

                                                                                                            проинтерпретировать её — они не могут (просто потому, что это действительно очень сложно — там сотни параметров)


                                                                                                            Вы в целом про факторы ранжирования или про те, которые характеризуют уникальность контента, дату индексации? Мне кажется, что за уникальность контента должно отвечать значительно меньше параметров.

                                                                                                            Оба поисковика сейчас дают вебмастерам достаточно много данных о внешних ссылках на сайт. Учитывая, что 2 наиболее важных группы факторов — это факторы связанные с текстами и ссылками, было бы полезно показывать вебмастерам больше данных о том, как поисковик понимает их тексты, в какую сторону их надо улучшать.
                                                                                                              –1
                                                                                                              Так можно про все инструменты панели вебмастера Яндекса сказать. Но Яндекс их развивает.
                                                                                                              Очень осторожно и «в час по чайной ложечке». Уверяю вас — там по поводу каждой фичи идёт война с попытками оценить — кому это поможет больше: нормальным вебмастерам или спамерам.

                                                                                                              Обычно критерий такой: если то, что вы видите в «панели вебмастера» вы могли бы посчитать и сами (пусть и с серьёзными затратами) — то это безопасно показывать (спамеры могут всегда привлечь компильтеры затроеяненных ими бухгалтеров, если своих ресурсов не хватит), если это что-то — даёт информацию о чём-то, чего никто, кроме Гугла (или Яндекса) в принципе не знает — то тут нужно трижды подумать, перед тем, как доступ давать…

                                                                                                              Мне кажется, что за уникальность контента должно отвечать значительно меньше параметров.
                                                                                                              С уникальностью контента всё вообще очень плохо. Если даже отмести смешную и незаконную идею проиндексировать вебархив, то и у Гугла и Яндекса есть своя история — пусть не уходящая так глубоко в прошлое, как вебархив.

                                                                                                              Но это не помогает. Верить тому, что написано на самом сайте нельзя, раз эти самые рецепты чебуреков «публикуются» каждую неделю, а верить тому, что в архиве… тоже, в общем, нельзя: ведь сканируются в первую очередь популярные сайты, а контент рождается на перифирии.

                                                                                                              То есть если какой-нибудь мелкий сайт породил какую-нибудь суперинтересную новость, которую перепечатал New York Times — то вы вначале увидите статью в New York Times, а уж затем — доберётесь до мелкого сайта (по ссылке из New York Times, ага).

                                                                                                              То, что Яндекс даёт столь большой вес этому параметру — разумеется ошибка, позволяющая создателям ложноновостных страниц попадать в топ… но полный отказ от новостей тоже ни к чему особенному не приведёт.
                                                                                                                0
                                                                                                                В индексации вебархива и сравнении с URL и контентом сайтов нет ничего незаконного. Вебархив тот же сайт, только огромный, хранящий копии всех сайтов за разные даты. Индексируется, сравнивается, определяются первопубликации. Они навсегда останутся первыми (если только страница из сети не исчезнет).
                                                                                                                Сделать это сравнение нужно один раз за прошлые годы и раз в месяц или год обновлять текущие сравнения, за прошедший от предыдущего сканирования период.
                                                                                                                Но может половину копипастеров плодит сам Яндекс? Раз так не хочет им заняться.
                                                                                                                Ведь даже лекция по созданию контента у Яндекса начинается со слов типа сейчас я научу вас писать хорошие копиррайтерские тексты.
                                                                                                                Т.е. в переводе на человеческий — я вас научу как воровать и не быть пойманым.
                                                                                                                Если бы Яндекс хотел разобраться с копипастом, то он давно бы это сделал. Как я уже говорил, в 2010 году Яндекс этот механизм имел и копипаст был в выдаче ниже оригинала.
                                                                                                                А потом… то ли мозгов не осталось, то ли базы накрылись, то ли Яндекс сам решил покопипастить… то ли все вместе.
                                                                                                                И с тех пор он потихоньку выкидывает из выдачи первопубликации, подменяя их копипастом.
                                                                                                                И сказки про то, что Яндекс решает эту проблему, но она чрезвычайно сложна — это «лапша на уши».
                                                                                                                5 лет назад я заметил эту проблему и написал в Яндекс.
                                                                                                                И с тех пор писал много раз.
                                                                                                                Но Яндексу на авторов и честных вебмастеров просто наплевать.
                                                                                                                Для простачков у него правило «делайте сайты для людей». Это, наверно, чтобы «приближенным к телу» сео-шникам воровать было удобнее.
                                                                                                                За 5 лет 3000 сотрудников Яндекса не смогли восстановить (даже не придумать, ибо он был) алгоритм определения оригинала и выдачи его выше копии… это надо очень постараться…
                                                                                                                Может сотрудников Яндекса охрана к компам не подпускает и они ходят на работу только кофе пить?
                                                                                                                  0
                                                                                                                  Вебархив тот же сайт, только огромный, хранящий копии всех сайтов за разные даты.
                                                                                                                  Совершенно верно.
                                                                                                                  Индексируется, сравнивается, определяются первопубликации.
                                                                                                                  Только если вы ia_archiver, извините. Alexa — может это делать, Яндекс — нет. О чём и человеческим языком в соответствующем соглашении написано.

                                                                                                                  А потом… то ли мозгов не осталось, то ли базы накрылись, то ли Яндекс сам решил покопипастить… то ли все вместе.
                                                                                                                  Или копи-пастеры поумнели. Или вы такого варианта в принципе не допускаете? А почему, собственно? Яндекс может стать хуже, копи-пастеры не могут стать лучше?

                                                                                                                  Если бы Яндекс хотел разобраться с копипастом, то он давно бы это сделал. Как я уже говорил, в 2010 году Яндекс этот механизм имел и копипаст был в выдаче ниже оригинала.
                                                                                                                  Некоторый копи-паст находился ниже некоторых оригиналов — ну так это и сейчас так. А некоторый — выше.

                                                                                                                  За 5 лет 3000 сотрудников Яндекса не смогли восстановить (даже не придумать, ибо он был) алгоритм определения оригинала и выдачи его выше копии… это надо очень постараться…
                                                                                                                  Может сотрудников Яндекса охрана к компам не подпускает и они ходят на работу только кофе пить?
                                                                                                                  А может у них и другие задачи есть, кроме борьбы с ветряными мельницами?

                                                                                                                  P.S. А мне вообще интересно — ваши письма в службу техподдержки выдержаны в такой же манере: «Вы школу-то закончили?», «головьтесь к искам», все п$дорасы, а я — д’Артаньян? Потому что в этом случае неудивительно, что вам за пять лет ни одного разумного ответа получить не удалось. Подобные «наезды» до юротдела ещё доехать могут, но до разработчиков — никогда. Уж извините. Фильтровать «идущую изо рта пену» и «капающий с клыков яд» и выделять разумные сообщения о проблемах — собственно основная задача техподдержки…
                                                                                                                    –1
                                                                                                                    Нет. Не «некоторый». В 2010 году любой копипаст был ниже оригинала.
                                                                                                                    На счет школы — прочтите Ваши ответы. Вы первый выбрали такой тон.
                                                                                                                    Смените тон, начните уважать собеседника и все изменится.
                                                                                                                    А то Вы как я погляжу, хамить и учить других уму разуму горазды, а сами вежливо говорить не научились, как и читать написанное.
                                                                                                                      0
                                                                                                                      Нет. Не «некоторый». В 2010 году любой копипаст был ниже оригинала.
                                                                                                                      Это и сегодня так. Какая-нибудь статья на тему Tim Cook, Mark Zuckerberg meet Xi не обязательно будет вести на сайт агентства «Рейтер» в первом результате. Да, обычно агенство «Рейтер» будет где-то там, наверху — но не потому, что они «авторы оригинальной новости», а потому, что сам сайт «Рейтер» имеет более высокие оценки — туда реальные люди ходят и вообще…

                                                                                                                      Смените тон, начните уважать собеседника и все изменится.
                                                                                                                      Нет, разумеется. Тон был бы важен, если бы я хотел от вас чего-то добиться или просто хотел бы утвердить своё ЧСВ. Я же просто хочу докопаться до истины. Не «донести имеющуюся у меня истину до немытых масс», не «заставить собеседника сделать то, чего я хочу», а просто «понять что происходит»

                                                                                                                      Ваша же задача — явно состоит в чём-то другом, судя по болезненной реакции на тон и почти что нулевую реакцию на содержание.

                                                                                                                      Перестаньте разыгрывать из себя мессию, которому Бог ниспослал истину — и мир вокруг вас изменится.
                                                                                                                        –1
                                                                                                                        «Это и сегодня так.» Нет, не так. И эта публикация и ее обсуждение это доказывают.
                                                                                                                        Яндекс, конечно, может вместе с Вами утверждать обратное. и даже, что Земля плоская. Но это тоже не так.
                                                                                                                        «Тон был бы важен» Тон важен всегда. Ваша тактика — попытаться унизить собеседника переходом на личности и таким образом возвыситься.
                                                                                                                        Я же выбрал тактику обвинения Яндекса и м.б. даже довольно грубую только для того, чтобы сотрудники Яндекса заметили эту публикацию. Потому что 5 лет непубличной переписки не привели к результату — копипаст как был, так и остается выше оригинала в выдаче.
                                                                                                                        Мессию я из себя не строю. Просто отстаиваю свои права как создателя контента. И права других создателей.
                                                                                                                        Жаль, что не Вы, не Яндекс этого не понимаете.
                                                                                                                        Если бы не было создателей контента, то Яндексу нечего было бы искать. Ни копипастеры, ни копирайтеры контент не создают. Им нужен для этого оригинал, созданный автором.
                                                                                                                        И Яндексу он нужен. Это база. Яндекс — надстройка, сервис. Без контента не было бы Яндекса.
                                                                                                                          –1
                                                                                                                          «Это и сегодня так.» Нет, не так. И эта публикация и ее обсуждение это доказывают.
                                                                                                                          Чёрт. Сказал вещь строго противоположную той, которую хотел сказать. Извиняюсь. Я хотел сказать, что оригинал и тогда и сейчас мог быть выше копий — а мог быть и ниже.

                                                                                                                          Вот сегодняшний пример из Гугла (ссылка была выше):
                                                                                                                          «Тон был бы важен» Тон важен всегда. Ваша тактика — попытаться унизить собеседника переходом на личности и таким образом возвыситься.
                                                                                                                          Нет — не возвыситься. А проверить — что для вас важнее: истина или ЧСВ.

                                                                                                                          Потому что 5 лет непубличной переписки не привели к результату — копипаст как был, так и остается выше оригинала в выдаче.
                                                                                                                          И ещё 5 лет переписки результат не изменят. Как Яндекс, так и Гугл иногда ставят оригинал выше копии, иногда — наоборот. Так было, есть и будет.

                                                                                                                          Мессию я из себя не строю. Просто отстаиваю свои права как создателя контента. И права других создателей.
                                                                                                                          А откуда эти права взялись, я извиняюсь? В законе — о них ни звука. От Бога? Ну тогда вы — мессия… ну или в душе считаете себя мессией…

                                                                                                                          И Яндексу он нужен. Это база. Яндекс — надстройка, сервис. Без контента не было бы Яндекса.
                                                                                                                          А без Кирилла и Мефодия не было бы контента — но мы почему-то не видим их потомков, бегающих по форуму и пытающихся стрясти со всех немножко денег себе в карман.

                                                                                                                          Превращение кого-то в «Автора Контента» — это не миропомазание. Для того, чтобы «создавать контент» не требуется церемонии, но главное — подавляющее большинство «контента» создаётся на основании другого «контента».

                                                                                                                          Потому так смешно выглядит ваша одержимость «оригиналами». Да, с мусорными сайтами — нужно бороться. То, что в топ попадают сайты с разного вида «накрутками» — это плохо.

                                                                                                                          А вот что копия иногда оказывается в выдаче ниже оригинала — как раз нормально.
                                                                                                                            0
                                                                                                                            Так а при чем здесь Гуугл. Гуугл как раз почти всегда ставит оригинал выше копипаста. А если нет — можно пожаловаться со ссылкой на вебархив и убирают.
                                                                                                                            Остальной Ваш топик из разряда софистики. Это такие мудрецы были на зарплате во времена Сократа.
                                                                                                                            Я не возражаю, когда копия ниже оригинала.
                                                                                                                            Но я вижу, что 70 копий моей авторской статьи в выдаче есть, а оригинала — нет.
                                                                                                                            Я вижу, что перед другой авторской моей статьей 30 копий в выдаче.
                                                                                                                            И эта ситуация усугубляется от года к году.
                                                                                                                            И создание контента — это большой труд. На порядки более сложный, чем копипаст.
                                                                                                                            Если уж не говорить о том, что без оригинального контента нет ни Яндекса, ни копипаста.
                                                                                                                            Так что у меня и других авторов есть полное право предъявить Яндексу претензии.
                                                                                                                              +1
                                                                                                                              Так а при чем здесь Гуугл.
                                                                                                                              Чтобы была понятна необоснованность ваших претензий. А то вы тут рассказываете сказки, что Яндекс, типа ваше «богом данное право» не уважает, а Гугл (а не Гуугл, кстати — у него <a href-«sbis.ru/contragents/7704582421/770501001»>русское юрлицо есть) — уважает.

                                                                                                                              Нет — Гугл тоже не всегда его уважает. Потому что нет у «первоисточника» такого права.

                                                                                                                              Так что у меня и других авторов есть полное право предъявить Яндексу претензии.
                                                                                                                              Вы можете предьвлять к нему любые претензии, но пока вы не докажите, что Яндекс сознательно опускал ваш сайт в результатах поиска — ничего не изменится.
                                                                                                                                0
                                                                                                                                А если докажу?
                                                                                                                                  0
                                                                                                                                  Кстати… для искового требования это даже доказывать не нужно. Достаточно факта.
                                                                                                                                  Почему достаточно я здесь писать не буду. Пусть это пока останется тайной.
                                                                                                                                0
                                                                                                                                Поверьте сделать сайт на копипасте который будет в выдаче выше оригинала это достаточно сложная задача, которая намного сложнее чем сделать сайт с уникальным контентом, и поверите нет рецепта, копипасть то и то, вставляй купи ссылочек там и там и будешь в шоколаде, фильтры постоянно меняются и есть постоянный риск уйти в минус…
                                                                                                                                0
                                                                                                                                подавляющее большинство «контента» создаётся на основании другого «контента»


                                                                                                                                Да, в этом нет проблемы. Проблема когда контент полностью копируют, выдают за свой, на этом зарабатывают, снижают поисковой трафик сайта-первоисточника.

                                                                                                                                Из биологических и экономических примеров известно, что если в какой-то системе стимулируется паразитическое поведение и дестимулируется созидательное, то это ведет к деградации и краху системы.
                                                                                                                                  0
                                                                                                                                  Согласен. Это очевидное правило почему-то не очевидно Яндексу.
                                                                                                                          –2
                                                                                                                          А вы попереписывайтесь лет 5 без результата. Посмотрим, как вы запоете.
                                                                                                                          Вы уже материтесь, а всего сутки прошли…
                                                                                                                          Думаю, что с Вашим высокомерием, вы начали бы орать дня через три.
                                                                                                                            –1
                                                                                                                            Воровство — это не ветряные мельницы. А пособничество в воровстве не детская шалость.
                                                                                                                            Нет проблем договориться с Alexa, если своя база сгорела или специалисты ушли.
                                                                                                                            Да. Это деньги. Но меньшие, чем потеря рынка от некачественного поиска.
                                                                                                                            А поиск у Яндекса сейчас отвратительный.
                                                                                                                              –1
                                                                                                                              А самое главное, получается, что все «рекомендации для вебмастеров» у Яндекса — это вранье.
                                                                                                                              Когда я исправил все технические огрехи сайта, начиная с H1 и метанеймов, посещаемость за год упала в три раза.
                                                                                                                              Т.е. следуя рекомендациям Яндекса я лишь ухудшил положение сайта.
                                                                                                                              Очевидно, что Яндекс поступает с авторами и вебмастерами нечестно.
                                                                                                                              Так пусть это станет публично известно.
                                                                                                                              +1
                                                                                                                              А вы попереписывайтесь лет 5 без результата. Посмотрим, как вы запоете.
                                                                                                                              Никак не запою. Потому что обычно уже через две-три недели становится ясно, что результата нет — и не будет. Никогда. Ни через месяц, ни через год, ни через пять, ни через десять лет. После чего следует остановиться, разобраться в том, что происходит — и понять что делать дальше. Не пытаясь «пробить головой стену».

                                                                                                                              Ваша беда в том, что первый опыт (когда после года вашей переписки Яндекс изменил-таки алгоритмы и вы, вдруг, оказались-таки удовлетворены) убедил вас в том, что Яндекс что-то изменил, потому что вы с ним переписывались.

                                                                                                                              Разубедить вас я, разумеется, не могу… но неужели же пять лет переписки вас в этом не убеждают?

                                                                                                                              Думаю, что с Вашим высокомерием, вы начали бы орать дня через три.
                                                                                                                              Ну орать-то зачем. Думать надо — причём с самого первого дня. Тогда и орать не придётся.

                                                                                                                              А что касается высокомерия… Нет, высокомерие — это не использование бранных слов. Настоящее высокомерие — это считать, что вы умеете тачать сапоги лучше сапожника, печь пироги — лучше пирожника, а писать поисковик — лучше сотрудников Яндекса.

                                                                                                                              И в комментариях к статье я вижу только одного комментатора с подобными качествами…
                                                                                                                                –1
                                                                                                                                Моя беда не в этом, а в том, что Яндекс показывает копии выше первопубликации или вместо первопубликации.
                                                                                                                                И это не только моя беда. Похоже, что это повсеместно для авторов, создающих контент, а не копипастящих его.
                                                                                                                                Я понимаю, что ваша цель меня «заткнуть». Вы в ней не преуспеете, так что «успокойтесь, пожалуйста»
                                                                                                                                  0
                                                                                                                                  Моя беда не в этом, а в том, что Яндекс показывает копии выше первопубликации или вместо первопубликации.
                                                                                                                                  И Яндекс и Гугл и другие поисковики в некоторых случаях это делают, да.

                                                                                                                                  Я понимаю, что ваша цель меня «заткнуть». Вы в ней не преуспеете, так что «успокойтесь, пожалуйста»
                                                                                                                                  И снова ваше ЧСВ не даёт вам возможности увидеть чего я действительно хочу.

                                                                                                                                  А хочу я, чтобы вы поняли простую вещь: ни пускание слюней, ни писанье кипятком, ни матерные слова, ни обращения в суд, ни что-либо ещё не изменят того факта, что у авторов «оригинального контента» нет священного права находиться на первой строке в результатах поиска.

                                                                                                                                  Пока вы этого не поймёте — так и будете бороться с ветряными мельницами.
                                                                                                                                    –2
                                                                                                                                    Если цель не «заткнуть», то следите за словами и формулировками.
                                                                                                                                    Вашу «простую вещь», выгодную Вам, вероятно как копипастеру, я понимать не собираюсь.
                                                                                                                                    Можете не трудиться.
                                                                                                                                    Оригинал должен быть выше копии. Все остальное — воровство. И Вы это воровство пропагандируете и поощряете, насколько я понимаю.
                                                                                                                                    И Ваша цель, насколько я могу судить, тем или иным образом «заболтать» эту проблему.
                                                                                                                                    Тем не менее, Земля вращается вокруг Солнца, а не наоборот. Ценность первопубликации на порядки выше любой копии. Любые рассказы о том, что сайт копипастера лучше, как минимум, вкусовщина, а то и просто оправдание непрофессионализма.
                                                                                                                                      +1
                                                                                                                                      Вы даже не знаете что такое дубли на сайте, и как их проверить, а в сео это считай первый класс… Возможно вы создаёте как автор шедевры но как Вебмастер, вы измазали этот алмаз в го… Возможно я не прав но сайт которому 20 лет… должен быть в топе, а он в жо…
                                                                                                                                        –1
                                                                                                                                        Я не знаю, что Вы имеете ввиду. Это несколько другое дело.
                                                                                                                                        И мой сайт не в топе по двум причинам. Первая — копипастеры, т.е. воры. Вторая — Яндекс, потакающий воровству и выдающий копипаст выше оригинала.
                                                                                                                                          +1
                                                                                                                                          Да намного проше обвинять в своих неудачах кого то а не себя, как вы могли забыть про Путина и продажное правительство, просто удивляюсь…
                                                                                                                      –1
                                                                                                                      Ура! До khim, наконец, дошло, что «у них всё реально плохо».
                                                                                                                      Этак скоро и до сотрудников Яндекса дойдет.
                                                                                                                      И может они, наконец перестанут тратить рабочее время на кофе и пиво и приступят к свои непосредственным обязанностям — работой над качеством поиска и выдачи.
                                                                                                                      А там, глядишь, и сообразят, что достаточно один раз проиндексировать вебархив и сравнить с существующими сайтами, чтобы понять и четко привязать первопубликацию к URL и выдавать оригинал, а не копию.
                                                                                                                      Это подойдет для текстов, размещенных до появления «оригинальных».
                                                                                                                      Дальше будет посложнее, но без пива осилить можно.
                                                                                                                      Придется индексировать и вебархив и оригинальные тексты и находить более ранние по дате публикации URL.
                                                                                                                      Конечно для блогов, конференций, новостей и т.п. эти способы не подойдут, но хотя бы у статей появится шанс на показ оригинала выше копии.
                                                                                                                      В принципе, скорее всего нет проблемы сделать сверху закладочки: статьи, новости, обсуждения.
                                                                                                                      Три вида поиска.
                                                                                                                      Нужна аналитика и полнота информации — закладка статьи. Нужны новости — следующая закладка, нужны мнения (конфа, блог и пр.) — третья закладка.
                                                                                                                      Закладки за миллион можно опять заказать Лебедеву.
                                                                                                                      Никто ведь другой не умеет рисовать цветные квадратики так дорого.
                                                                                                      +1
                                                                                                      Ну блин если вам не нравится Яндекс просто не разрешайте ему индексировать ваш сайт да и всё, прописали в роботекст… Ведь из выдачи пропадёт такой ценный сайт как Ваш, и народ будет вынужден уйти к Гуглу… Да почему Яндекс должен заморачиваться вопросом кто автор материала, тратить на это свои ресурсы, на работу которую имеет право делать только суд. Сколько статей в день публикуется на вашем сайте? Они не каждый день публикуются, значит быстро бота у Вас на сайте нет, а у копипастер публикует от 10 до 50 статей в день и у него быстро бот посётся круглосуточно…
                                                                                                        0
                                                                                                        Это не решит проблему копипаста. А это проблема не только авторов, но и поисковиков.
                                                                                                        И да. Сайт, который содержит первичный контент «такой ценный».
                                                                                                        Если бы не было сайтов с первичным контентом, то поисковикам не было бы работы, ибо контента бы не было. Вообще.
                                                                                                        А копипаст появляется только после появления первичного контента и никак иначе.
                                                                                                        Почему Яндекс должен «заморачиваться»? Потому что уверяет, что он «зеркало» Рунета.
                                                                                                        А если зеркало, то в отражении, в выдаче должен быть сначала оригинал и лишь потом копии.
                                                                                                        И сайт с оригинальным контентом «такой ценный». Если бы было иначе, то с него не копипастили бы. На помойках не воруют. Воруют хороший товар. Хорошие тексты. И поэтому сайт с хорошими текстами — «такой ценный».
                                                                                                        От Яндекса не требуется определять авторство. Это действительно не его работа.
                                                                                                        Но Яндекс сам говорит, что вторичные, неоригинальные тексты он «понижает в выдаче».
                                                                                                        Я лишь хочу, чтобы эти слова соответствовали действительности.
                                                                                                        Вы совершенно правы — копипастер может публиковать 10-50 статей в день, потому что он вор и тратит на публикацию от силы пол-часа. А для создания оригинальной статьи нужно гораздо больше. Например, написание простой короткой статьи у меня с 20-ти летним опытом уходит 2 часа. А написать в день более 3-х статей довольно трудно.
                                                                                                        Но даже если я публикую (впервые в сети) чужой контент, то на переговоры с правообладателем уходит весьма существенное количество времени и иных ресурсов. Иногда — недели.
                                                                                                        А потом прибегает шустрый вор-копипастер и ворует текст.
                                                                                                        Может Вы так делаете, коль так активно защищаете воров?
                                                                                                          0
                                                                                                          Копипастер, который ворует по 10-50 текстов в день почему-то никогда не указывает источник — откуда своровал.
                                                                                                          Это логично, поскольку копипаст — воровство.
                                                                                                          Когда сайт хочет скопировать текст легально — он смотрит как и в каком виде нужно указать источник, можно ли копировать и т.д.
                                                                                                            0
                                                                                                            Когда то была тема, в которой неплохо себя чувствовал копипаст, так как раз указывали ссылку на источник…
                                                                                                  +1
                                                                                                  Запрос «Что приготовить на ужин», Яндекс 1-2 место gi-wom.ru/chto-prigotovit-na-uzhin-glavnye-novosti/ Посмотрите на этот бред.
                                                                                                  А также обратите внимание, что даты статей — последние дни. Это к предположению про закос под новости.
                                                                                                    –1
                                                                                                    Посмотрите на этот бред.
                                                                                                    Посмотрел. Хороший результат работы нейронной сети, которая призвана убедить другую нейронную сеть в том, что в этом «потоке сознания» есть смысл.

                                                                                                    В том-то и дело, что для вас — это бред, а для алгоритма Яндекса, призванного выкидывать «мусор» — осмысленная статья.

                                                                                                    Вы, так же, как и автор, и как asdoc относитесь к Яндексу как к человеку, чёрт побери! Не надо так.

                                                                                                    Когда и если Яндекс (или Гугл) научатся понимать всё, что люди понаписали в Интеренете — я думаю он просто откажется в нём искать. Ибо у сверхразума наверняка найдутся задачки поважнее.

                                                                                                    А также обратите внимание, что даты статей — последние дни. Это к предположению про закос под новости.
                                                                                                    Похоже на то. Видимо полноценного анализа для «новых» статей Яндекс не делает (ресурсов не хватает или времени слишком много требуется) — вот и лезет этот мусор…
                                                                                                      0
                                                                                                      Ну Гуугл вполне научился.
                                                                                                      У меня есть два скриншота.
                                                                                                      Спросил у обеих поисковиков одно и тоже. При этом запрос написал так криво, что самому стыдно.
                                                                                                      Однако Гуугл дал адекватный ответ, а Яндекс выдал полный бред.
                                                                                                      khim Вы как-то освойте хотя бы математику, я не говорю о программировании, а то все, что у Вас хорошо получается только пыжиться как у кота Кеши из мультфильма «Ну, прилетаю я как-то на Таити, а Шурик мне и говорит: «Шайбу перехватил Мальцев, быстро передал её Крутову, тот ещё дальше — Вахтангу Кикабидзе. Бросок…»»
                                                                                                      Цепляетесь к словам, пытаетесь создать впечатление, что что-то понимаете, а в результате видно, что не не понимаете даже того, что здесь люди пишут.
                                                                                                        –1
                                                                                                        khim: «Видимо полноценного анализа для «новых» статей Яндекс не делает (ресурсов не хватает или времени слишком много требуется) — вот и лезет этот мусор…»
                                                                                                        Ага. А так же для поверхностного анализа «старых» статей, для статей, присутствующих в вебархиве с 1998г, для статей, добавленных в «оригинальные тексты» не хватает ресурсов. И мозгов. Или желания.
                                                                                                        Яндексу (ой, Вы же не поймете)… сотрудникам Яндекса вообще не до качества поиска. У них есть дела поважнее. Например, свалить вину за свою некачественную работу на вебмастеров (они не так сайты делают) или на нехватку средств (у Гуугла много, а у нас мало), или на СЕО-шников — они нас обманывают.
                                                                                                    0
                                                                                                    Возникла совершенно странная идея, но она совпадает с наблюдениями.
                                                                                                    Это не означает связи причина-следствие, но и не исключает ее.
                                                                                                    Я несколько раз писал, что «плохое не воруют».
                                                                                                    Возможно и Яндекс так думал.
                                                                                                    И это поняли сео-шники.
                                                                                                    И Яндекс обнаружил, что плохие тексты (определяли асессоры, например) копируются на несколько форумов или сайтов (но на форумы проще) или сайтов, устроенных наподобие форума — зарегистрировался и публикуй.
                                                                                                    И стал пессимизировать любой оригинал, если у него набирается, например, 30 копий.
                                                                                                    Тогда объяснимо, почему в выдаче есть 30-70 копипастов моей статьи, но самой статьи нет.
                                                                                                    Объяснимо, почему страницы выпадают из выдачи очень постепенно (копии же создаются постепенно).
                                                                                                    Т.е. Яндекс знает, где оригинал, но пессимизирует эту страницу в выдаче, когда накапливается определенное количество копий.
                                                                                                    Т.е. это некоторым образом аналог пессимизации за плохие внешние ссылки. Ссылки с плохих сайтов.
                                                                                                    Если это так, то данный алгоритм ошибочен. Он пессимизирует всех подряд. и авторов, и сео-шников.