kravets9 ноя 2017 в 15:09

Как черные SEO-оптимизаторы собирают миллионы посетителей по высоко-актуальным запросам в Яндексе

4 мин

58K

Growth Hacking * Интернет-маркетинг * Поисковая оптимизация * Поисковые технологии *

+100

206

Комментарии 206

ragequit 9 ноя 2017 в 16:26

Рецепт то нашли?

kravets 9 ноя 2017 в 16:30

Желаете повторить? :) Судя по всему, достаточно выбрать запросы с таким типом выдачи и постоянно публиковать контент заточенный под них:

Похоже, что достаточно просто собрать подходящие запросы, выбрать под них релевантные статьи других проектов и с нескольких сайтов публиковать их под разными URL, указывая текущее время и дату публикации. Возможно, один текст можно опубликовать ограниченное число раз, я встречал не так много копий. Они в основном обнаруживались в Google, не в Яндексе. Скорее всего для максимизации результата, сайты публикуют их в оптимальное время перед пиками дневного трафика в выбранной нише.

Efrem3112 9 ноя 2017 в 17:23

Я так понял, ragequit спрашивал про рецепт «домашних чебуреков», а не рецепт выхода в топ поисковой выдачи черными методами.

kravets 9 ноя 2017 в 17:28

Верно, я что-то не смекнул. Да, и домашние чебуреки, и оладушки на кефире.

Mendel 10 ноя 2017 в 12:56

Вопрос кстати при всей видимости шутки — явно не совсем шуточный.
Яндексу по большому счету плевать на производителей контента, вебмастеров и т.п.
Если ниша некомерческая и продать в ней рекламу особо не выйдет, то — контент релевантен запросу (рецепт то вы нашли) и ладно.
Поскольку данные доры воруют деньги не у яндекса а у других вебмастеров, то яндекс сильно напрягаться не будет. Подозреваю что если бы не эта статья то вообще шансов что отреагировали бы — особо и не было. Вот если люди воруют деньги у яндекса (доры в коммерческой нише), тогда другой компот…

asdoc 10 ноя 2017 в 14:11

Именно так.
Только это отбивает охоте писать или искать авторов, договариваться с правообладателями. Зачем? Если завтра этот текст скопипастят и Яндекс покажет в выдаче копипаст, вместо оригинала.

asdoc 10 ноя 2017 в 15:33

Вот еще. Забыл.
Последний эксперимент, который поставил после того как «вылизал» сайт технически, учтя все рекомендации Яндекса. И после того, как результат был нулевым.
Разместил блоки Директа на всех «вкусных» местах. На лучших местах.
И тоже эффекта не было.
Т.е. даже вариант «копипаст» выше в выдаче, потому как Яндекс от них получает больше денег не очень работает.
Ворам Яндекс помогает бескорыстно.
А производителей контента пессимизирует принципиально.

khim 10 ноя 2017 в 15:46

Если бы на сайтах стоял штамп «вор/оригинальный автор» — то ваши идеи имели бы смысл.

А так… Яндекс просто не умеет отличать вора от автора — а поскольку тексты одинаковые, то что выигрывает: автор-то тратит время на то, чтобы новые тексты писать, а вор — на то, чтобы Яндекс обмануть.

На Западе эта проблема менее остра из-за DMCA: требования снять из выдачи определённые страницы не только убирают сами эти страницы, но и, вполне резонно, «бросают пятно» на сайты, где эти страницы находятся, сайты, которые на них ссылаются и так далее.

Есть, правда, и побочный эффект: Робин Гуды тоже оказываются отсеянными… Но тут уж ничего не попишешь…

asdoc 10 ноя 2017 в 16:36

Отличить очень просто. Определить дату, когда текст впервые появился в сети может даже любитель. Но видимо квалификация работников Яндекса ниже любительской.
На самом деле это неумение Яндекса делает выдачу хуже.
Например, если я журналист, то мне важен источник. С Яндексом это нереально.
Если ученый — тоже. Если пишу статью, требующую ссылки на источники — тоже.
Если хочу понять, откуда «ноги растут» у новости, информации или фейка — тоже Яндекс в пролете.
Если хочу связаться с автором — тоже нужен первоисточник.
И т.д. Есть множество причин, почему пользователям нужен оригинал текста, а не копипаст.

khim 10 ноя 2017 в 17:20

Определить дату, когда текст впервые появился в сети может даже любитель.

Вы это серьёзно?

Вот, из недавнего: эпопея с NeverCalled EraseAll. Тут, тут и даже тут… но попробуйте найти оригинал — и скажите как вы это сделали.

Ответ под спойлером

Ссылка на оригинал: вот она — rsdn.org/forum/cpp/5653492?tree=tree

На самом деле это неумение Яндекса делает выдачу хуже.

Кто бы спорил…

Есть множество причин, почему пользователям нужен оригинал текста, а не копипаст.

Угу. А теперь — забег начинается: обьясняем каким поисковиком и с какими «бубнами» вы найдёте исходя из ключевых слов NeverCalled EraseAll вы найдёте ссылку на оригинал, скрытый под спойлером. И да, текст оттуда скопирован вполне себе дословно во все эти статьи (кроме последней — там из неё плакат сделали, потому немного переформатировали).

P.S. На самом деле ссылку на оригинал найти-таки можно. Но CAPTCHAу тоже, вроде, может «даже любитель» прочитать. Если покопает хорошо. А компьютер… компьютер — пока нет. Так что не стоит чушь писать про «квалификацию работников Яндекса». Сделать что-то — это одна задача. Научить компьютер делать то же самое — совсем другая.

asdoc 10 ноя 2017 в 18:01

Яндексу я уже отправлял алгоритм поиска первоисточника.
Что касается Ваших заданий, то я к Вам не нанимался. Поэтому пока Вам рано давать мне задания.
О квалификации работников Яндекса сужу по результату.
Ужасающему.
Изменится квалификация — буду хвалить.
А пока копипаст выше источника — хвалить не за что.

khim 10 ноя 2017 в 18:15

Яндексу я уже отправлял алгоритм поиска первоисточника.

Серьёзно? Алгоритм в духе «Станьте ежиками. Если вы будете колючими, вас никто не съест!»

Что касается Ваших заданий, то я к Вам не нанимался. Поэтому пока Вам рано давать мне задания.

Понятно. «Мое дело — стратегия! Вся эта ваша х&№ня с тактикой меня не интересует!».

Как в анекдоте про новобрачных: «дочка — ты хочешь быть правой… или счастиливой?»

Если есть задача получить с Яндекса посетителей — то эта задача решаема, если есть задача — повысить ЧСВ путём обсирания Яндекса — эта задача ещё проще.

Но вы уж решите — что для вас полезнее. Это разные задачи.

В приниципе мне-то пофигу, это ваши проблемы, не мои.

asdoc 10 ноя 2017 в 18:21

Нет. Нормальный алгоритм.
Впрочем, он у Яндекса был. В 2010 году, например. И нормально работал.
Грубить мне не стоит.
И я к Вам действительно не нанимался. Если Вы сотрудник Яндекса и хотите реально исправить ошибку, то пишите в личку — поговорим.
Моя задача, чтобы Яндекс услышал и понял важность этой проблемы.
Если эта проблемы будет решена, то я получу посетителей, которых честно заработал хорошими текстами.
А пока Яндекс помогает ворам, то он заслуживает тех слов, которые заслуживают стоящие на шухере.

crazylh 9 ноя 2017 в 17:56

А что если Яндекс-матрица сама создала эту сетку чтобы тестировать себя? Да ну, бред какой-то…

asdoc 9 ноя 2017 в 20:09

100% верно, 100% точно, 100% правда.
«Яндекс тоже проиндексировал эту страницу, но все равно считает, что свежий дубликат актуальнее других сайтов.» — главная фраза статьи.
Компилятор, копипастер, вор крадет чужой контент, меняет дату и выдает за свой.
Я писал об этом Яндексу много раз. Много лет. В том числе лично сотрудникам.
Толку — ноль.
Яндексу видимо выгодно поощрять воровство и копипаст.
При этом у Яндекса был механизм отсекания копипаста и выдача копипаста ниже первопубликации в 2010-2011 году.
А потом Яндекс на это «забил».

А на самом деле ведь все очень просто. Есть web.archive.org на котором есть копии всех текстов с датами первопубликаций.
Индексируется web.archive.org, сравнивается с базой текстов и выдается первым самый старый текст. Таким образом копипастеры оказываются ниже или вылетают.
Ведь текст у копипастера не изменен. Это точная копия. Он же ничего, кроме как воровать не умеет. Писать тексты не умеет.
Почему Яндекс это не делает — загадка.
Почему подсовывает пользователям продукт «второй свежести» — непонятно.
Вероятно, Яндекс не уважает ни авторов, ни вебмастеров, ни пользователей.
Проще всего послать Яндекс в ответ и пользоваться Гууглом.
Другого выхода я не вижу.

kravets 9 ноя 2017 в 20:26

Думаю, что даже вебархив не нужен, скорее всего Яндекс индексирует намного больше сайтов. По моим наблюдениям, они неплохо определяют первоисточник, но есть исключения. Например, когда текст растиражирован на очень большом количестве сайтов/страниц. Типичный случай — текст к себе утаскивает пользователь Liveinternet, потом другие пользователи лайвинтернета его «цитируют», создавая еще несколько сотен копий. Тогда почему-то Яндекс может ошибаться.

А конкретно в этой ситуации, думаю, они исправят проблему.

asdoc 9 ноя 2017 в 21:05

Ну уже 5 лет как не исправляют и даже не «чешутся».

Psychosynthesis 9 ноя 2017 в 22:28

Поддержу. В «вебмастере» есть даже вкладка «оригинальные тексты». Я пробовал отсылать свой текст в как «оригинальный», потом делать пост у себя на сайте, а уже потом, через несколько дней, постить на популярном ресурсе. При этом Яндекс мой сайт вообще будто игнорирует — в выдаче первой будет висеть статья с популярного ресурса, даже.

Очень раздражает такой подход.

asdoc 9 ноя 2017 в 23:00

Спасибо за поддержку. Дополню.
У меня как раз очень старый и в прошлом очень популярный ресурс, который как раз из-за того, что Яндекс вместо моих тестов показывает копипасты (а их десятки на каждую статью), стал гораздо менее популярным. За 5 лет примерно в 8 раз!

danforth 10 ноя 2017 в 07:44

Не к вопросу о воровстве, но к вопросу о справедливости.
Статья, авторская, с несколькими авторскими видео и картинками, в Google не добирается даже до 5 страницы, в Яндексе занимает топ-3 буквально через неделю.

Даже спустя год в Google статья так и болтается где-то за пределами 5 страницы, за-то на первой странице огрызки из двух абзацев, которые ну никак не отвечают на вопрос, и не раскрывают сути.

Все чаще замечаю, что в Google сидят старики с давным-давно не актуальным контентом, который уже наполовину устарел, поэтому приходится ставить в настройках отображение результатов за последний год, чтобы поубирать из выдачи не актуальную информацию. В Яндексе проще вылезти на первую страницу, особенно с качественной статьей. Для новичков это шанс «взять контентом». Больше мотивации для создания качественного полноценного контента.

asdoc 10 ноя 2017 в 08:55

Если Ваша авторская статья выше моей авторской, то нет никаких проблем. Это и сравнивать трудно.
Речь о тупом копипасте, который Яндекс показывает выше первопубликации — оригинального текста.

asdoc 10 ноя 2017 в 09:38

Т.е. речь в моем посте идет об одинаковых текстах. Точных копиях. Т.е. ничего нового не появилось. Максимум — дата публикации.
Таким образом «актуальность контента» и «устаревание» одинаковое.
Разумеется, речь идет о качественном контенте. Плохие тексты не воруют.
И в результате я вижу в выдаче 70 копий моей статьи на сайтах копипастерах. И не вижу своего оригинала нигде.

Dgoneee 10 ноя 2017 в 14:56

Возможно сайт копипастеров более удобен для пользователей чем ваш, так почему яндекс должен ранжировать вашу оригинальную статью на неудобном сайте, выше чем копипастную статью на удобном сайте, ведь яндекс старается сделать релевантную выдачу для пользователей а не справедливую для вебмастеров…

asdoc 10 ноя 2017 в 15:29

Сравнивал и это. Не прокатывает. И не только потому, что не могут 30-70 копипастеров быть удобнее, но и по расположению текста, обилию рекламы, скорости загрузки и пр.

asdoc 10 ноя 2017 в 15:40

«релевантную выдачу для пользователей» — это значит соответствующую запросу. Т.е. речь о релевантности текстов. Она одинаковая, т.к. тексты идентичные.
Что касается юзабилити, то сравнивал все возможные параметры. У меня или лучше или наравне.
Технические параметры (теги и пр.) — наравне.
Скорость загрузки, рекламная нагрузка, размещение (видимость) текста — у меня лучше.
Но в выдаче по совсем не новостному запросу копипастеры есть, а моего первоисточника — нет.

Dgoneee 11 ноя 2017 в 08:43

Что насчёт ссылочной массы? Социальных сигналов? Поведенческих факторов? Вообще заморачивались сео, или у сайта куча незакрытых дублей? Такое ощущение что вы тратите деньги (время) на контент но вовсе не на сео. Ну и вообще такое ощущение что сайт вы делаете для людей, а не для Яндекса, вот он и обижается.

НЛО прилетело и опубликовало эту надпись здесь

Dgoneee 13 ноя 2017 в 07:32

Ну блин, нельзя верить всему, что написано… Нужно делать так, чтоб Яндекс думал, что делаете для людей…
Пообщайтесь с Алисой, может быть забавно но быстро понимаете что очень похоже на диалоги из игры «Рандеву с незнакомкой»… Поисковая система не может воспринимать ваш сайт как человек, поэтому у неё есть много фильтров которые косвенно свидетельствуют что сайт спамный, или наоборот что сайт сделан для людей… Вероятно Вы просто попадаете под один из фильтров. Возможно блокировка асессором в ручном режиме, но не верю я, что в политике Яндекса есть дискриминация сайтов с оригинальными текстами, но не уверен что есть хоть какаят то плюшка, возможно, при большом числе копирования Яндекс начинает воспринимать как текст закона или инструкцию по эксплуатации… Правда вариантов очень много, поищите грамотного сеошника…

asdoc 13 ноя 2017 в 11:06

Dgoneee
Если только под «непубличный фильтр лояльности» ибо под иными фильтрами меня нет о чем мне Яндекс писал уже раз десять.
И про асессоров он уверял меня, что «нет». Но я тут не очень верю.
И проблема то не только у меня. Здесь в обсуждениях есть жалобы и от других авторов и вебмастеров.
Про «не верю». Можно, конечно, не верить, но это факт. Дискриминация первопубликаций и оригиналов происходит.
Про «текст закона» — возможно. В этом обсуждении было такое предположение. Но даже текст закона или инструкцию лучше читать на сайте законодателя или производителя, что бы быть уверенным в точности.

НЛО прилетело и опубликовало эту надпись здесь

asdoc 11 ноя 2017 в 13:57

Dgoneee
Ага. Для людей делаю.
Спасибо, что вразумили.
Но буду продолжать делать для людей, а не для сео.
Ссылок на меня много. До того, как их стали учитывать поисковики было еще больше.
Незакрытых дублей, насколько я знаю, нет.

Dgoneee 13 ноя 2017 в 07:54

1. Вашему сайту больше 20 лет… круто…
2. При этом вы не уверенны насчёт дублей? как то странно.
3. Вы делали ред дизайн сайту? большинство 20 летних сайтов выглядят убого…

tundrawolf_kiba 13 ноя 2017 в 10:45

Вообще человек уже не в первой статье пишет про проблемы со своим сайтом, причем очень активно (в этой чуть ли не половина комментариев оказывается его — примерно 47% вроде). Уже прямо интересно, что за сайт у него такой? Я кстати попробовал поискать среди его сообщений — он везде шифруется — что за сайт.

asdoc 13 ноя 2017 в 10:50

Это не так важно, хотя в личном сообщении я отвечал.
Согласен с вами на счет активности. Меня она тоже раздражает и отнимает время. Но я не вижу на данный момент иного способа достучаться до Яндекса (остальные уже все исчерпал).
А не важно какой сайт по той причине, что даже в этом обсуждении хозяева других сайтов приводили аналогичные примеры.
Т.е. дело не в сайте. Это будет уход от темы. Дело в проблеме неадекватной выдачи.

tundrawolf_kiba 13 ноя 2017 в 10:55

Ну просто я вот столько комментариев прочитал — что мне теперь интересно оценить сайт с точки зрения обычного пользователя, сравнить его с другими и т.п. Ну т.е. грубо говоря — понять, какой сайт выбрал бы я, если бы искал информацию по определенной теме.

asdoc 13 ноя 2017 в 11:00

Антон. Мне не жалко и это не секрет. Дело тут в другом. Дело в принципе. Копипаст в принципе должен быть в выдаче ниже, чем оригинал. И это постулирую не я. Это четко написано у Яндекса.
Написано, но не выполняется.
Поскольку от поддержки я получаю отписки, а иные адреса в Яндексе просто отмалчиваются, то я сделал обсуждение публичным.
А если мы начнем говорить о моем сайте, то мы отклонимся от темы.
Но если хотите — отвечу в личке.

tundrawolf_kiba 13 ноя 2017 в 11:12

Ну вот лично мне — было бы интересно глянуть

asdoc 13 ноя 2017 в 11:39

ок

asdoc 13 ноя 2017 в 10:57

1. Моему сайту 20 лет будет только через несколько месяцев. Более 20-ти лет моей работе по написанию статей и текстов. Сначала это было в офф-лайне, в газетах и журналах. Но по специальности. экспертные.
2. «Не уверен» в том смысле, что мне о них не известно. но допускаю, что они могут быть. Я слежу за этим и провайдер тоже помогает. (или я не понял Вас про «странно»)
3. Делал. Но кому-то он может не нравится. Допускаю.
Это же вкусовщина.
Большинство сайтов с хорошей информацией, которыми я пользуюсь с точки зрения «красоты» могут быть не очень. Но информация на них хорошая.
Я же за информацией прихожу. И в поисковик, и на сайт.
Поиск по красивостям, по картинкам — есть такая функция в поиске. Но мы говорим не о ней.

Dgoneee 14 ноя 2017 в 12:00

Ну например Если у вас сайт на WordPress или Joomla, то они как правило генерируют кучу дублей, там всякие архивы и т.п., (конечно если с ним по колдовать, прописать всё лишнее в роботекст, то будет всё норм). Проблема в том что достоверно определить первоисточник довольно трудно, ну далеко не всегда тот кто первый тот и автор, например бот Яндекса заходит к вам раз в неделю, и смотрит не появилась ли у Вас новая статья, а к вашему копипастеру который публикует по 100 статей вдень, + социальные сигналы с его сайта бот просто не вылазит. Поэтому вполне вероятна история что автором признают его…

asdoc 14 ноя 2017 в 14:32

Понял Вас. 20 лет назад не было ни WordPress, Joomla :)
И Яндекс только затевался, насколько я помню.
Так что дублей нет.
Признаком первопубликации является дата, а не количество публикаций в день или социальные сигналы.
Дату можно проверить по вебархиву. Это нужно сделать один раз. Но Яндексу это делать не хочется. А свою базу он похоже спалил в 2012 году.

НЛО прилетело и опубликовало эту надпись здесь

Dgoneee 14 ноя 2017 в 14:53

Примерно это же пытаюсь донести до человека…

asdoc 14 ноя 2017 в 15:28

Да. Но по нему можно довольно точно проверить архивы публикаций до 2003 примерно года. А потом посмотреть, сколько скопипастили и вычистить из выдачи злостных воров.
С новыми текстами, конечно, сложнее. Но есть «оригинальные тексты» Яндекса. Это хоть что-то.
Если начать решать задачу, то можно потихоньку прийти к решению.
Вычищение злостных воров после анализа вебархива уже поможет очистить выдачу от мусора.
Дальше еще проще. Если текст появился, например, в 2001 году, а сайт с копией в 2007, то это явно копия и копипастер.
Потихоньку выявится пул надежных сайтов, которые следят за своим контентом и создают его.
Единственная проблема — не все авторы используют «оригинальные тексты». Как это решить я пока не придумал.
Может быть сделать некую «кнопку», наподобии тИЦ или счетчика — загрузил информацию, нажал на кнопку — Яндекс зафиксировал обновление и проиндексировал, отметил дату и т.д.
Не знаю. Честно.
Но делать это точно надо.
Можно обвинить меня в мистицизме, но я полагаю, что снижение качества поиска, качества для пользователя каким-то образом связано с тем, что Яндекс игнорирует оригиналы и выдает копипаст.

DmitriyPopov 10 ноя 2017 в 12:09

У Яндекса не должно быть задачи показать исходный текст всегда выше копипасты. Это может быть одним из важных факторов, но точно не может быть конечным критерием.
Яндекс должен показать выше ответ максимально удовлетворяющий пользователя. И весьма вероятно что он покажет украденный текст выше просто потому, что сам сайт, который текст украл намного превосходит оригинальный по всем метрикам.

asdoc 10 ноя 2017 в 12:51

Должно быть. Более того — это публично озвученное правило «мы понижаем… сайты с вторичным, неоригинальным...» и т.д. Это написано в правилах Яндекса.
Идентичные тексты идентично удовлетворяют пользователя. Таким образом копипаст никак не ценнее.
Я ставил массу экспериментов: скорость загрузки, положение текста, картинки, тэги, заголовки, форматирование, видео, минимизация рекламы и еще пара десятков параметров. Более того, присылал Яндесу примеры копипастеров, которые, например, перегружены рекламой, грузятся в 10 раз дольше и пр. Без толку.
Так что копипастер ни в чем мой сайт не превосходит. Тем более, когда копипастеров 70 в выдаче с моим текстом. А моего сайта нет вообще!

asdoc 10 ноя 2017 в 13:05

А главное. Копипаст — это воровство. Если Яндекс поощряет воровство, то это его право. Нужно только честно об этом сказать. И ждать исков.

Dgoneee 11 ноя 2017 в 08:53

И что вы напишите в иске? Как вы докажите что являетесь правообладателем? Вы собираетесь депонировать свои тексты? Главное почему иски к Яндексу, а не к сайтам копипастерам? за каждую статью что у вас скопипастили можно получить 10 к рублей 70 раз получаем 700 к. А как же древнее правило «ПЛЕВАТЬ НА ЛЮБОЙ КОПИРАЙТ» как то некрасиво получается?

asdoc 11 ноя 2017 в 14:04

О. Это элементарно. Это совсем не представляет проблемы, уверяю Вас.
Почему к Яндексу? Основания есть, а выбор ответчика — это привилегия истца.
Я не совсем понял про «древнее правило». Мне не плевать на копирайт.
Если Вы имеете ввиду не авторское право, а копирайтеров, то это еще одно зло. Копирайтер — это человек, который берет чужой текст, изменяет его, согласно сео-методикам и публикует.
Иногда это меняет смысл текста полностью, поскольку копирайтер не понимает его смысла и не является специалистом.

Dgoneee 13 ноя 2017 в 08:19

Каким образом вы собираетесь доказать что автором текста являетесь именно Вы?

asdoc 13 ноя 2017 в 08:27

Есть несколько вариантов доказать авторство текста. К данному обсуждению это отношения не имеет.
Здесь речь идет о первопубликации в Интернет и положении первопубликации в выдаче над копипастом.

Dgoneee 14 ноя 2017 в 13:08

Да что Вы, как можно понижать в выдачи сайт копипастер, если не можем определить кто автор? Поверите, это довольно сложная задача даже для суда, а вы хотите чтоб это делал бот…

asdoc 14 ноя 2017 в 14:35

А давайте рассуждать логически.
Яндекс пишет (не дословно, но могу найти цитату): «мы понижаем сайты с вторичным неоригинальным контентом».
Для этого нужно знать, где оригинальный.
Значит, Яндекс знает, но врет и понижает как раз оригинал.
Или не знает, но врет, что знает и понизит вторичный.
Вранье и там и там.
Я «хочу», чтобы это «делал бот» по одной простой причине. Он уже это делал и успешно. Например, в 2007-2011 годах.

Dgoneee 14 ноя 2017 в 14:59

оригинальный контент это контент коорый есть в единственном экземпляре, вашь контент не является оригинальным поскольку его скопировало 70 сайтов… Вот вас и ранжируют ниже плинтуса… Если на вашем сайте только не оригинальный контент…

asdoc 14 ноя 2017 в 15:32

Стоп. Вы что-то запутались.
Я написал статью. Разместил статью. Допустим, в 1998г.
Статья хорошая, поэтому ее непрерывно копипастят без спроса и без указания источника, а порой и автора.
Но первопубликация у меня. И ранжировать ниже плинтуса нужно воров — копипастеров. А опускают или выбрасывают из выдачи наоборот — первопубликацию.
И так со всем моим контентом. 95% контента на моем сайте первопубликации — примерно 5100 страниц.

Dgoneee 16 ноя 2017 в 13:26

Нет, если инфа продублирована многократно, поисковики снижают её ценность… в независимости от того кто автор… Но это основываясь на личных наблюдениях 3-5 годовалой давности, но возможно конечно я не прав…

96467840 10 ноя 2017 в 12:17

тут речь про новости. и вот как раз для новостей важнее те что свежее.

asdoc 10 ноя 2017 в 12:45

Новость рецепт чебуреков? Новость введение прикормов? Новость дисбактериоз?
Я еще готов поверить, что новость — грипп. Но все остальное… Нужно иметь очень богатую фантазию. Это под силу только работникам Яндекса. И пациентам с заболеваниям ЦНС.

bro-dev 12 ноя 2017 в 21:55

Копирование это не воровство, это скорее форк вашей инфы, но в другой обертке.

asdoc 12 ноя 2017 в 22:09

Это не инфа. Это труд. Использование результатов чужого труда без спроса и оплаты — это воровство.
Нормальные СМИ и в офф-лайне и в он-лайне это понимают и за статьи платят.
А копипастер ворует.
Все в магазине платят, а копипастер рассказывает, что может товар взять и это будет «скорее форк… в другой обертке».
Но нет. Это будет банальное воровство.
И в магазине за таким «в другой обертке» последовал бы суд и тюрьма.
Копипастер ворует по причине собственной творческой и интеллектуальной импотенции — неспособности написать толковый текст.

tommyangelo27 13 ноя 2017 в 07:47

Товар из "магазина" никуда не девается.
Хотя я с вами согласен, копировать чужой текст и выдавать за свой — нехорошо.

asdoc 13 ноя 2017 в 08:34

«девается», поскольку в поисковой выдаче вместо оригинала оказывается копипаст.
А в результате доход (в любой форме, в том числе и в форме «сайт популярен у пользователей») получает вор-копипастер а помогает ему в этом Яндекс.

bro-dev 13 ноя 2017 в 08:27

Я смотрю как потребитель, мне лично не так важно кто автор мне важен контент в нужной подаче, имхо если мы идем в сторону свободного интернета, то это должно быть понятно всем. Право автора не отчуждаемо это само собой, это значит только что нельзя подписаться под чужим произведением, а вот если выложил в интернет что-то, то считай общественное достояние.

asdoc 13 ноя 2017 в 08:29

Вы сначала потрудитесь написать пару сотен статей, а потом посчитайте это «общественным достоянием».
Копипастер и вор никогда не указывает верный источник и авторов и не ставит ссылок. Потому что он — вор.

asdoc 13 ноя 2017 в 08:35

Вам это «не так важно» до первой необходимости написать автору текста. До первой попытки выяснить фейк или нет, можно тексту доверять или нет, какой авторитет за ним стоит и т.д.

bro-dev 13 ноя 2017 в 10:05

Не признаю авторитетов, просто научный принцип который применяю и в жизни. Не указывать авторство это плохо, но не преступление. Про с начало напиши ну это просто принцип «сперва добейся», тут нечего комментировать. Копипастер вор это просто слова с эмоциональным окрасом, опять таки повторю что как потребителю пофиг как вы называете поставщиков контента, я их выбираю не на этом принципе. Мне например даже хабр удобнее читать на моем собственном сервисе со спарсенными статьями, ну и я то я тоже преступник если скопировал без спроса? или нет если не давал в общественный доступ.

asdoc 13 ноя 2017 в 10:22

Копипастер — вор. Это факт, а не эмоции.
Вам «пофиг» до первого серьезного вопроса.
Копировать «для себя» — на здоровье. Это лишь способ изучения информации. Сразу прочитать или позже.
Речь вообще не об этом. Речь о том, что если Яндекс хороший поисковик, то первым в выдаче должен быть оригинал текста, источник. А все копии должны быть в выдаче ниже.
Это и потребителю будет удобнее.
Например, про введение прикормов написано 10 оригинальных разных текстов. Если все эти оригиналы представлены на первой странице выдачи, то потребитель сразу получает весь спектр мнений + возможность дальнейшей связи с авторами и пр.
А если на первой странице по два копипаста каждого мнения, то часть мнений оказывается пользователю труднодоступна, а часть непонятно какого происхождения. То ли непрофессионал написал, то ли доктор, то ли это копирайтерский текст, исказивший первоначальный смысл, то ли это официальная позиция минздрава. Все это важно для анализа получаемой информации и всего этого лишен потребитель, читающий копипаст.
Кроме этого, через замусоренную копипастом выдачу совершенно невозможно пробиться, допустим, научной статье. Да, читать ее неспециалисту сложно, но есть специалисты. А неспециалисты могут написать автору и попросить объяснений. А если статьи в выдаче нет, если ее можно найти лишь на 10-й станице, то потребитель просто лишается информации. В результате копипаста и при пособничества Яндекса.

Dgoneee 14 ноя 2017 в 13:10

Да ладно, копипастер использует чужие тексты потому что это более экономически целесообразней.

asdoc 14 ноя 2017 в 14:37

Конечно. Писать тексты труднее. Нужны мозги, знания, умения. А своровать дело не хитрое.
Вот, к примеру, если у вас есть что-то ценное, например, деньги, то «экономически целесообразней» их у вас своровать.
Именно так рассуждает и вор, и копипастер.
И, похоже, Яндекс.

Dgoneee 16 ноя 2017 в 13:35

Э брат, сделать сайт на копипасте, да так чтоб он был выше оригинала, поверь это намного сложней чем написать хорошую интересную статью… Человек делающий сайты на копипасте, это вам не простой писака статей, это программист, админ, вебдизайнер, сеошник, бизнесмен в одном лице… Вы ведь не думаете, что кто то ручками ваши статьи ворует, это программка парсит ваши статьи, очищает их от ссылок и вставляет их на сайт…

asdoc 9 ноя 2017 в 20:11

Еще один вариант ответа, не вполне согласующийся с текстом статьи такой.
И это итог многолетнего исследования.
У Яндекса есть тайный, не публичный фильтр.
Как устроен тайный фильтр Яндекса?
Очень просто. Если сайт отвечает всем техническим требованиям Яндекса, если на нем расположена хорошая и оригинальная информация, но сайт по каким-то причинам, назовем их «личными», не устраивает Яндекс, то происходит вот что.
Сайт исправно индексируется и в Вебмастере видно, что все страницы «находятся в поиске».
Но на самом деле, из выдачи постепенно выпадают страницы сайта.
Страница за страницей.
Вместо них появляются страницы сайтов-воров, скопипастивших текст.
Т.е. пока текст никто не своровал, Яндекс выдает их на пессимизируемом «по личным соображениям» сайте. Но как только этот же текст появляется на сайте копипастера, то страница сайта первоисточника из поиска выпадает, а остается страница сайта-копипастера.
При этом сайт-первоисточник, по всем публично озвученным Яндексом требованиям, может многократно превосходить сайт-копипастер. Но в выдаче будет только копипастер.
Такая вот оригинальная «блокировочка».
Действует она примерно с 2012 года.
Что это дает Яндексу? Видимо так Яндекс проявляет свою «лояльность». (Хотя сайт, пропадающий из выдачи, может быть любой нейтральной тематики).
К чему это приведет? К тому, что строчка в резюме «работал в Яндекс» будет восприниматься как минус при последующем трудоустройстве.
Ну а Яндекс, разумеется, продолжит терять долю рынка.
Как писали С.Левитт и С.Дабнер «информация представляет собой валюту Интернета», а раз так, то исключая первопубликации из выдачи, Яндекс обворовывает авторов и способствует «продаже краденного».
Так что вопрос многомилионных исков к Яндексу это лишь вопрос времени.

questor 10 ноя 2017 в 07:31

Типичная теория заговора.

asdoc 10 ноя 2017 в 08:56

Да. Но иного в голову не приходит, ибо за 5 лет все иные варианты проверены.

Mendel 10 ноя 2017 в 13:05

Да проще всё — плевать ему на вас, вот и всё.
Помните историю с ЦОП-ами? Вы ребята свою работу выполнили, можно выбрасывать.
С какой стати компания с таким подходом будет думать о тех с кем они вообще не сотрудничали? Работает и ладно. От такого косяка страдаете ВЫ А НЕ ОНИ.
Не изучал эту тему, но может там у дорвеев есть РСЯ?

asdoc 10 ноя 2017 в 14:13

Так когда плюешь на одного, то рано или поздно это возвращается. Например, потерей пользователей.

НЛО прилетело и опубликовало эту надпись здесь

asdoc 10 ноя 2017 в 14:13

Похоже, что так…

urtow 10 ноя 2017 в 17:52

Очень многие ушли после смерти Сегаловича.

asdoc 10 ноя 2017 в 18:03

Инсайдов у меня нет, но я тоже пришел к выводу, что после ухода Сегаловича все рухнуло.

urtow 10 ноя 2017 в 18:41

Я пришел работать в Яндекс за месяц до его смерти и видел некоторые изменения.

Ну а потом следил снаружи.

asdoc 10 ноя 2017 в 18:56

Тот случай, когда я сожалею, что мои предположения подтвердились.
Ну и конечно, уход Сегаловича огромная потеря…
Как оказалось, для Рунета в целом, а не только для родных или Яндекса.

zemavo 9 ноя 2017 в 20:27

«Сети дорвеев если и остались, то только где-то на обочине интернета, в маргинальных тематиках типа казино или контента для взрослых.» — в Google последний год для дорвеев просто райские времена настали, например для сериальной тематики по некоторым ВЧ запросам 9 из 10 результатов — доры и прочий шлак.

kravets 9 ноя 2017 в 20:28

С удовольствием посмотрел бы в личку пример

zemavo 9 ноя 2017 в 20:42

Можно и без лички — вот выдача за только что https://www.google.com.ua/search?rlz=1C1GGRV_enUA752UA752&ei=s7sEWpXOH4bw6ATW8JDQCA&q=%D0%B8%D0%B3%D1%80%D0%B0+%D0%BF%D1%80%D0%B5%D1%81%D1%82%D0%BE%D0%BB%D0%BE%D0%B2+7+%D1%81%D0%B5%D0%B7%D0%BE%D0%BD+8+%D1%81%D0%B5%D1%80%D0%B8%D1%8F&oq=%D0%B8%D0%B3%D1%80%D0%B0+%D0%BF%D1%80%D0%B5%D1%81%D1%82%D0%BE%D0%BB%D0%BE%D0%B2+7+%D1%81%D0%B5%D0%B7%D0%BE%D0%BD+8+%D1%81%D0%B5%D1%80%D0%B8%D1%8F&gs_l=psy-ab.3..35i39k1j0i203k1l9.6572.8762.0.8967.16.15.0.0.0.0.217.1471.2j8j1.11.0....0...1.1.64.psy-ab..5.11.1468...0i67k1.0.S-oVC8Autw4, три сайта из десяти — дорвеи. Например, два видео на Рутьюбе (его в последнее время дорвейщики облюбовали), и какой-то owowspace. Запрос где 90% первой страницы — мусор, с ходу подобрать не удалось, но такое часто есть.

Как я понял, в топ гугла попадают спам-топики на трастовых англоязычных форумах/блогосервисах или, очень часто, разные тикет-системы, где запросы пользователей видны для всех, такое можно целенаправленно найти по запросах типа "<Название сериала> смотреть + ticket". Также Google раньше «любил» свежие спамозаметки на ВК/FB/OK.

kost 9 ноя 2017 в 23:16

А вы ожидали, что в топе по этому запросу будет качественная страница с бесплатным просмотром этого сериала?

zemavo 9 ноя 2017 в 23:26

Во всяком случае, не ожидал на первой десятке выдаче таких сайтов как, упомянутый

Заголовок спойлера

owowspace .com/forums/topic/%D1%81%D0%B5%D0%B3%D0%BE%D0%B4%D0%BD%D1%8F-%D1%81%D0%BC%D0%BE%D1%82%D1%80%D0%B5%D1%82%D1%8C-%D0%B8%D0%B3%D1%80%D0%B0-%D0%BF%D1%80%D0%B5%D1%81%D1%82%D0%BE%D0%BB%D0%BE%D0%B2-7-%D1%81%D0%B5/

Den_CH 10 ноя 2017 в 05:50

Мегадорвеи я считаю :)

atrosinenko 10 ноя 2017 в 13:04

Недавно пытался кросскомпилировать библиотеку APR с помощью MinGW, но завяз где-то в системных хедерах. Решил погуглить по запросу apache portable runtime mingw. Вторая ссылка в гугле ведёт на tomdeman <dot> com/apache-portable/apache-portable-runtime-mingw.html — шикарную по своей наглости и наивности страницу...

zmitrok62 10 ноя 2017 в 07:45

Так это же новый сервис — Яндекс.Дорвей

SergLens 10 ноя 2017 в 07:45

Интересно, что же на это ~~скажет~~ «промолчит» Яндекс?

asdoc 10 ноя 2017 в 08:59

Вероятно, промолчит или скажет, что «такого не может быть, потому что не может быть никогда». И только Яндекс умный, а остальные…

heromantia 10 ноя 2017 в 07:45

Пару недель назад я отправлял в Яндекс жалобу на подобного рода сайты в выдаче. В моем случае они занимали первые ТРИ СТРАНИЦЫ поиска. Это просто невероятно. При этом в гугле все было ок. Знаете, что мне ответили? Что сайты эти отвечают всем требованиям поисковой выдачи Яндекс и ничего не нарушают. Замечательно :)
PS. Вот, кстати, текст ответа:
Насколько я вижу из Вашего скриншота, результаты поиска соответствуют запросу.

Хочу отметить, что Яндекс индексирует сайты, созданные независимыми людьми и организациями. Мы не отвечаем за качество и содержание страниц, которые вы можете найти при помощи нашей поисковой машины. Нам тоже многое не нравится, однако Яндекс — зеркало Рунета, а не цензор. Мы также не отвечаем за бракованные программы, выполнение или невыполнение тех услуг, которые вам могут предложить на найденных при помощи Яндекса сайтах, и за убытки, которые вы можете понести, воспользовавшись такими услугами.
Если указанные сайты нарушают законодательство, то следует обратиться к провайдеру, оказывающему услуги для этих сайтов, а если это не поможет, то в правоохранительные органы.
Спасибо за письмо!

asdoc 10 ноя 2017 в 09:01

" Яндекс — зеркало Рунета".
По факту — ложь.
Зеркало отражает «как есть». Значит оригинал текста должен быть выше копипаста.
А пока Яндекс — кривое зеркало Рунета.

sokrat-nn 10 ноя 2017 в 07:45

asdoc 10 ноя 2017 в 09:39

Сверхрелевантная выдача… Все, что нужно знать о качестве Яндекса.

TeodorGofman 10 ноя 2017 в 09:48

Да, забавно. В этой статье «определенно» описан рецепт приготовления домашних чебуреков.
Как же так? А если бы кто-то другой написал бы вчера статью, в которой был уникальный контент?
Кто работал с Яндекс.Толокой, знает, что по всем инструкциям данная статья просто содержит упоминание предмета и нахождение ее на первой странице, пусть и в самом низу, как-то неоправданно.
НА мой взгляд, тут либо то о чем говорилось выше про «необъективность» и «не публичный фильтр», либо несовершенство системы… Либо не публичный фильтр завуалированный под несовершенство системы))))

Отойдем от понимания (или непонимания) всех этих сложных процессов построения поисковой выдачи и просто представим пользователя, который ищет «домашние чебуреки», то зачем ему наша статья, которая безусловно интересна, но не является целью поиска в данном случае?

asdoc 10 ноя 2017 в 11:08

«не публичный фильтр завуалированный под несовершенство системы» — шикарно!

Dgoneee 13 ноя 2017 в 08:40

Ну тут играет огромный траст сайта, возможно выдача персонализирована…

KawaiDesu 10 ноя 2017 в 13:16

А вы залогинены? Вероятно, это поправка на «интересы пользователя».

xerxes 11 ноя 2017 в 09:21

У меня то же самое выдаётся и с приватной страницы, не залогиненным. 10-е место у этой статьи.

Devvver 10 ноя 2017 в 10:24

Тема еще в 2012 году работа так и сейчас работает.
devvver.ru/seo/vyvod-v-top-po-vch-zaprosu-za-paru-dnej-v-yandekse
Такую выдачу часто называют «новостной».
Используется Яндексом не основной индексатор, а так называемый «быстроробот».
Он и копипалст хорошо ест. В 2013 году было куча подобных дорвеев, особенно по запросам с драйверами.
В топ страницы заганялись по разному — сначала твитер, потом и вк, фб работал. Одно время очень хорошо даже работали кнопки «поделиться» от Яндекса.

asdoc 10 ноя 2017 в 11:12

Ну и зачем? Какая новость может быть в рецепте чебуреков, описании заболевания, вида животного и даже принципов html-верстки (если это справочная информация).
Зачем тогда «хорошо есть» копипаст.
Получается, что единственная форма выдачи Яндекса — новостная?
Т.е. ничего, кроме новостей Яндекс искать не умеет? А новость он умеет определять только по дате?
И над этим работают 3000 человек пару десятков лет?

asdoc 10 ноя 2017 в 11:17

Очень просто можно решить эту проблему.
1. Отказаться от влияния ссылок на ранжирование. Вообще. Навсегда. Забыть про тИЦ и пр. надстройки.
2. Сравнивать тексты и выдавать текст, опубликованный раньше, если эти тексты идентичны или схожи, допустим, на какой-то % (это и копирайт уберет из выдачи).

В результате пользователь получит качественный текст из первоисточника. А не перепечатанный много раз так, что концов не найдешь.
И в выдаче освободится место для конкуренции текстов, авторов, качества информации.
А сейчас выдача — это соревнование СЕО, который Яндекс, по факту, поощряет.

Botchal 10 ноя 2017 в 11:41

Хорошо, а если новость в первоисточнике была такая: «Обрушился подъезд дома. Выясняются причины.». Потом появилась «Обрушился подъезд дома. На месте аварии работают 200 спасателей.» А потом «Обрушился подъезд дома. Спасли 2 человек. Перекрыли движение.». Какой из этих новостей Яндекс должен отдать предпочтение, последней? Выглядит как копипаст с дополнениями, но новость с наибольшей датой выглядит актуальнее. Мне кажется Яндекс так и работает.

asdoc 10 ноя 2017 в 12:37

Я говорил о точной копии текста.
Это важно.
И о том, что оригинал из выдачи просто исчезает.
Кроме этого разделить ресурсы на новостные и не новостные очень просто. Новостных ресурсов гораздо меньше.

Если это Яндексу с 3000 сотрудниками одолеть сложно, то можно делать специальный блок новостной выдачи. Справа или слева. Или сверху. Выделенным блоком.
И людям будет удобнее.
Потому что «дизентерия в Самаре» — это скорее всего новость. А «дизентерия», «дизентерия лечение» — это поиск информативной не новостной статьи.
Если 3000 сотрудников Яндекса немножко напрягут часть своего мозга, то они смогут решить эту непомерно сложную задачу для 3-го класса школы.

Devvver 10 ноя 2017 в 12:01

1)Пробовали отказываться от ссылок. Выдача становилась плохой, поэтому влияние ссылок вернули. Кстати в быстророботе работают все ссылки, в том числе и закрытые nofollow(если нет фильтра у источника). Из всех ссылок сейчас по факту работает наверное только 3%. Яндекс использует отдельные алгоритмы для борьбы с подобными аккаунтами в соц сетях.
2) Такой механизм работает. Но нужно понимать: новости сами по себе имеют низкую уникальность.

asdoc 10 ноя 2017 в 12:38

1. Откуда такая информация? Когда выдача становилась плохой от отключения значения ссылок?

DracoL1ch 10 ноя 2017 в 12:58

yandex.ru/blog/webmaster/18092
roem.ru/05-11-2015/212399/yndx-links-is-back

asdoc 10 ноя 2017 в 13:25

Датировано 12 марта 2014, 15:14
А бардак с выдачей начался в 2012г. Т.е. копипаст стал выше первоисточника начиная с 2012 года. За два года до отказа от учета ссылок.

DracoL1ch 10 ноя 2017 в 13:26

Вопрос был другой. Без ссылок ранжировать нормально не смогли, end of story, они остаются на месте

asdoc 10 ноя 2017 в 14:17

Дата начала бардака 2012 год. Дата отмены ссылок 2014. Т.о. ссылки на бардак не влияют.
Тем более, что в прошлом году яндекс уверял, что ссылки на выдачу не влияют.
Опять врал?

DracoL1ch 10 ноя 2017 в 14:20

Да, ссылки с копипастой связаны слабо.
Да, если говорят о бесполезности ссылок, то это ложь. Думаю, там шла речь о том, что это не настолько критический фактор, а один из множества. Тем не менее, без него всё разваливается.

Devvver 10 ноя 2017 в 14:22

Помню первые тесты отключения еще где то в 2010 году в одном из апов.
На следующий ап вернули. Было еще объяснение, что пытались построить модель графов без ссылок. Результат получился плохой. Пруфов не просите, давно было, не найду.
А ссылки очень хорошо работают. Как покупались, так и покупаются.

Dgoneee 14 ноя 2017 в 15:04

Слышал что пытались убрать платные ссылки. Вообще от ссылок отказаться первый раз слышу… Это как бы фундамент (базис) а поведенческие и т.д. только дополняют…

asdoc 14 ноя 2017 в 15:33

Видимо этот базис ошибочен, поскольку в результате он дал в руки ворам множество отмычек.

alexandropulus 10 ноя 2017 в 13:18

всегда… причем сначала этого хлебнули гуглеводы, потом яндексоиды, по своейственной им традиции, решили станцевать на персональных граблях

asdoc 10 ноя 2017 в 13:30

Devvver. Не понял про 2.
Я говорю не о новостях, а о нормальных, полноценных информационно-аналитических текстах. Например, о статье про какое-либо заболевание. Или про, допустим, введение прикорма, расшифровку анализа и т.д.
Если механизм определения уникальности и есть, то он явно не работает как надо. Иначе я не видел бы по запросу 70 копипастов моей статьи на чужих сайтах в выдаче, вместо моего сайта — первоисточника.
70 копипастов. 70 идентичных текстов. В выдаче. Но оригинала этого текста в выдаче нет.
(Технические параметры моего сайта сейчас близки к идеальным и превосходят любой из сайтов-копипастеров).

Devvver 10 ноя 2017 в 13:51

Есть 2 бота: быстроробот и обычный индексатор. Так вот быстроробот не совершенный. Он ест копипалст по той причине, что уникальность — не главный параметр оценки вывода статьи в топ. Главнее сколько людей ей поделились, внутренние факторы аккаунта(количество подписчиков, ретвиты и т.д.). То есть быстроробот ставит в выдачу то, что люди считают интересным и обсуждают. А дорвейщики лишь манипулируют этими данными. У многих есть целых твиттерфермы под это дело.

asdoc 10 ноя 2017 в 14:19

Уникальность должна быть главным критерием. При этом установить это проще, чем количество «поделившихся».
А иначе не выдача, а помойка.

DracoL1ch 10 ноя 2017 в 14:25

Уникальный текст, размещенный на нонейм-сайте, уступит своей же копии на любом крупном. Банально приоритеты — на крупный сайт юзер перейдет с большей вероятностью, что на руку поисковику. Ведь мы смотрим на URL перед кликом, да? vasya-pupkin-news.com выглядит так себе, не внушает доверия, а тут взрослые дяди из nytimes.com что-то похожее написали.

А кто был первый — ну, это чисто публичные заявления. Они стараются, но в примере выше вася, наверное, никогда не обгонит профильное издание со своими новостями.

asdoc 10 ноя 2017 в 14:33

У меня крупный, старый, большой сайт на хорошем платном хостинге.
А копии могут оказаться и на помойках. И эти помойки выше в выдаче.
А часто в выдаче только копии.
Так что если использовать Вашу метафору, то именно «васи» обгоняют в выдаче «профильное издание». А иногда «профильного издания» в выдаче просто нет.
Это против правил Яндекса о «мы понижаем сайты с вторичным, неоригинальным контентом».
Кто был первый проверить очень просто. И это довольно часто нужно знать пользователям.

Dgoneee 16 ноя 2017 в 16:40

Как часто вы связываетесь с автором статьи? Я думаю очень редко, поэтому для подавляющего количества пользователей читать первоисточник или копипастера обсалютно фиолетово, а Яндекс ориентируется на большинство, а не на узких специалистов где связь с автором важна… Поисковая система не должна ставить задачу защищать прав авторов, вы разве платите Яндексу за то что он взялся бы защищать права авторов. У вас всегда есть вариант прописать запрет Яндексу вообще индексировать Ваш сайт и рекламироваться на телевизоре. Вы как вебмастер пользуетесь бесплатными услугами Яндекса и ещё вместо спасибо предъявляете хотелки… Хотите быть в топе, запросто, есть платная услуга, называется директ.

Dgoneee 14 ноя 2017 в 15:02

Вы пытаетесь вернуться во времена Рамблера и поисковых каталогов?

asdoc 14 ноя 2017 в 15:34

Нет. Гуугл нормально выдает мои первопубликации выше копипаста. А у Яндекса с этим проблемы.

Devvver 10 ноя 2017 в 12:07

«Новостная выдача» формируется по любому запросу по которому резко появляется много статей. Пример
Посмотрите по запросу «умер Задорнов» сейчас выдачу.
Почему появилось много статей по запросу чебуреков? Причин может быть много. Часто это инфоповод. В Какой кокой то передаче на ТВ упомянули о домашних чебуреках, народ пошел гуглить, семантики увидели рост запросов и начали добавлять статьи, а тут и дорвейщики подтянулись.

asdoc 10 ноя 2017 в 12:42

Ну так вот. Авторские оригинальные тексты, как и тексты рецептов и пр. никогда не формируют резкого появления запросов или статей. Они примерно одинаковы.
Упоминание по ТВ чебуреков не приведет к резкому росту запросов. Никогда.

alexandropulus 10 ноя 2017 в 13:19

телек как раз всегда апает тренды, причем очень заметно и зачастую с нуля до овердофига

asdoc 10 ноя 2017 в 13:22

Допустим. Но это не имеет отношения к темам моих текстов. Тем более, что я проверял в разное время, в разные года и т.д. Это не коррелирует с новостями. Совсем.

Devvver 10 ноя 2017 в 14:00

Тренды формируются очень часто. Не обязательно узнать по ТВ. Вот у меня на одном из сайтов есть курс валют (тайского бата). Просматривая статистику обратил внимание на резко пошедший траф по запросу «24 бата 2 пакета». За день пришло больше 200 человек. Оказалось что это не накрутка. Просто одна бьюти-блоггерша с 10К подписчиков на Ютубе упомянула, что купила в Таиланде 2 пакета какой то травы. И народ повалил гулить незнакомые слова. Если бы этот момент отловили бы дорвейщики (например через прямой эфир Яндекса export.yandex.ru/last/last20x.xml), то они могли бы нагенерировать дорвеев, которые бы отжали у меня трафик за счет формирования новостной выдачи по запросу.

asdoc 10 ноя 2017 в 14:21

Допустим. Только идентичный текст остается одинаковым вне зависимости от даты публикации. Если Яндекс этого понять не может, то грош ему цена.

Devvver 10 ноя 2017 в 14:29

Для быстроробота уникальность — один из десятка факторов, не самый главный.

asdoc 10 ноя 2017 в 14:35

Это как? Т.е. для него не важен источник новости, текста?
Впрочем, пожалуй Вы правы. Поэтому и качество поиска у Яндекса отвратительное.

staspavlov92 10 ноя 2017 в 12:51

Для новостей же есть отдельная вкладка, почему нельзя применять «новостную выдачу» только там, если так сложно разделять новостные темы и обычные? И у того же Гугла в поиске по запросам типа «Умер Задорнов» с всплеском статей над основной выдачей появляется отдельная выделенная область «новости», предлагающая пару страниц из «новостной выдачи» и собственно возможность перейти на поиск по новостям.

asdoc 10 ноя 2017 в 13:21

Логично.

KIVan 10 ноя 2017 в 13:14

По-моему, объяснение куда проще. Сами ведь написали — эту выдачу дает новостной бот. Как обычно выглядят новости?

11.01.20ХХ — Из зоопарка нашего города сбежал бегемот.
13.01.20ХХ — Ночью в центре города кто-то повалил памятник Пушкину. В виду наличия следов крупного животного, подозревается бегемот. Напомним, что 11.01.20ХХ Из зоопарка нашего города сбежал бегемот.
15.01.20ХХ — Сбежавший бегемот вандал, все что известно на данный момент. Полиция загнала бегемота в здание мэрии. Напомним, что два дня назад ночью в центре города кто-то повалил памятник Пушкину. В виду наличия следов крупного животного, подозревается бегемот, который сбежал из зоопарка нашего города.

Какую из трёх статей вы хотели бы найти в поиске утром 15-ого числа?

Mendel 10 ноя 2017 в 13:19

Еще раз давайте повторим. Я понимаю что автор дважды писал про это в статье и еще в обсуждении несколько раз повторялось, но никогда не поздно повторить еще раз:
1) речь идет о СОВЕРШЕННО ОДИНАКОВЫХ текстах. Не измененных а идентичных. И нет, отделить основной текст от окружающего не так уж и сложно. Если я делал это в начале нулевых, то и яндекс как-то справится.
2) Речь идет о новостной выдаче в совершенно не новостной тематике. И нет, это не так сложно более тщательно классифицировать популярные тематики. Просто лень. Пользователь находит что искал, пусть и ворованное. Яндекс показывает рекламу. Все счастливы, а проблемы индейцев администрацию не волнуют (по мнению яндекса).

asdoc 10 ноя 2017 в 13:33

Спасибо!

Vladzimir 10 ноя 2017 в 14:40

Все намного проще. Это делается двумя инструментами, например Wmsn Doorway Generator и сервисом «быстробот»

asdoc 10 ноя 2017 в 18:06

Кстати. У Яндекса уже был такой глюк, что копипаст был выше оригинала в выдаче. Это было примерно в 2001-2003 году, если память меня не подводит.
Я переписывался с поддержкой около года.
После этого, наконец, оригинал появился в выдаче выше копипаста.
А в 2012 году история повторилась.
Но теперь и 5 лет переписки результата не дают.
А сайт тот же… Тексты те же… Ситуация повторяется буквально до «запятой».
Раньше Яндекс не с первого раза, но услышал. Сейчас не слышит и с сотого.

khim 10 ноя 2017 в 18:28

А сайт тот же… Тексты те же… Ситуация повторяется буквально до «запятой».

А почему вы считаете, что сайт, на котором ничего не меняется должен быть в выдаче выше сайтов, которые популярнее и нравятся пользователям больше?

Если вы не подали на эти сайты в суд и информация на них всё ещё доступна, то как и откуда Яндекс должен узнать, что она ворованная, я извиняюсь?

Раньше Яндекс не с первого раза, но услышал. Сейчас не слышит и с сотого.

Извините, но вы страдаете манией величия. Могу вас уверить, что ваш сайт ни в тот раз, ни в этот никто никуда не двигал. Просто в тот раз посмотрев на жалобы вебмастеров Яндекс решил, что дорвеев уж слишком много и начал их активно давить — а в этот раз, согласно его метрикам, проблема — не так остра. Вот и всё.

Я, впрочем, понимаю, что «мечу бисер перед свиьями (одна фраза „роботу все равно какой набор слов искать“ уже сразу говорит о том, что обсуждать алгоритмы работы поисковика с вами беспослезно чуть более, чем полностью), но это всё-таки Хабр…

asdoc 10 ноя 2017 в 18:44

Почему не меняется. Добавляется новая информация, сервисы, статьи. Улучшается юзабилити, технические характеристики, скорость загрузки, навигация, добавляются новые разделы. Много чего делается.
А даже если и не делается, то это не дает Яндексу право потакать ворам и показывать копипаст в выдаче вместо первопубликации.
Про популярнее и больше нравится — лукавство. Если сайт в выдаче — на него приходят. Нет в выдаче — не приходят.
А за мое качество говорит как раз то, что мои статьи сворованы многократно. На десятки других сайтов, которые есть в выдаче.
Выдают же информацию. Информация идентичная, моя, качественная (плохую не воруют).
Вот только эта моя качественная информация в выдаче показана на сайтах ворах при пособничестве Яндекса.

Яндекс может запросто узнать, где первопубликация, а где вторичный контент. Во всяком случае в 2011 году у него с этим проблем не было.
И никакой суд не нужен. Копипаст ниже в выдаче. Этого достаточно.
Судиться с каждым вором — жизни не хватит. Чем они и пользуются.

Маний у меня нет. Есть факты. Если мои обращения совпали с иными факторами — прекрасно. Меня интересует результат, а не мое участие в процессе. я бы предпочел заниматься чем-то иным, а не перепиской с Яндексом или здесь.

Да. Со мной не нужно обсуждать алгоритмы. Нужно просто исправить баг, тем более, что раньше он уже был исправлен.
Я занимаюсь своим делом — создаю хороший контент. Вы — своим — создаете выдачу при которой первопубликация выше оригинала.

И не придется ругаться.

asdoc 10 ноя 2017 в 18:52

Что-то я не вижу откуда Вы взяли цитату „роботу все равно какой набор слов искать“. Похоже, что Вы или читать не умеете, или цитировать, или не понимаете прочитанного.
Или пытаетесь приписать мне то, что я не говорил.
И тогда Ваши зоологические сравнения Вам следует использовать относительно себя.

khim 10 ноя 2017 в 19:22

Что-то я не вижу откуда Вы взяли цитату „роботу все равно какой набор слов искать“

Из вашей статьи, однако.

А даже если и не делается, то это не дает Яндексу право потакать ворам и показывать копипаст в выдаче вместо первопубликации.

Почему нет? Задача Яндекса — привести человека туда, где ему понравится. А не установить «вселенскую справедливость».

Яндекс может запросто узнать, где первопубликация, а где вторичный контент. Во всяком случае в 2011 году у него с этим проблем не было.

Были. И сейчас есть. А поскольку у спамеров есть задача — сделать для него это как можно более проблематичным, то это вечное соревнование «брони и снаряда».

И никакой суд не нужен. Копипаст ниже в выдаче. Этого достаточно.
Судиться с каждым вором — жизни не хватит. Чем они и пользуются.

Ну то есть вы хотите, чтобы ваши проблемы за вас решал Яндекс. А почему он, собственно, должен это делать?

Я занимаюсь своим делом — создаю хороший контент. Вы — своим — создаете выдачу при которой первопубликация выше оригинала.

А где это, я извиняюсь, Яндекс вам это обещал? Понижение сайтов без оригинального контента — далеко не всегда хорошая стратегия. Выкидывание новых сайтов «без разбору» — тоже.

В данном случае у Яндекса однозначная проблема — но не факт, что её можно пофиксить малой кровью так, чтобы запросы про «взрыв дома в Ижевске» давали адекватный результат тоже…

P.S. И я не сотрудник Яндекса — просто знаком со многими работающими как в Яндексе, так и у их конкурента. Потому неплохо понимаю как работает поиск. Главное — не кто голосует, а кто считает. В конечном итоге все алгоритмы прогоняются не через сотрудников Яндекса, а через обычных пользователей. И у них спрашивают: хотите вы видеть вверху резлультата вот этот сайт — или этот? И чтобы там кто ни постулировал — если «Средний Вася» скажет, что сайт с копией ваших статей ему нравится больше, чем ваш сайт — значит туда его и будут отправлять. Вы с этой точки зрения на свой сайт смотрели?

asdoc 10 ноя 2017 в 20:14

Ясно. Значит не справились с «прочитать и понять». Объясняю. В поисковую строку Яндекса можно было на момент написания той статьи поместить до 40 слов (так писал Яндекс). И в данном абзаце речь шла о поиске цитаты. Например, стихотворной строчки. И роботу ставилась простая задача — найти цитату. Гуугл справился «на раз». Яндекс облажался по полной.
2. По поводу справедливости. Еще раз говорю — текст идентичный, а читать его проще на оригинальном сайте. Остальные «танцы» про «нравится пользователю» — это лишь попытка Яндекса оправдать свой непрофессионализм.
3. «И сейчас есть». Ну так используйте. Или пополните свои знания посредством анализа web.archive.org — хотя бы старые первоисточники определите верно.
4. Что бы пользователь не уходили в Гуугл, чтобы исков к Яндексу не возникло, чтобы публично декларируемое «мы не ранжируем высоко вторичный контент» было правдой, а не враньем. Чтобы сотрудничать с создателями контента, а не с ворами. Вроде это вполне естественно — желать делать работу хорошо. Разве нет?
5. Где Яндекс мне это обещал? В правилах для вебмастеров. Обещал для всех, не только для меня.
Яндекс-Вебмастер-Некачественные сайты:
«Создавайте сайты с оригинальным контентом или сервисом.»
«Мы стараемся не индексировать или не ранжировать высоко:
Сайты, копирующие или переписывающие информацию с других ресурсов и не создающие оригинального контента.»
P.S. С этой точки зрения смотрел. Иначе бы не возмущался.

asdoc 10 ноя 2017 в 20:54

Из Ваших слов получается, что Яндекс такой умный, что может определить, что интереснее пользователю, но такой глупый, что не может определить первоисточник…
Это, право, смешно.
Особенно если первоисточник не показывать, а показывать только копии.

khim 10 ноя 2017 в 22:27

Из Ваших слов получается, что Яндекс такой умный, что может определить, что интереснее пользователю, но такой глупый, что не может определить первоисточник…

Из ваших слов получается, что говорить с вами о Яндексе бессмысленно чуть более, чем совсем. Яндекс — это не человек. Он не может быть умным или глупым.

Это, право, смешно.

Это не смешно, это грустно.

Особенно если первоисточник не показывать, а показывать только копии.

Ещё раз: для того, чтобы первоисточник найти — нужно сначала понять, что это — одинаковые сайты. А это — ни разу не очевидно бывает. Есть разные способы обойти сравнивалку: часть букв заменить на латинницу. Или нпаиасть солва нмеонго по дургмоу (я утрирую, но суть понятна?). Поверьте — люди, которые ваши тексты компируют знают об алгоритме, которым Яндекс определяет одинаковые статьи чуть ли не больше, чем Яндекс… что не значит, конечно, что с ними не нужно бороться… но не нужно выставлять это как «проблема выеденного яйца не стоит — а Яндекс не смог».

«И сейчас есть». Ну так используйте. Или пополните свои знания посредством анализа web.archive.org — хотя бы старые первоисточники определите верно.

Когда вашу статью копирует к себе какое-то веб-сайт — то это проблема, ужас, качмар. Когда Яндекс пойдёт и в нарушение лицензии заберёт себе web.archive.org — то это нормально. Странные у вас какие-то двойные стандарты.

Где Яндекс мне это обещал? В правилах для вебмастеров. Обещал для всех, не только для меня.
Яндекс-Вебмастер-Некачественные сайты:
«Создавайте сайты с оригинальным контентом или сервисом.»
«Мы стараемся не индексировать или не ранжировать высоко:

Стараться — стремиться, хотеть сделать что-либо. Обещаний — вижу.

Объясняю. В поисковую строку Яндекса можно было на момент написания той статьи поместить до 40 слов (так писал Яндекс). И в данном абзаце речь шла о поиске цитаты. Например, стихотворной строчки. И роботу ставилась простая задача — найти цитату.

А вот это — собственно: вишенка на торте. Дело в том, что эта «простая задача» — это «не по-профилю». Обычная поисковая система на это в принципе неспособна. Найти текст по одному слову для неё — раз плюнуть, по двум — уже сложнее, по 40 — это почти катастрофа. Ну вот так сложилось. Потому что люди по двум-трём-пяти словам ищут чаще, чем по длинным кускам текста. И вся организация данных «заточена» под поиск по небольшому числу слов. Инвертированный индекс, вот это вот всё.

И у Гугла была такая проблема. Лет 5 назад. И они потратили несколько миллиардов, чтобы её, до некоторой степени, решить. А я Яндекс — не захотел (или не смог — не знаю).

Поэтому я на эту вашу фразу и среагировал. С человеком, искренне пишущий чушь типа «роботу все равно какой набор слов искать» бессмысленно обсуждать проблемы поиска на Яндексе, уж извините. Просто бессмысленно.

Для него поисковая система — это «коробка с магией», а потому продложения по её улучшению будут выглядеть примерно как — «добавьте порошка из печени дракона — должно помочь».

Причём, что самое ужасное, сам человек будет искренне верить в то, что он предалагает дельные советы.

P.S. Если на вашем сайте статьи того же уровня, что и тутошняя дискуссия, то мне, увы, вас совершенно не жаль… но возможно в других темах вы разбиратесь чуть получше, чем в поиске…

kravets 11 ноя 2017 в 09:35

Объясняю. В поисковую строку Яндекса можно было на момент написания той статьи поместить до 40 слов (так писал Яндекс). И в данном абзаце речь шла о поиске цитаты. Например, стихотворной строчки. И роботу ставилась простая задача — найти цитату.

А вот это — собственно: вишенка на торте. Дело в том, что эта «простая задача» — это «не по-профилю». Обычная поисковая система на это в принципе неспособна. Найти текст по одному слову для неё — раз плюнуть, по двум — уже сложнее, по 40 — это почти катастрофа. Ну вот так сложилось. Потому что люди по двум-трём-пяти словам ищут чаще, чем по длинным кускам текста. И вся организация данных «заточена» под поиск по небольшому числу слов. Инвертированный индекс, вот это вот всё.

khim, Яндекс находит цитату по точному вхождению, но на первом месте далеко не всегда выводит первоисточник. Часто бывает, что по одной фразе из текста правильно определяет первоисточник, а по другой — ставит копипастеров на первое место. Почему так?

asdoc 11 ноя 2017 в 13:54

khim
Ух, как много слов. И все мимо.
Про 40 слов Вам уже объяснили. Надеюсь, наконец, понятно.
Я привел слова службы поддержки Яндекса. Можно сделать цитату и короче. Это не суть. Это нужно лишь для выявления копипаста или поиска цитаты.
Поскольку это позволяет выявить копипаст, то Ваши рассуждения про замены символов (которые имеют место, но не в этом случае) не имеют смысла.
Так же как бессмысленно Ваше сообщение о знакомых в Яндексе и Вашей компетенции, основаной на этом знакомстве. Пить пиво с охранником или кофе с секретаршей не означает компетенции в поиске.
Поскольку Вы бессмысленно дергаете ото всюду слова, даже не пытаясь понять их смысл становятся понятны ваши умственные возможности. Вы школу-то закончили?
Анализ вебархива не нарушает лицензию Яндекса.
Анализ нужен по одной простой причине.
В вебархиве собраны тексты с датами и URL. Поэтому сравнив URL и дату в вебархиве и их же на сайтах можно легко понять, где первопубликация.
Аналогично и с копипастом. Как символы не меняй, значительный % текста будет идентичен.
Об «оригинальных» текстах я вообще не говорю. Там все еще проще, поскольку они предваряют публикацию и привязаны к домену.
Вот только Яндекс не использует ни то, ни другое.
Поскольку Вы с трудом, как я понял, воспринимаете текст, то специально для Вас перефразирую:
«Из Ваших слов получается, что сотрудники Яндекса такие умные, что могут определить, что интереснее пользователю, но такие глупые, что не могут определить первоисточник…»
Так понятнее? Или еще разжевать?

khim 11 ноя 2017 в 15:02

Часто бывает, что по одной фразе из текста правильно определяет первоисточник, а по другой — ставит копипастеров на первое место. Почему так?

А давайте я вам задам другой вопрос: а почему иногда Alpha Go ставит камень на доске туда, а иногда — сюда?

Внутри у неё — тот же самый, примерно, движок, что и в поиске: примерно такая же нейронная сеть. С весами и коэффициентами — но это позволяет ей обыгрывать чемпионов со счётом 40/0. И довольно глупо ожидать, что «логику» её работы можно будет описать словами в комментарии на Хабрахабре: если бы кто-то мог это сделать, то что помешало бы ему «нагнуть» всех чемпионов и заработать кучу призовых денег?

То же самое и с поиском. У поисковика ведь нет задачи «вселенскую справедливость» устраивать. Как AlphaGo учится играть в Го на примерах — так Гугл и Яндекс учатся отправлять людей туда, где им понравится. Первоисточником новостей может быть агенство «Рейтер», но оказывается, что даже если оно оказывается на первом месте, то люди предпочитают CNN или там New York time.

Иногда алгоритм даёт сбой (а спамеры стремятся любой сбой усугубить — например накликать переходов на свой сайт, чтобы робот решил, что сайт — популярнее CNN), тогда нужно смотреть на конкретные примеры и его менять. Вернее не алгоритм менять, а переклассифицировать данные для него. Ибо часто оказывается, что простое, грубое, изменение — ведёт к проблемам по другим, более частым, запросам.

kravets 11 ноя 2017 в 15:14

Было бы конечно здорово четко понимать в чем в каждом конкретном случае проблема. В том, что поисковик думает, что первоисточник таковым не является или в том, что у первоисточника остальные показатели (поведенческие, ссылочные и тд) хуже, чем у плагиатора.

Это пригодилось бы вебмастерам для выбора на чем мне фокусировать усилия — добиваться удаления дубликатов или улучшать качество сайта.

Интересно, сотрудники поддержки Яндекса могут видеть в выдаче пометки кого алгоритмы считают плагиатором, а кого — нет?

khim 11 ноя 2017 в 16:45

Это пригодилось бы вебмастерам для выбора на чем мне фокусировать усилия — добиваться удаления дубликатов или улучшать качество сайта.

А ещё больше это пригодилось бы спамерам.

Как вы думаете — у кого больше времени и желания «подкручивать» сайты, чтобы они проходили через фильтры? У вебмастеров? Или у спамеров?

Интересно, сотрудники поддержки Яндекса могут видеть в выдаче пометки кого алгоритмы считают плагиатором, а кого — нет?

И да — и нет. Не знаю — могут ли они получить эту информацию (скорее всего да), но знаю, что проинтерпретировать её — они не могут (просто потому, что это действительно очень сложно — там сотни параметров).

Обычно такие жалобы собираются в пакеты — и когда их накапливается достаточно много передаются аналитикам.

Которые уже и решают — что со всем этим делать.

P.S. Но вообще, судя по тому ужасу, что описан в статье и тому факту, что «домашние чебуреки» всё ещё ведут сюда с Яндекса похоже, что с классификацией у них всё реально плохо. И проблема не только в «быстром», «новостном» боте. На второй станице «новостного» бота быть не должно. Да и это, блин, что такое? Если даже это и «новость» — то она уже протухла давно…

kravets 11 ноя 2017 в 18:25

А ещё больше это пригодилось бы спамерам.
Как вы думаете — у кого больше времени и желания «подкручивать» сайты, чтобы они проходили через фильтры? У вебмастеров? Или у спамеров?

Так можно про все инструменты панели вебмастера Яндекса сказать. Но Яндекс их развивает.

проинтерпретировать её — они не могут (просто потому, что это действительно очень сложно — там сотни параметров)

Вы в целом про факторы ранжирования или про те, которые характеризуют уникальность контента, дату индексации? Мне кажется, что за уникальность контента должно отвечать значительно меньше параметров.

Оба поисковика сейчас дают вебмастерам достаточно много данных о внешних ссылках на сайт. Учитывая, что 2 наиболее важных группы факторов — это факторы связанные с текстами и ссылками, было бы полезно показывать вебмастерам больше данных о том, как поисковик понимает их тексты, в какую сторону их надо улучшать.

khim 11 ноя 2017 в 19:18

Так можно про все инструменты панели вебмастера Яндекса сказать. Но Яндекс их развивает.

Очень осторожно и «в час по чайной ложечке». Уверяю вас — там по поводу каждой фичи идёт война с попытками оценить — кому это поможет больше: нормальным вебмастерам или спамерам.

Обычно критерий такой: если то, что вы видите в «панели вебмастера» вы могли бы посчитать и сами (пусть и с серьёзными затратами) — то это безопасно показывать (спамеры могут всегда привлечь компильтеры затроеяненных ими бухгалтеров, если своих ресурсов не хватит), если это что-то — даёт информацию о чём-то, чего никто, кроме Гугла (или Яндекса) в принципе не знает — то тут нужно трижды подумать, перед тем, как доступ давать…

Мне кажется, что за уникальность контента должно отвечать значительно меньше параметров.

С уникальностью контента всё вообще очень плохо. Если даже отмести смешную и незаконную идею проиндексировать вебархив, то и у Гугла и Яндекса есть своя история — пусть не уходящая так глубоко в прошлое, как вебархив.

Но это не помогает. Верить тому, что написано на самом сайте нельзя, раз эти самые рецепты чебуреков «публикуются» каждую неделю, а верить тому, что в архиве… тоже, в общем, нельзя: ведь сканируются в первую очередь популярные сайты, а контент рождается на перифирии.

То есть если какой-нибудь мелкий сайт породил какую-нибудь суперинтересную новость, которую перепечатал New York Times — то вы вначале увидите статью в New York Times, а уж затем — доберётесь до мелкого сайта (по ссылке из New York Times, ага).

То, что Яндекс даёт столь большой вес этому параметру — разумеется ошибка, позволяющая создателям ложноновостных страниц попадать в топ… но полный отказ от новостей тоже ни к чему особенному не приведёт.

asdoc 11 ноя 2017 в 20:41

В индексации вебархива и сравнении с URL и контентом сайтов нет ничего незаконного. Вебархив тот же сайт, только огромный, хранящий копии всех сайтов за разные даты. Индексируется, сравнивается, определяются первопубликации. Они навсегда останутся первыми (если только страница из сети не исчезнет).
Сделать это сравнение нужно один раз за прошлые годы и раз в месяц или год обновлять текущие сравнения, за прошедший от предыдущего сканирования период.
Но может половину копипастеров плодит сам Яндекс? Раз так не хочет им заняться.
Ведь даже лекция по созданию контента у Яндекса начинается со слов типа сейчас я научу вас писать хорошие копиррайтерские тексты.
Т.е. в переводе на человеческий — я вас научу как воровать и не быть пойманым.
Если бы Яндекс хотел разобраться с копипастом, то он давно бы это сделал. Как я уже говорил, в 2010 году Яндекс этот механизм имел и копипаст был в выдаче ниже оригинала.
А потом… то ли мозгов не осталось, то ли базы накрылись, то ли Яндекс сам решил покопипастить… то ли все вместе.
И с тех пор он потихоньку выкидывает из выдачи первопубликации, подменяя их копипастом.
И сказки про то, что Яндекс решает эту проблему, но она чрезвычайно сложна — это «лапша на уши».
5 лет назад я заметил эту проблему и написал в Яндекс.
И с тех пор писал много раз.
Но Яндексу на авторов и честных вебмастеров просто наплевать.
Для простачков у него правило «делайте сайты для людей». Это, наверно, чтобы «приближенным к телу» сео-шникам воровать было удобнее.
За 5 лет 3000 сотрудников Яндекса не смогли восстановить (даже не придумать, ибо он был) алгоритм определения оригинала и выдачи его выше копии… это надо очень постараться…
Может сотрудников Яндекса охрана к компам не подпускает и они ходят на работу только кофе пить?

khim 11 ноя 2017 в 22:09

Вебархив тот же сайт, только огромный, хранящий копии всех сайтов за разные даты.

Совершенно верно.

Индексируется, сравнивается, определяются первопубликации.

Только если вы ia_archiver, извините. Alexa — может это делать, Яндекс — нет. О чём и человеческим языком в соответствующем соглашении написано.

А потом… то ли мозгов не осталось, то ли базы накрылись, то ли Яндекс сам решил покопипастить… то ли все вместе.

Или копи-пастеры поумнели. Или вы такого варианта в принципе не допускаете? А почему, собственно? Яндекс может стать хуже, копи-пастеры не могут стать лучше?

Если бы Яндекс хотел разобраться с копипастом, то он давно бы это сделал. Как я уже говорил, в 2010 году Яндекс этот механизм имел и копипаст был в выдаче ниже оригинала.

Некоторый копи-паст находился ниже некоторых оригиналов — ну так это и сейчас так. А некоторый — выше.

За 5 лет 3000 сотрудников Яндекса не смогли восстановить (даже не придумать, ибо он был) алгоритм определения оригинала и выдачи его выше копии… это надо очень постараться…
Может сотрудников Яндекса охрана к компам не подпускает и они ходят на работу только кофе пить?

А может у них и другие задачи есть, кроме борьбы с ветряными мельницами?

P.S. А мне вообще интересно — ваши письма в службу техподдержки выдержаны в такой же манере: «Вы школу-то закончили?», «головьтесь к искам», все п$дорасы, а я — д’Артаньян? Потому что в этом случае неудивительно, что вам за пять лет ни одного разумного ответа получить не удалось. Подобные «наезды» до юротдела ещё доехать могут, но до разработчиков — никогда. Уж извините. Фильтровать «идущую изо рта пену» и «капающий с клыков яд» и выделять разумные сообщения о проблемах — собственно основная задача техподдержки…

asdoc 12 ноя 2017 в 02:09

Нет. Не «некоторый». В 2010 году любой копипаст был ниже оригинала.
На счет школы — прочтите Ваши ответы. Вы первый выбрали такой тон.
Смените тон, начните уважать собеседника и все изменится.
А то Вы как я погляжу, хамить и учить других уму разуму горазды, а сами вежливо говорить не научились, как и читать написанное.

khim 12 ноя 2017 в 14:41

Нет. Не «некоторый». В 2010 году любой копипаст был ниже оригинала.

Это и сегодня так. Какая-нибудь статья на тему Tim Cook, Mark Zuckerberg meet Xi не обязательно будет вести на сайт агентства «Рейтер» в первом результате. Да, обычно агенство «Рейтер» будет где-то там, наверху — но не потому, что они «авторы оригинальной новости», а потому, что сам сайт «Рейтер» имеет более высокие оценки — туда реальные люди ходят и вообще…

Смените тон, начните уважать собеседника и все изменится.

Нет, разумеется. Тон был бы важен, если бы я хотел от вас чего-то добиться или просто хотел бы утвердить своё ЧСВ. Я же просто хочу докопаться до истины. Не «донести имеющуюся у меня истину до немытых масс», не «заставить собеседника сделать то, чего я хочу», а просто «понять что происходит»

Ваша же задача — явно состоит в чём-то другом, судя по болезненной реакции на тон и почти что нулевую реакцию на содержание.

Перестаньте разыгрывать из себя мессию, которому Бог ниспослал истину — и мир вокруг вас изменится.

asdoc 12 ноя 2017 в 15:29

«Это и сегодня так.» Нет, не так. И эта публикация и ее обсуждение это доказывают.
Яндекс, конечно, может вместе с Вами утверждать обратное. и даже, что Земля плоская. Но это тоже не так.
«Тон был бы важен» Тон важен всегда. Ваша тактика — попытаться унизить собеседника переходом на личности и таким образом возвыситься.
Я же выбрал тактику обвинения Яндекса и м.б. даже довольно грубую только для того, чтобы сотрудники Яндекса заметили эту публикацию. Потому что 5 лет непубличной переписки не привели к результату — копипаст как был, так и остается выше оригинала в выдаче.
Мессию я из себя не строю. Просто отстаиваю свои права как создателя контента. И права других создателей.
Жаль, что не Вы, не Яндекс этого не понимаете.
Если бы не было создателей контента, то Яндексу нечего было бы искать. Ни копипастеры, ни копирайтеры контент не создают. Им нужен для этого оригинал, созданный автором.
И Яндексу он нужен. Это база. Яндекс — надстройка, сервис. Без контента не было бы Яндекса.

khim 12 ноя 2017 в 16:04

«Это и сегодня так.» Нет, не так. И эта публикация и ее обсуждение это доказывают.

Чёрт. Сказал вещь строго противоположную той, которую хотел сказать. Извиняюсь. Я хотел сказать, что оригинал и тогда и сейчас мог быть выше копий — а мог быть и ниже.

Вот сегодняшний пример из Гугла (ссылка была выше):

«Тон был бы важен» Тон важен всегда. Ваша тактика — попытаться унизить собеседника переходом на личности и таким образом возвыситься.

Нет — не возвыситься. А проверить — что для вас важнее: истина или ЧСВ.

Потому что 5 лет непубличной переписки не привели к результату — копипаст как был, так и остается выше оригинала в выдаче.

И ещё 5 лет переписки результат не изменят. Как Яндекс, так и Гугл иногда ставят оригинал выше копии, иногда — наоборот. Так было, есть и будет.

Мессию я из себя не строю. Просто отстаиваю свои права как создателя контента. И права других создателей.

А откуда эти права взялись, я извиняюсь? В законе — о них ни звука. От Бога? Ну тогда вы — мессия… ну или в душе считаете себя мессией…

И Яндексу он нужен. Это база. Яндекс — надстройка, сервис. Без контента не было бы Яндекса.

А без Кирилла и Мефодия не было бы контента — но мы почему-то не видим их потомков, бегающих по форуму и пытающихся стрясти со всех немножко денег себе в карман.

Превращение кого-то в «Автора Контента» — это не миропомазание. Для того, чтобы «создавать контент» не требуется церемонии, но главное — подавляющее большинство «контента» создаётся на основании другого «контента».

Потому так смешно выглядит ваша одержимость «оригиналами». Да, с мусорными сайтами — нужно бороться. То, что в топ попадают сайты с разного вида «накрутками» — это плохо.

А вот что копия иногда оказывается в выдаче ниже оригинала — как раз нормально.

asdoc 12 ноя 2017 в 16:12

Так а при чем здесь Гуугл. Гуугл как раз почти всегда ставит оригинал выше копипаста. А если нет — можно пожаловаться со ссылкой на вебархив и убирают.
Остальной Ваш топик из разряда софистики. Это такие мудрецы были на зарплате во времена Сократа.
Я не возражаю, когда копия ниже оригинала.
Но я вижу, что 70 копий моей авторской статьи в выдаче есть, а оригинала — нет.
Я вижу, что перед другой авторской моей статьей 30 копий в выдаче.
И эта ситуация усугубляется от года к году.
И создание контента — это большой труд. На порядки более сложный, чем копипаст.
Если уж не говорить о том, что без оригинального контента нет ни Яндекса, ни копипаста.
Так что у меня и других авторов есть полное право предъявить Яндексу претензии.

khim 12 ноя 2017 в 16:19

Так а при чем здесь Гуугл.

Чтобы была понятна необоснованность ваших претензий. А то вы тут рассказываете сказки, что Яндекс, типа ваше «богом данное право» не уважает, а Гугл (а не Гуугл, кстати — у него <a href-«sbis.ru/contragents/7704582421/770501001»>русское юрлицо есть) — уважает.

Нет — Гугл тоже не всегда его уважает. Потому что нет у «первоисточника» такого права.

Так что у меня и других авторов есть полное право предъявить Яндексу претензии.

Вы можете предьвлять к нему любые претензии, но пока вы не докажите, что Яндекс сознательно опускал ваш сайт в результатах поиска — ничего не изменится.

asdoc 12 ноя 2017 в 16:22

А если докажу?

asdoc 12 ноя 2017 в 16:30

Кстати… для искового требования это даже доказывать не нужно. Достаточно факта.
Почему достаточно я здесь писать не буду. Пусть это пока останется тайной.

Dgoneee 16 ноя 2017 в 16:53

Поверьте сделать сайт на копипасте который будет в выдаче выше оригинала это достаточно сложная задача, которая намного сложнее чем сделать сайт с уникальным контентом, и поверите нет рецепта, копипасть то и то, вставляй купи ссылочек там и там и будешь в шоколаде, фильтры постоянно меняются и есть постоянный риск уйти в минус…

kravets 12 ноя 2017 в 16:18

подавляющее большинство «контента» создаётся на основании другого «контента»

Да, в этом нет проблемы. Проблема когда контент полностью копируют, выдают за свой, на этом зарабатывают, снижают поисковой трафик сайта-первоисточника.

Из биологических и экономических примеров известно, что если в какой-то системе стимулируется паразитическое поведение и дестимулируется созидательное, то это ведет к деградации и краху системы.

asdoc 12 ноя 2017 в 16:23

Согласен. Это очевидное правило почему-то не очевидно Яндексу.

asdoc 12 ноя 2017 в 02:28

А вы попереписывайтесь лет 5 без результата. Посмотрим, как вы запоете.
Вы уже материтесь, а всего сутки прошли…
Думаю, что с Вашим высокомерием, вы начали бы орать дня через три.

asdoc 12 ноя 2017 в 02:46

Воровство — это не ветряные мельницы. А пособничество в воровстве не детская шалость.
Нет проблем договориться с Alexa, если своя база сгорела или специалисты ушли.
Да. Это деньги. Но меньшие, чем потеря рынка от некачественного поиска.
А поиск у Яндекса сейчас отвратительный.

asdoc 12 ноя 2017 в 02:58

А самое главное, получается, что все «рекомендации для вебмастеров» у Яндекса — это вранье.
Когда я исправил все технические огрехи сайта, начиная с H1 и метанеймов, посещаемость за год упала в три раза.
Т.е. следуя рекомендациям Яндекса я лишь ухудшил положение сайта.
Очевидно, что Яндекс поступает с авторами и вебмастерами нечестно.
Так пусть это станет публично известно.

khim 12 ноя 2017 в 15:23

А вы попереписывайтесь лет 5 без результата. Посмотрим, как вы запоете.

Никак не запою. Потому что обычно уже через две-три недели становится ясно, что результата нет — и не будет. Никогда. Ни через месяц, ни через год, ни через пять, ни через десять лет. После чего следует остановиться, разобраться в том, что происходит — и понять что делать дальше. Не пытаясь «пробить головой стену».

Ваша беда в том, что первый опыт (когда после года вашей переписки Яндекс изменил-таки алгоритмы и вы, вдруг, оказались-таки удовлетворены) убедил вас в том, что Яндекс что-то изменил, потому что вы с ним переписывались.

Разубедить вас я, разумеется, не могу… но неужели же пять лет переписки вас в этом не убеждают?

Думаю, что с Вашим высокомерием, вы начали бы орать дня через три.

Ну орать-то зачем. Думать надо — причём с самого первого дня. Тогда и орать не придётся.

А что касается высокомерия… Нет, высокомерие — это не использование бранных слов. Настоящее высокомерие — это считать, что вы умеете тачать сапоги лучше сапожника, печь пироги — лучше пирожника, а писать поисковик — лучше сотрудников Яндекса.

И в комментариях к статье я вижу только одного комментатора с подобными качествами…

asdoc 12 ноя 2017 в 15:33

Моя беда не в этом, а в том, что Яндекс показывает копии выше первопубликации или вместо первопубликации.
И это не только моя беда. Похоже, что это повсеместно для авторов, создающих контент, а не копипастящих его.
Я понимаю, что ваша цель меня «заткнуть». Вы в ней не преуспеете, так что «успокойтесь, пожалуйста»

khim 12 ноя 2017 в 16:09

Моя беда не в этом, а в том, что Яндекс показывает копии выше первопубликации или вместо первопубликации.

И Яндекс и Гугл и другие поисковики в некоторых случаях это делают, да.

Я понимаю, что ваша цель меня «заткнуть». Вы в ней не преуспеете, так что «успокойтесь, пожалуйста»

И снова ваше ЧСВ не даёт вам возможности увидеть чего я действительно хочу.

А хочу я, чтобы вы поняли простую вещь: ни пускание слюней, ни писанье кипятком, ни матерные слова, ни обращения в суд, ни что-либо ещё не изменят того факта, что у авторов «оригинального контента» нет священного права находиться на первой строке в результатах поиска.

Пока вы этого не поймёте — так и будете бороться с ветряными мельницами.

asdoc 12 ноя 2017 в 16:21

Если цель не «заткнуть», то следите за словами и формулировками.
Вашу «простую вещь», выгодную Вам, вероятно как копипастеру, я понимать не собираюсь.
Можете не трудиться.
Оригинал должен быть выше копии. Все остальное — воровство. И Вы это воровство пропагандируете и поощряете, насколько я понимаю.
И Ваша цель, насколько я могу судить, тем или иным образом «заболтать» эту проблему.
Тем не менее, Земля вращается вокруг Солнца, а не наоборот. Ценность первопубликации на порядки выше любой копии. Любые рассказы о том, что сайт копипастера лучше, как минимум, вкусовщина, а то и просто оправдание непрофессионализма.

Dgoneee 14 ноя 2017 в 14:32

Вы даже не знаете что такое дубли на сайте, и как их проверить, а в сео это считай первый класс… Возможно вы создаёте как автор шедевры но как Вебмастер, вы измазали этот алмаз в го… Возможно я не прав но сайт которому 20 лет… должен быть в топе, а он в жо…

asdoc 14 ноя 2017 в 14:39

Я не знаю, что Вы имеете ввиду. Это несколько другое дело.
И мой сайт не в топе по двум причинам. Первая — копипастеры, т.е. воры. Вторая — Яндекс, потакающий воровству и выдающий копипаст выше оригинала.

Dgoneee 14 ноя 2017 в 15:26

Да намного проше обвинять в своих неудачах кого то а не себя, как вы могли забыть про Путина и продажное правительство, просто удивляюсь…

asdoc 11 ноя 2017 в 18:28

Ура! До khim, наконец, дошло, что «у них всё реально плохо».
Этак скоро и до сотрудников Яндекса дойдет.
И может они, наконец перестанут тратить рабочее время на кофе и пиво и приступят к свои непосредственным обязанностям — работой над качеством поиска и выдачи.
А там, глядишь, и сообразят, что достаточно один раз проиндексировать вебархив и сравнить с существующими сайтами, чтобы понять и четко привязать первопубликацию к URL и выдавать оригинал, а не копию.
Это подойдет для текстов, размещенных до появления «оригинальных».
Дальше будет посложнее, но без пива осилить можно.
Придется индексировать и вебархив и оригинальные тексты и находить более ранние по дате публикации URL.
Конечно для блогов, конференций, новостей и т.п. эти способы не подойдут, но хотя бы у статей появится шанс на показ оригинала выше копии.
В принципе, скорее всего нет проблемы сделать сверху закладочки: статьи, новости, обсуждения.
Три вида поиска.
Нужна аналитика и полнота информации — закладка статьи. Нужны новости — следующая закладка, нужны мнения (конфа, блог и пр.) — третья закладка.
Закладки за миллион можно опять заказать Лебедеву.
Никто ведь другой не умеет рисовать цветные квадратики так дорого.

Dgoneee 13 ноя 2017 в 09:02

Ну блин если вам не нравится Яндекс просто не разрешайте ему индексировать ваш сайт да и всё, прописали в роботекст… Ведь из выдачи пропадёт такой ценный сайт как Ваш, и народ будет вынужден уйти к Гуглу… Да почему Яндекс должен заморачиваться вопросом кто автор материала, тратить на это свои ресурсы, на работу которую имеет право делать только суд. Сколько статей в день публикуется на вашем сайте? Они не каждый день публикуются, значит быстро бота у Вас на сайте нет, а у копипастер публикует от 10 до 50 статей в день и у него быстро бот посётся круглосуточно…

asdoc 13 ноя 2017 в 09:19

Это не решит проблему копипаста. А это проблема не только авторов, но и поисковиков.
И да. Сайт, который содержит первичный контент «такой ценный».
Если бы не было сайтов с первичным контентом, то поисковикам не было бы работы, ибо контента бы не было. Вообще.
А копипаст появляется только после появления первичного контента и никак иначе.
Почему Яндекс должен «заморачиваться»? Потому что уверяет, что он «зеркало» Рунета.
А если зеркало, то в отражении, в выдаче должен быть сначала оригинал и лишь потом копии.
И сайт с оригинальным контентом «такой ценный». Если бы было иначе, то с него не копипастили бы. На помойках не воруют. Воруют хороший товар. Хорошие тексты. И поэтому сайт с хорошими текстами — «такой ценный».
От Яндекса не требуется определять авторство. Это действительно не его работа.
Но Яндекс сам говорит, что вторичные, неоригинальные тексты он «понижает в выдаче».
Я лишь хочу, чтобы эти слова соответствовали действительности.
Вы совершенно правы — копипастер может публиковать 10-50 статей в день, потому что он вор и тратит на публикацию от силы пол-часа. А для создания оригинальной статьи нужно гораздо больше. Например, написание простой короткой статьи у меня с 20-ти летним опытом уходит 2 часа. А написать в день более 3-х статей довольно трудно.
Но даже если я публикую (впервые в сети) чужой контент, то на переговоры с правообладателем уходит весьма существенное количество времени и иных ресурсов. Иногда — недели.
А потом прибегает шустрый вор-копипастер и ворует текст.
Может Вы так делаете, коль так активно защищаете воров?

asdoc 13 ноя 2017 в 09:39

Копипастер, который ворует по 10-50 текстов в день почему-то никогда не указывает источник — откуда своровал.
Это логично, поскольку копипаст — воровство.
Когда сайт хочет скопировать текст легально — он смотрит как и в каком виде нужно указать источник, можно ли копировать и т.д.

Dgoneee 14 ноя 2017 в 15:28

Когда то была тема, в которой неплохо себя чувствовал копипаст, так как раз указывали ссылку на источник…

Merser 10 ноя 2017 в 19:39

Запрос «Что приготовить на ужин», Яндекс 1-2 место gi-wom.ru/chto-prigotovit-na-uzhin-glavnye-novosti/ Посмотрите на этот бред.
А также обратите внимание, что даты статей — последние дни. Это к предположению про закос под новости.

khim 10 ноя 2017 в 22:34

Посмотрите на этот бред.

Посмотрел. Хороший результат работы нейронной сети, которая призвана убедить другую нейронную сеть в том, что в этом «потоке сознания» есть смысл.

В том-то и дело, что для вас — это бред, а для алгоритма Яндекса, призванного выкидывать «мусор» — осмысленная статья.

Вы, так же, как и автор, и как asdoc относитесь к Яндексу как к человеку, чёрт побери! Не надо так.

Когда и если Яндекс (или Гугл) научатся понимать всё, что люди понаписали в Интеренете — я думаю он просто откажется в нём искать. Ибо у сверхразума наверняка найдутся задачки поважнее.

А также обратите внимание, что даты статей — последние дни. Это к предположению про закос под новости.

Похоже на то. Видимо полноценного анализа для «новых» статей Яндекс не делает (ресурсов не хватает или времени слишком много требуется) — вот и лезет этот мусор…

asdoc 11 ноя 2017 в 14:13

Ну Гуугл вполне научился.
У меня есть два скриншота.
Спросил у обеих поисковиков одно и тоже. При этом запрос написал так криво, что самому стыдно.
Однако Гуугл дал адекватный ответ, а Яндекс выдал полный бред.
khim Вы как-то освойте хотя бы математику, я не говорю о программировании, а то все, что у Вас хорошо получается только пыжиться как у кота Кеши из мультфильма «Ну, прилетаю я как-то на Таити, а Шурик мне и говорит: «Шайбу перехватил Мальцев, быстро передал её Крутову, тот ещё дальше — Вахтангу Кикабидзе. Бросок…»»
Цепляетесь к словам, пытаетесь создать впечатление, что что-то понимаете, а в результате видно, что не не понимаете даже того, что здесь люди пишут.

asdoc 11 ноя 2017 в 14:19

khim: «Видимо полноценного анализа для «новых» статей Яндекс не делает (ресурсов не хватает или времени слишком много требуется) — вот и лезет этот мусор…»
Ага. А так же для поверхностного анализа «старых» статей, для статей, присутствующих в вебархиве с 1998г, для статей, добавленных в «оригинальные тексты» не хватает ресурсов. И мозгов. Или желания.
Яндексу (ой, Вы же не поймете)… сотрудникам Яндекса вообще не до качества поиска. У них есть дела поважнее. Например, свалить вину за свою некачественную работу на вебмастеров (они не так сайты делают) или на нехватку средств (у Гуугла много, а у нас мало), или на СЕО-шников — они нас обманывают.

asdoc 12 ноя 2017 в 02:18

Возникла совершенно странная идея, но она совпадает с наблюдениями.
Это не означает связи причина-следствие, но и не исключает ее.
Я несколько раз писал, что «плохое не воруют».
Возможно и Яндекс так думал.
И это поняли сео-шники.
И Яндекс обнаружил, что плохие тексты (определяли асессоры, например) копируются на несколько форумов или сайтов (но на форумы проще) или сайтов, устроенных наподобие форума — зарегистрировался и публикуй.
И стал пессимизировать любой оригинал, если у него набирается, например, 30 копий.
Тогда объяснимо, почему в выдаче есть 30-70 копипастов моей статьи, но самой статьи нет.
Объяснимо, почему страницы выпадают из выдачи очень постепенно (копии же создаются постепенно).
Т.е. Яндекс знает, где оригинал, но пессимизирует эту страницу в выдаче, когда накапливается определенное количество копий.
Т.е. это некоторым образом аналог пессимизации за плохие внешние ссылки. Ссылки с плохих сайтов.
Если это так, то данный алгоритм ошибочен. Он пессимизирует всех подряд. и авторов, и сео-шников.

kravets 12 ноя 2017 в 07:59

Наблюдаю аналогичную картину. Проблемы с определением оригинала возникают тогда, когда копий очень много. Даже если копия ссылается на оригинал, Яндекс все равно может выводить ее на первом месте.

asdoc 12 ноя 2017 в 09:13

Я был готов к тому, что меня начнут ругать за такую гипотезу. Рад, что ошибся.
Интересно. Знает ли Яндекс дату появления ссылки на текст?
Поясню. Раз Яндекс не может индексировать вебархив, а от вебмастеров не хочет принимать ссылки на него, как на доказательство первопубликации, то надо как-то иначе определить дату.
Все, что можно написать на своем сайте, насколько я понимаю, можно легко подделать.
Значит нужен сторонний сайт.
Тогда, если Яндекс знает, что он обнаружил ссылку на сайт А с сайта В 1 января 2001 года, то он может датировать текст по этой ссылке этим числом. Т.е. тогда этот текст уже был. А все аналогичные тексты, появляющиеся позднее — копии.
Это, конечно, криво и ссылку можно ждать долго (нормальный автор или вебмастер не будут думать о создании ссылки) и за это время текст могут украсть и на себя ссылку поставить, но можно попробовать датировать таким образом тексты прошлого и более ранних годов. Хоть с «начала времен» рунета.

khim 12 ноя 2017 в 13:36

У меня есть ощущение, что вы вообще не туда копаете. Ни Гугл, ни Яндекс не занимаются расследованиями и не ищут оригинал! Это зачастую очень сложно (пример я приводил выше), а иногда и невозможно.

Да и ненужно. Как уже говорилось — задача Яндекса (как и Гугла, впрочем) не «установить вселенскую справедливость», а «дать человеку информацию». Если копий чего-либо в интернете мало — то тут становится важным отправить человека на сайт который не исчезнет через неделю, где, возможно будет форум и т.д. и т.п. А не на дорвей-однодневку. Когда копий мало, скорее всего единственным «хорошим» сайтом будет сайт с оригиналом. Когда копий больше — «нормальных» сайтов тоже становится больше и ни Гугл, ни Яндекс особо не выбирают — на какой из них человека отослать. Главное, чтобы сайт был разумным.

Проблема Яндекса, насколько я вижу, в том, что «чёрными SEO'шниками» по одному и тому же адресу публикуется одна и та же «новость» с разными датами — а новостной бот этому верит. Тем самым страницы получают как буст от сторонных ссылок (на стабильный адрес со временем разные реальные люди ссылаться-то начнут и им неважно будет, что там дата всё время меняется), так и от новостного бота (как же: свежая, «жаренная», новость!).

Как с этим бороться? Не знаю, как с этим борется Гугл (а знал бы — не сказал), но очевидным решением будет некоторый анализ сайта в целом: понятно, что на главной странице новостного сайта будут каждый день публиковаться новости, но если на странице типа somewhere.ru/domashnie-chebureki-na-kefire/ (а эта страница, кстати, получает дополнительный плюсик за то, что в названии указана тема) начинают постоянно публиковаться «разные» новости — то это повод такую страницу оштрафовать. А если весь сайт из такого добра состоит — повод оштрафовать весь сайт в целом.

В этом направлении нужно думать, а не пытаться определить кто тут самый первоначальный. В конце-концов тот же рецепт чебуреков, скорее всего, переписан с книжки в библиотеке, на которую ссылку не дашь — она на полке лежит и ни Гуглу, ни Яндексу недоступна.

kravets 12 ноя 2017 в 14:08

Да, с описанной в посте проблемой все ясно, мы перешли к обсуждению в целом проблемы копирования контента и отношения Яндекса к этому.

Мне кажется, что мотивация производителей контента и демотивация плагиаторов все-таки в интересах поисковиков. Сайты, которые массово копируют контент других сайтов или агрегируют без дополнительной ценности, в итоге не получают трафика.

Тяжело рассуждать не зная внутренней кухни и истинных причин, но мне кажется, что Яндексу хорошо бы обратить внимание на проблему плагиата. У Гугла, например, есть возможность отправить DMCA жалобу, после которой страницу-плагиатор исключают из выдачи. Раздел «Оригинальные тексты», видимо, был попыткой в этом направлении, но что-то пошло не так.

asdoc 12 ноя 2017 в 15:36

Золотые слова: «мотивация производителей контента и демотивация плагиаторов все-таки в интересах поисковиков»

khim 12 ноя 2017 в 15:42

Да, с описанной в посте проблемой все ясно, мы перешли к обсуждению в целом проблемы копирования контента и отношения Яндекса к этому.

Это глубоко философская тема. С одной стороны, понятно, что оригинальный контент — это вроде как лучше, с другой — «ничто не ново под луной». Буратино — это персказ Пиноккио, Диснеевкая Ариэль — родилась из вариации известной сказки, да и вообще почти любая статья или сериал основаны на чём-то, что кто-то другой придумал.

Мне кажется, что мотивация производителей контента и демотивация плагиаторов все-таки в интересах поисковиков.

Конечно.

Сайты, которые массово копируют контент других сайтов или агрегируют без дополнительной ценности, в итоге не получают трафика.

Да — но что значит «без дополнительной ценности»? Почему вы считаете CNN или BusinessInsider — создают ценность, а lady-day — нет?

В первую очередь бороться надо с разнообразными накрутками (типа перепубликации одного и того же рецепта чебуреков каждую неделю — уж это точно не создаёт ценности, а создаёт только информационный шум).

У Гугла, например, есть возможность отправить DMCA жалобу, после которой страницу-плагиатор исключают из выдачи.

Да — но DMCA это не инициатива Гугла, а федеральный закон. В России подобного нет.

Можно, наверное, через юрлицо в Штатах принимать жалобы — но там тоже есть масса вопросов. А просто так удалять ссылки — чревато.

Раздел «Оригинальные тексты», видимо, был попыткой в этом направлении, но что-то пошло не так.

Каталоги не работают с какого-то момента. Когда интернет был маленьким и относительно «чистым» — они работали, сегодня — нет. Гугл пытался использовать DMOZ (когда тот был ещё жив), но от него было больше вреда, чем пользы. Рамблер на своих каталогах выезжал какое-то время, но в конце-концов тоже от них ушел…

khim 12 ноя 2017 в 13:46

Прочитайте, кстати, ответ Яндекса про «зеркало Интернета» и вы увидите, что он согласуется с этим подходом на 100%, а с вашими влажными мечтами о том, что Яндекс найдёт и поощрит «автора оригинала» — никак.

Стоны по поводу копи-паста они отмели сходу: откуда Яндексу знать — разрешали вы публикаюцию вашей статьи или нет? В конце-концов когда CNN перепечатывает статью агенство «Рейтер» — то это происходит на совершенно законных основаниях… а чем lady-day хуже?

Вопросы же на тему «а почему вот эти и вот эти сайты находятся в поисковой выдаче выше моего» рассмотрели с точки зрения вопроса «а могут ли люди туда захотеть попасть» и «не делают ли эти сайты чего-нибудь „плохого“» — опять-таки проигнорировав вопрос оригинальности. Ну потому что не дело это Яндекса — нарушения копирайта искать.

asdoc 12 ноя 2017 в 15:45

Вы знаете, я не в курсе Ваших «влажных» мечт. Пусть они останутся Вашей тайной. Мне они не интересны.
Я знаю, что люди, подобные Вам не способны ни на что, кроме оскорблений.
Скудоумие не позволяет Вам осознать, что поощрение копипаста, которое происходит по факту приводит к «желтой» выдаче, приводит к оттоку пользователей в Гуугл, приводит к снижению релевантности и приводит к тому, что авторов становится меньше, а копипастеров — больше. Результат — находить все сложнее и сложнее, бороться с сео-шниками — тоже. Вы нахватались умных слов, но смотрите поверхностно. А я ищу суть и понимаю к чему это приведет. И в этом разницы наших подходов.
Если бы Яндекс смог решить проблему того, что в выдаче копипаст выше оригинала, то:
1. Копий стало бы меньше.
2. Авторского контента стало бы больше.
3. СЕО меньше влияло бы на выдачу.
4. Яндексу было бы проще индексировать и формировать выдачу, поскольку стало бы меньше мусора.
В результате выиграли бы все, кроме воров.
Но м.б. Вы просто относитесь к копипастерам и потому так активно рассказываете нам, что не нужно требовать от Яндекса выдавать оригинал выше копии?

asdoc 12 ноя 2017 в 15:56

Если Яндекс — зеркало, то зеркало отражает первым первое, а лишь потом копию.
А когда начинаются разговоры о том, что больше нравится, у какого сайта какая ценность — это уже суждение. Яндекс из зеркала переквалифицировался в судьи?
Но когда выдача нерелевантна и полна копипаста сразу хочется спросить «а судьи кто?»

asdoc 12 ноя 2017 в 16:05

khim
И по поводу «библиотеки» из которой скопировали.
1. У меня очень много моих статей, которые я сам написал. И они впервые опубликованы на моем сайте.
2. Статьи коллег, передавших мне свои офф-лайн тексты для публикации. С разрешением.
3. Тексты из офф-лайн от журналов и издательств, переданные мне по договору.
4. Иные источники с точно таким же алгоритмом — поиск правообладателя и достижение договоренности.
Все это требует много времени как минимум. Иногда и расходы, иногда бартера и т.д.
Это гораздо затратнее, чем копипаст и гораздо уважительнее к автору, чем «библиотека».
Вы, вероятно, не написали за жизнь ни одной статьи, потому так пренебрежительно относитесь к авторам.
Похоже что действительно копипаст — ваш хлеб.

asdoc 13 ноя 2017 в 08:30

Чтобы эта идея не потонула в обсуждении других тем, опубликую ее здесь повторно.
И да простит меня автор опубликованной выше замечательной статьи.

Я подозреваю, и это итог многолетнего исследования, наблюдений и экспериментов, что у Яндекса есть тайный, не публичный фильтр.
Понимаю. Звучит как «теория заговора» и пр. И тем не менее, рискну еще раз.

Как устроен этот тайный фильтр Яндекса?
Очень просто. Если сайт отвечает всем техническим требованиям Яндекса, если на нем расположена хорошая и оригинальная информация, но сайт по каким-то причинам, назовем их «личными», не устраивает Яндекс, то происходит следующее.
Сайт исправно индексируется и в Вебмастере видно, что все страницы «находятся в поиске».
Но на самом деле, из выдачи постепенно выпадают страницы сайта.
Страница за страницей.
Вместо них в выдаче появляются страницы сайтов-воров, скопипастивших текст.
Т.е. пока текст никто не своровал, Яндекс выдает их на пессимизируемом «по личным соображениям» сайте. Но как только этот же текст появляется на сайте копипастера, то страница сайта первоисточника из выдачи исчезает, а остается только страница сайта-копипастера.
При этом сайт-первоисточник, по всем публично озвученным Яндексом требованиям, может многократно превосходить сайт-копипастер. Но в выдаче будет только копипастер.
Такая вот оригинальная «блокировочка».
Началось это примерно с 2012 года.
Что это дает Яндексу? Видимо так Яндекс проявляет кому-то свою «лояльность».
И хотя сайт, пропадающий из выдачи, может быть любой нейтральной тематики, но у сайта есть хозяин, есть авторы, их позиции и взгляды, могут быть размещены баннеры «не лояльной» тематики или что-то еще. Это не так важно. Важно, что если это так, то репутация Яндекса может оказаться подмочена сильнее, чем от плохого качества поиска или чем репутация одного отечественного антивируса.

К чему это приведет? К тому, что писать в резюме «работал в Яндекс» станет неприлично.

Ну а Яндекс, разумеется, продолжит терять долю рынка, долу поискового трафика.

Экономист С.Левитт писал: «информация представляет собой валюту Интернета». А раз так, то исключая первопубликации из выдачи, Яндекс обворовывает авторов и способствует «продаже краденного».
Так что вопрос многомилионных исков к Яндексу это лишь вопрос времени.

Кстати, «адвокат» от Яндекса, господин khim появился здесь в обсуждении как раз после этого текста.
Может случайно я попал в цель и моя догадка верна?
Совпадений уж как-то очень много.

НЛО прилетело и опубликовало эту надпись здесь

asdoc 13 ноя 2017 в 11:46

Это недальновидно и стратегически ошибочно, т.к. качество продукта (поиска) снижается. Пользователи уходят.
Можно было бы согласиться про «ничего личного», но есть такая штука — введение потребителя в заблуждение, обман.
И если «ничего личного», то обман Яндекса все рекомендации для вебмастеров (не влияет на результаты выдачи), обман заявление Яндекс-зеркало (зеркало отражает как есть, т.е. сначала оригинал, а потом копию. Без оригинала копию отразить невозможно, ибо ей не откуда взяться), обман про понижение в ранжировании сайтов с вторичным контентом (значит первичный Яндекс определять умеет, но при этом в действительности копии не понижает, а понижает источники).
Т.о. бизнес Яндекса получается обманом потребителей. А это дело подсудное.

asdoc 13 ноя 2017 в 15:22

Во всех спорах о допустимости или недопустимости копипаста, о правилах Яндекса или того что ему «все равно», а что нет, нужно помнить одну простую истину. И исходить из нее.
Рунет и Интернет создает контент.
Контент кто-то первым написал или разместил. Это базис, основа, фундамент.
Без этой основы нет Яндекса и нет Гуугла, нет копипастеров… Вообще ничего нет. Рунета нет.
Поэтому уважение к оригиналу, первопубликации со стороны поисковой системы так важно.
Нет смысла обсуждать воров-копипастеров. Но есть смысл обсуждать позицию поисковой системы, которая или поддерживает авторов, первопубликаторов и стремится к развитию Рунета, либо поддерживает копипаст и разрушает Рунет.
Все остальное — лукавство и шаманские танцы с бубном.

Что бы понять, насколько это важно, просто представьте себе, что вдруг все оригинальные тексты исчезли (а значит и копии), вдруг авторы объявили забастовку и в сети больше нет новых текстов — ни новостей, ни информации, ни аналитики, ни описаний товаров. Ничего.
С чего копипастить-то тогда? И что искать будет поиск, коли авторы контента перестанут его производить?

Dgoneee 14 ноя 2017 в 15:53

Ну так сделайте свой поисковик, если так хорошо знаете как он должен стратегически работать, будите ублажать авторов и т.д. и гнобить копипастеров просто наймите толкового сеошника, и прибыль с сайта мотевирует Вас писать ещё больше оригинальных текстов, с работой вебмастера вы помойму не справляетесь…

asdoc 14 ноя 2017 в 22:31

Я так понимаю, что Вы копипастер. И Вас раздражает, что я называю копипастеров ворами?
Так пишите тексты, а не копипастьте.
СЕО — это попытка обмана поисковиков. Что-то вроде паразитов. И поисковики портят, и с бизнеса или авторов деньги тянут «щас мы вас на первое место вытянем».
Это мошенничество. И более ничего.
СЕО никогда не решит задачу, чтобы 5000 оригинальных текстов были в выдаче выше копипастов с этих страниц.
Что касается вебмастера, то то, что вы можете что-то сконструировать в вордпрессе не делает вас вебмастером. Это может почти любой школьник или домохозяйка.

Dgoneee 16 ноя 2017 в 17:09

Ну когда я занимался этим я и был школьником… ))) Но вот проблема вордпрес или джумл всего лишь инструмент, чтобы сделать что то что выстрелить скорей всего нужно писать свой софт или покупать за дорого чужой, (ограниченным тиражом) или искать ему не стандартное применение, дописывая какие либо функции самому, ну блин не умеет вордпресс копипастить из коробки… Я не заработал больших денег, но понял чем бы мне хотелось заниматься в будущем, в своё время я узнал очень много инфы о поисковиках, а сейчас подобным балуюсь редко…

WTYPMAH 13 ноя 2017 в 16:18

Т.е. казино и адалт для Вас темы маргинальные, а чебуреки нет? Элитные чебуреки что ли?
На РРС рынке казино и адалт уступают разве что таблеткам ;)

asdoc 15 ноя 2017 в 13:03

Чтоб не затерялось в ветках обсуждения, напишу здесь.
Почему для качества Рунета, для качества поиска, для качества информации так важно выдавать оригинал выше копии в поиске.
1. Тесты появляются либо тогда, когда их пишут независимые авторы, либо когда их оплачивают. Если текст оплачен, например, фирмой, то он может оказаться немножко (или множко) рекламным, т.е. не вполне объективным и аналитичным. Фирма будет продвигать этот текст, поскольку у нее на это есть бюджет.
Авторский текст, конечно, может тоже содержать огрехи, но как минимум это иная точка зрения. Бюджета на продвижение у автора, разумеется, нет.
Когда автор вместо своего текста видит в выдаче копипаст, то его желание писать уменьшается, а выдача «желтеет», наполняясь копиями, а не уникальными текстами.
2. Источник, оригинал обладает большей ценностью для пользователей, поскольку позволяет связаться с автором и предлагает информацию «из первых рук». Автор может уточнить и дополнить текст. Копипастер этого, разумеется, не может, а копирайтер или рерайтер могут и вовсе исказить смысл текста.
3. Яндекс публично рекомендует не использовать СЕО, создавать сайты для людей, обещает понижать в выдаче копии и «не ранжировать высоко сайты с вторичным контентом».
В реальности получается все наоборот. Оригинальные тексты понижаются и выпадают из выдачи, для того, чтобы оригинал был выше копии нужно нанимать оптимизаторов, рекомендации Яндекса для вебмастеров не влияют на позицию сайта в выдаче (это проверено экспериментально).
4. Почему-то у Гуугла таких проблем не возникает. Оригиналы в выдаче выше копий.
5. Яндекс умел определять и показывать оригиналы выше копий в 2008-2011 году. А потом это умение «растерял».
Это повлияло на качество выдачи. Как — не знаю, но то, что повлияло — факт. Выдача Яндекса стала хуже, чем выдача Гуугла, хотя еще лет семь назад все было наоборот.
В результате люди начинают предпочитать Гуугл Яндексу. Это м.б. не очень было заметно, пока росло число пользователей. Тем не менее, если исключить фактор роста аудитории, то получится, что Яндекс ежегодно теряет около 5% аудитории.
6. Именно поэтому, для того, чтобы выиграли и Яндекс, и пользователь, и автор (или честный вебмастер), важно выдавать первопубликацию, оригинал выше копии в поисковой выдаче.
7. Да. Копирайтеры и оптимизаторы проиграют. Но это соответствует публичной позиции Яндекса и интересам пользователей, так как улучшит релевантность поиска.

asdoc 19 ноя 2017 в 17:27

А вот и про быстроробот информация, подтверждающая наличие у Яндекса фильтра «лояльности»
«К.Ремчуков
―Нет, например, моя газета точно не попадает вообще. И даже была смешная
история несколько недель назад, когда мой журналист Симонян взял интервью у Бурджанадзе по Грузии с какой-то сенсационной фразой про Саакашвили, и оно вышло в пятницу. В пятницу никто не видит, но хотя оно читается на сайте газеты хорошо. В субботу никто не видит, в воскресенье никто не видит, и вдруг в понедельник я смотрю Топ-5 Яндекса. Первая пятерка, первая новость идет, что Бурджанадзе сказала. Я думаю, кому она еще могла сказать? Она ж там говорила, что это эксклюзив. Потом смотрю, там 160 изданий перечисляется: нас там нет, но все издания внутри на нас ссылку дают. Ну, какой это новостной агрегатор, если агрегатор должен новости проверять, а у них такое? „
echo.msk.ru/programs/personalno/2091140-echo

Благодарю человека, приславшего мне эту информацию.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий