yury_chekhovich Apr 24 2018 at 11:07

Трудности перевода: как найти плагиат с английского языка в русских научных статьях

11 min

66K

«Антиплагиат» corporate blogSearch engines*Semantics*Mathematics*Machine learning*

Tutorial

+42

Comments 64

lumaxy Apr 24 2018 at 13:50

Я так понимаю, теперь единственный шанс начинающего плагиатора англоязычных статей — обучить свою нейросеть генерить статьи с минимальным процентом заимствования и максимальной оригинальностью :)

yury_chekhovich Apr 24 2018 at 13:55

Английский в этом случае не очень и нужен — можно генерировать сразу на русском. Мы проводили пару лет назад проводили исследование по поиску сгенерированных русскоязычных статей. Пока это не тренд.

lumaxy Apr 24 2018 at 14:18

А как Вы искали сгенерированные статьи?

yury_chekhovich Apr 24 2018 at 14:23

Возможно, расскажем об этом отдельно. Там результат получился отрицательный — ничего интересного не нашли — поэтому статья, скорее всего, получится не очень интересной. Или, что более реально, попробуем обновить результаты с учетом вновь вышедших статей и расскажем про оба эксперимента сразу.

AEP Jul 26 2018 at 00:47

По статьям, конечно, следовало ожидать отрицательного результата. А вообще сгенерированными «дурацкими» текстами пользуются SEO-шники, которым надо хоть какой-то уникальный контент положить на сайт. Не пробовали их искать?

yury_chekhovich Jul 26 2018 at 09:20

Банально, но вопрос упирается в рынок. SEO — другой сегмент, которым мы пока не занимаемся. Допустим, мы нашли 100500 машинных текстов на различных сайтах. Сейчас у нас нет механизма, чтобы монетизировать эту информацию. А затраты на такой расчет будут порядочными.

anprs Apr 25 2018 at 08:06

Теперь единственный шанс начинающего плагиатора англоязычных статей — плагиатить статьи на других языках. Немецкий/французский/японский…

Ametrin Apr 25 2018 at 11:08

Думаю, до них тоже доберутся)

CryptoPirate Apr 24 2018 at 16:40

Круто! Вы с «Диссернет» на эту тему общались?

yury_chekhovich Apr 24 2018 at 19:38

Общались.

devalone Apr 24 2018 at 18:42

Не вводите систему так быстро, а то мне тут скоро диплом защищать)

yury_chekhovich Apr 24 2018 at 19:38

:) Кто предупрежден…

UFO just landed and posted this here

yury_chekhovich Apr 24 2018 at 19:46

В целом, вы правы, но как всегда есть несколько нюансов.
1. Автоматизация. На описанный вами анализ требуется примерно от 30 до 60 минут на работу. Делал лично, в том числе, и до того как мы разработали Антиплагиат. С переводом чуть дольше, но не принципиально. Средний вуз защищает в год несколько тысяч студентов. Как правило сроки сжатые и требовать текст ВКР больше чем за неделю до принятия решения о допуске получается далеко не всех. Получаем, что нужно за 1 неделю выполнить работу пусть даже на 1 тысячу человеко-часов. Получаем 25 человек в течение недели по 8 часов. При этом у этих людей обычных обязанностей никто отменяет. А ведь есть вузы с выпуском по 10 тысяч студентов.
2. Есть базы, которые не гуглятся, а там ведь тоже хочется искать.
3. Результат проверки нужно сохранять и передавать коллегам, то есть еще необходимо будет разработать методологию всех этих действий.
Вывод: проще и лучше Антиплагиатом.

AlexPancho Apr 25 2018 at 07:31

Я дамаю, тут немного другой алгоритм предложен. Есть корпус «однозначных переводов». Дальше при помощи гугл или гугл-наука мы ищем по методике шинглов тексты, где высок процент совпадения. Дальше текст парсится из источника и анализируется по вашей методике. Т.е. вам не надо иметь огромную базу текстов под рукой, а просто написать дополнительный алгоритм поиска, который еще больше будет покрывать случаи возможного плагиата.

yury_chekhovich Apr 25 2018 at 12:45

Этот вариант возможен, но нужно сделать этот корпус «однозначных переводов». Это первая проблема. Проблема в том, что перевод неоднозначен — см. пример в статье. И неоднозначен он по очень разным причинам. Одна из них контекст. Одно и то же предложение в разных контекстах будет однозначно переведено по-разному.
Вторая проблема, в том, что за обращение к гуглу нужно платить. И платить придется много.
Но в принципе схема рабочая, мы ее тестировали, и, вероятно, скоро запустим как дополнение к действующей, так как в закрытых коллекциях гугл не поможет.

synedra Apr 25 2018 at 06:56

А не великоват риск ложноположительных? Скажем, я написал пару лет назад статью про эволюцию хитинсинтаз эукариот, а за несколько лет до того некая A.-C. Zakrzewski, PhD написала статью про eukaryotic chitin synthase phylogeny. А до неё статьи примерно про то же писали ещё несколько немцев. Что характерно, в работах даже наборы данных частично перекрываются и методы похожие, не говоря уж о введении и прочей художественной литературе про то, что хитин и его синтез — интересные штуки. Содержательные различия только в том, что в каждой новой статье добавляются новые последовательности и, как правило, авторы концентрируются на разных группах организмов. Все честно друг друга цитируют, никто никого намеренно не плагиатит.

Это, в общем, нормальный научный процесс. Тема часто не закрывается единственным исследованием и появление даже очень сходных по методологии и результатам работ с разницей в несколько лет — нормальное дело. Без полнотекстового поиска и однозначного сопоставления перетащенных абзацев как-то рискованно.

yury_chekhovich Apr 25 2018 at 12:49

Ничего страшного не произойдет. То же самое может быть и с русскоязычными источниками. Для того, чтобы в таких хитросплетениях разобраться нужны эксперты. В любом случае, система не определяет корректность и правомерность обнаруженного заимствования. Это должен делать человек.
Какое-то количество ложноположительных конечно будет, но мы относим к ложноположительным те случаи, когда человек (эксперт) говорит, что обнаруженный фрагмент не является переводом источника.

synedra Apr 26 2018 at 06:45

Я спорил не с логикой антиплагиата вообще, а с упомянутым в первом комменте методом «ищем статью по пяти-семи узкоспециальным ключевым словам и если такая есть — с немалой вероятностью русский текст нагло покраден оттуда». У вас-то, как я понимаю, полный текст той и другой статьи парсится и ищутся совпадающие (выше какого-то порога) протяжённые участки?

Ametrin Apr 24 2018 at 19:46

Информация обо всех найденных случаях переводных заимствований передана в редакции научных журналов, выпустивших соответствующие статьи.

А какая-нибудь реакция от них уже последовала?

yury_chekhovich Apr 24 2018 at 19:46

Пока предварительная. Возможно будет о чем рассказать в дальнейшем.

Sergey6661313 Apr 24 2018 at 20:20

Никогда искренне не понимал как можно просить детей писать об одном и том же но разными словами? они ведь на одну и туже тему пишут. И вроде по умолчанию на одном и том же языке. Так с фигали у них в принципе должен получаться другой текст?? Как в анекдоте про Вовочку: «но ведь учительница то у нас одна!».
Да и вообще проверять надо знания, а не диссертации и дипломные… Да и зачем вообще тогда в принципе в конце любой дипломной работы ссылки на источники? У нас либо реально своя работа, либо переписанная из источников. Ну так если нас в любом случае заставляют указывать эти источники (априори втюривая невозможность дойти до каких либо вещей своей головой) так зачем тогда вообще проверять такую работу на плагиат, если она на самом деле чуть более чем на 90% из него и состоит по определению??

Хотят чтобы Россия шла к великому будущему, а просят — перевоспроизводить (извените) говно из прошлого, причём своими словами и так чтобы оно не было на него похоже… Век, блин, открытых знаний…

-5

UFO just landed and posted this here

yury_chekhovich Apr 24 2018 at 20:33

Во-первых, речь идет научных статьях, а не о квалификационных работах. Вы ведь не отрицаете, что в них текст должен быть в значительной степени оригинальным.
Что же касается Выпускных Квалификационных Работ (полагаю, Вы о них), как и квалификационных работ других типов, то основная их цель — это не проверка ЗНАНИЙ. Для этого есть экзамены, при сдаче которых, как раз и не требуется оригинальности.
Квалификационные работы предназначены для подтверждения квалификации. Они предполагают УМЕНИЕ (прочувствуйте отличие) соискателя самостоятельно выполнить работу. На оригинальную тему. Ссылки на источники в конце совершенно не предназначены для того, чтобы указать откуда работа списана, а как раз для того, чтобы соискатель смог продемонстрировать чем его результаты отличаются от того, что получено ранее.
И крайне странно предполагать, что для великого будущего России от ее граждан потребуется только умение копипастить.

Sergey6661313 Apr 24 2018 at 21:40

«а не о квалификационных работах. »

открываем вкладку «о системе» и видим: "… по написанию…… дипломных работ..."
дипломная — один из видов выпускной квалификационной работы. Да я именно о том для чего ваша площадка себя рекомендует.

Если вы напишите то что написали вы в этом комментарии на главной странице — учителя которые проверяют работы учеников через ваш сервис хотя бы задумаются… А пока что — «85% студентов учатся в ВУЗах, использующих систему АНТИПЛАГИАТ».
Вот только прикол в том что вузам не выгодно давать детям работу которую учителя бы сами не «прошли» в доль и поперёк. Потому что в новые работы ещё вникать надо, время тратить…

чем его результаты отличаются от того, что получено ранее.

Вот именно что ничем. Даже само определение слова «реферат» — краткий доклад по определённой теме, в котором собрана информация из одного или нескольких источников, мягко намекает что именно что компиляция то и нужна.

УМЕНИЕ самостоятельно выполнить работу.

Вот как раз это и есть бич современного времени. Каким именно образом проверить это самое «умение» если этот самый соискатель приносит готовую работу? правильно* проверить не украл ли он её.
* а вот и НЕТ. Единственный способ проверить «умение» — заставить человека воспроизвести то что именно написано в его творческих трудах с изменёнными условиями. т.е. проверка на практике.
И вообще разве «умения» тем пластом знаний которые просто достаточно хорошо закрепились в подкорке чтобы их можно было воспроизводить? Т.е. по сути всё равно это всё повторение.
Повторю вопрос: как можно просить детей писать об одном и том же разными словами?
Если дети для получения этих ваших умений используют одни и теже книги — будут ли в письменном виде они отличаться друг от друга? даже если будут — это произойдёт лишь первые пару раз — далее хочешь или не хочешь синонимы кончатся.

yury_chekhovich Apr 24 2018 at 21:46

Извините, но то, что Вы пишите мало касается обсуждаемой и моих комментариев.

synedra Apr 25 2018 at 07:00

Вопрос к авторам: на картинке с долей заимствования представлены преимущественно гуманитарные области. Из технических/естественнонаучных одна только медицина. Всякие там биологи/химики/математики правда настолько меньше воруют или их в анализе было меньше? Что получается, если нормировать это дело на количество статей их соответствующей области в наборе данных?

Deosis Apr 25 2018 at 07:48

Математику сложнее автоматизировать. Если в формуле поменять местами 2 символа, то смысл может поменяться кардинально.
Или, например, одна из статей по математике: Мы проводили выч.эксп. и случайно нашли контрпример к теореме Такого-то. Вот он: тут пять чисел
Вся статья занимает меньше трети страницы.

synedra Apr 26 2018 at 06:51

А там покража автоматизированная, вы думаете? Не пробовал, но мне кажется, что проще и эффективнее нанять для писания кого-нибудь умеренно компетентного (студента или аспиранта), чем возиться с системой автоматического плагиата.

И в любом случае, к естественным наукам этот аргумент неприменим. Не знаю, что там за работа в последнем примере из статьи, но я практически уверен, что мог бы при желании аналогичным образом разделить одну хорошую статью из, например, NAR на несколько неплохих статей в какой-нибудь провинциальный «Вестник».

yury_chekhovich Apr 25 2018 at 08:57

Спасибо за совет. Действительно для того чтобы сравнивать области наук, нужно нормировать на количество статей. Я думаю, что состав десятки не поменяется, но веса могут измениться. Кстати, далеко не все области науки можно заимствовать с английского. Есть темы, которые развиваются только на русском.

aitras Apr 25 2018 at 08:15

В прошлом году наши студенты проверяли свои дипломы в Антиплагиате. Замучались. В списке литературы находит заимствования, длинные термины тоже помечает. Шапку на титульнике «Министерство образования… и т.д.» и то отмечает. Это нормально?
Специальность техническая.

yury_chekhovich Apr 25 2018 at 09:08

Во-первых, вопрос к вам: а почему проверяли студенты? Проверять должны были преподаватели.
Во-вторых, предполагаю, что замучались подгонять процент под норматив. Это отдельная проблема. Рекомендую прочитать эту и эту статьи.
В-третьих, с апреля этого года запустили в системе функцию обнаружения общеупотребительных выражений, то есть как раз длинных терминов, названий организаций и т.п.
Правда все это темы отдельных постов на Хабр.

aitras Apr 25 2018 at 12:02

Это я так выразился. Каждый отдельный студент проверял, конечно же через руководителя диплома.
Спасибо, почитаю.
Я безо всяких претензий написал. Просто при случае поинтересовался — система пока так работает или мы что-то неправильно делали. Всего этого процесса лично я только немного касался.

yury_chekhovich Apr 25 2018 at 12:20

Скорее всего проблема в том, что от студентов требуют выполнения «норматива по проценту». А как он достигается, никого не интересует. Вот и получается, что «под одну гребенку» попадают и копипащенные у других студентов тексты, и собственные статьи, которые опубликованы до защиты диплома.
Со списком литературы особая проблема — заимствования в нем нужно анализировать особым образом.

KivApple Apr 25 2018 at 08:25

Было бы интересно узнать, применяются ли подобные системы за рубежом и если да, то какие.

yury_chekhovich Apr 25 2018 at 09:14

Конечно, применяются. Более того, за рубежом этой темой начали заниматься намного раньше — в 96-97-м годах. Вот наиболее распространенная зарубежная система. Надо сказать, что Антиплагиат обязан ей своим возникновением. Когда в 2005 году в TurnItIn обратились с вопросом, могут ли они сделать поиск на русском языке, они ответили, что русскоязычный рынок их не интересует. И мы стали делать для российского рынка.

UFO just landed and posted this here

yury_chekhovich Apr 25 2018 at 11:47

В Германии есть несколько собственных сервисов. Степень проникновения этих сервисов в вузы не изучал, но знакомые жаловались, что проверяют :).
В Великобритании проверяют всё. Именно с помощью TurnItIn. При этом подход очень жесткий — одного выявленного случая хватает не просто для отчисления, а для того, чтобы после этого не быть принятым ни в один британский вуз.
Есть французский сервис, степень охвата не знаю.
Зарубежный подход действительно отличается от нашего. Но так, что заимствовать могут только очень безбашенные люди. Одного случая хватает для того, чтобы оказаться вне профессии навсегда.

UFO just landed and posted this here

yury_chekhovich Apr 25 2018 at 13:59

Соглашусь, что проверка, скорее всего, не массовая, а на усмотрение преподавателя. Но наказание такое, что десять раз подумаешь, стоит ли рисковать. Тем более, что все более распространенной практикой оказывается размещение выпускных работ в открытом доступе.

UFO just landed and posted this here

yury_chekhovich Apr 25 2018 at 11:59

Коллега, если подскажете бесплатный сервис, который проверяет по платным источникам, буду крайне признателен. Все известные мне бесплатные сервисы проверяют именно по бесплатному интернету и с помощью внешних поисковиков. Как правило, все российские университеты охвачены теми или иными платными системами. Чаще всего — АП. Наша политика не ограничивает количество пользователей в организации. Как правило, это «инициатива» самого вуза.

UFO just landed and posted this here

yury_chekhovich Apr 25 2018 at 12:30

Все правильно,

с лежащих в открытом доступе диссертаций

. Антиплагиат, тоже находит эти диссертации. Можете проверить.
С elibrary несколько сложнее — есть соглашение, что мы не грузим сайт индексированием напрямую — с деньгами это никак не связано.

(причем специально не замечает, чтобы заставить отстегнуть бабло).

— такие утверждения требуют доказательств. Как руководитель компании могу заверить, что утверждение не соответствует действительности абсолютно. Не скрою, что подобные идеи периодически обсуждаются, но порчей результатов поиска мы не занимаемся. Иногда даже (в силу особенностей обновления версий) бывает, что бесплатный показывает результаты чуть лучше, чем платный (на коллекции интернет).
Если ваш вуз не дает вам пользоваться системой, обратитесь к нам в поддержку, мы попробуем решить вашу проблему.

UFO just landed and posted this here

yury_chekhovich Apr 25 2018 at 16:33

На самом деле общая проблема выглядит так, если ориентироваться на какой-то бесплатный сервис, то ВСЕГДА можно будет найти способ обнаружить то, что не проиндексировано. Я могу предложить десяток способов (не делаю этого здесь по этическим соображениям, чтобы не получилось как в анекдоте про «занавесками не вытираться») как найти контент, который не ищется etxt.
Нет, пожалуй, об одном все-таки расскажу — он описан в статье выше. Берем англоязычную статью, переводим, и, вуаля. все бесплатные сервисы отдыхают. Равно как и большинство платных.

По поводу конференции, напишите мне. Подумаем, что можно сделать.

UFO just landed and posted this here

yury_chekhovich Apr 25 2018 at 21:19

Насчет украинского думали, но пока в приоритете другие языки стран СНГ. Скорее всего, до украинского доберемся к следующей сессии. С ним все будет просто.

yury_chekhovich Apr 25 2018 at 12:34

Кстати, почему-то бесплатная версия используется сейчас с интенсивностью от 150 до 200 проверок в минуту. Могу предположить, что не для всех она одинаково бесполезна ;).

UFO just landed and posted this here

yury_chekhovich Apr 25 2018 at 16:23

Если не сложно, напишите лично о каком вузе идет речь. Здесь сразу куча проблем: почему работы проверяют студенты? зачем их заставляют подгонять под процент? Это профанация проверки на заимствования. Чуть выше в комментариях давал ссылки на наши статьи, где обсуждаем почему так организовывать проверки нельзя.

UFO just landed and posted this here

yury_chekhovich Apr 25 2018 at 17:14

По поводу нагрузки вы правы — она именно от этого.
По поводу этики отношений с работодателем, смотрите сами. Я не предлагаю публиковать название вуза здесь и не планирую ссылаться, но ситуация такова, что нам (сотрудникам Антиплагиата) приходится проводить большой объем разъяснительной работы. Нам обидно, когда инструмент используется не по назначению или неправильно. И есть много прецедентов, когда такие усилия достигали цели. Поэтому и предлагаю помощь, не обещая, впрочем, что она будет результативной.

UFO just landed and posted this here

yury_chekhovich Apr 26 2018 at 12:00

Наверное, что-то закрепляет, но вот оптимальный ли это путь для закрепления информации? Видимо нужны исследования.

UFO just landed and posted this here

yury_chekhovich Apr 26 2018 at 16:12

Моя практика показывает, что при перелицовывании текста в голове у студентов остается мало. И доучиваться до выпускного курса они должны с пониманием, что переписывание не поможет. В рамках дипломной работы студент должен не запоминать, а создавать. Это принципиально.

UFO just landed and posted this here

yury_chekhovich Apr 27 2018 at 16:58

Полностью с вами согласен!

Nike01 Apr 28 2018 at 14:21

Спасибо за отличную статью, интересует чисто с технической точки зрения, сколько времени вам понадобилось на реализацию такого сложного механизма + эксперименты? Или над этим работала большая команда и они за месяц-два все реализовали, протестировали и выкатили в прод?

yury_chekhovich May 6 2018 at 11:52

Этот проект оказался достаточно долгосрочным.
Сначала были проведены исследования – нужно было найти общую схему алгоритмического решения и дальше в рамках схемы оптимизировать качество работы отдельных этапов (7 месяцев).
Затем подготовить решение, которое можно развернуть на продакшене (4 месяца).
Подготовка индекса для прода (2 недели).
Проведение эксперимента по проверке русскоязычных статей (чуть больше 1 месяца).
На каждом этапе работала небольшая команда 2-3 человека.
Как ни странно, но много времени ушло на понимание того, где хотим опубликовать статью и подготовку статьи. Все промышленные работы мы закончили еще в сентябре прошлого года. С того же момента модуль переводных заимствований подключается пользователям — пока правда доступен только для корпоративных пользователей.

Alex_info May 2 2018 at 01:58

Заголовок: «как найти плагиат с английского языка в русских научных статьях», исследование интересное но гораздо больше плагиата можно найти в статьях на английском, китайском, немецком, французском с заимствованиями из русскоязычных статей.
Например, известный случай с теоремой Котельникова. В 1933 Котельниковым В. А. была опубликована известная фундаментальная работа «О пропускной способности «эфира» и проволоки в электросвязи», которая среди прочего содержит 6 теорем с доказательством, среди которых теорема отсчётов. Повторно, теорема отсчётов, «открыта» в 1949 году (через 16 лет) Клодом Шенноном. И явно Шенон был знаком с теоремами Котельникова, т.к. радиосвязь в то время очень активно развивалась и конкурирующие государства очень тщательно сканировали публикации «партнёров». В 1999 году Международный научный фонд Эдуарда Рейна (Германия) признал приоритет В. А. Котельникова, наградив его премией в номинации «фундаментальные исследования» за впервые математически точно сформулированную и доказанную в аспекте коммуникационных технологий теорему отсчётов. Но большинство зарубежных авторов избегают называть теорему именем Котельникова, а называют «теоремой Шенона». Таких примеров огромное число. Запад ворует не только результаты публикаций, но и сами публикации и идеи. Можно вспомнить историю с Пентковским В. М. и появлением процессора Пентиум, идеи и принципы на которых был построен Пентиум разрабатывались в СССР несколькими научными коллективами. Примеров масса.

yury_chekhovich May 6 2018 at 12:00

Согласен с вами, что процесс наверняка многосторонний. Но те примеры, о которых говорите вы, это ближе к настоящему плагиату — воровству идей. То есть, авторы вторичных статей (результатов) наверняка проводили большую работу, чтобы разобраться в идеях, которые были заложены в оригинальных публикациях.
Наше исследование было направлено скорее на обнаружение переводного копи-пейста, то есть случае, когда человек относительно бездумно переводит английский оригинал на русский и публикует его. Таких случаев, как обнаружилось, достаточно много. Такое направление поиска переводов обусловлено спецификой нашего бизнеса — через Антиплагиат так или иначе проходят практически все русскоязычные публикации.
При этом, мы совершенно не исключаем что может быть обнаружено и много случаев противоположной направленности, то есть переводов с русского на английский или другие языки. Вопрос с том, как обеспечить проверку через Антиплагиат иностранных публикаций (хотя бы англоязычных).