Трудности перевода: как найти плагиат с английского языка в русских научных статьях

  • Tutorial
В нашей первой статье в корпоративном блоге компании Антиплагиат на Хабре я решил рассказать о том, как работает алгоритм поиска переводных заимствований. Несколько лет назад возникла идея сделать инструмент для обнаружения в русскоязычных текстах переведенного и заимствованного текста из оригинала на английском языке. При этом важно, чтобы этот инструмент мог работать с базой источников в миллиарды текстов и выдерживать обычную пиковую нагрузку Антиплагиата (200-300 текстов в минуту).

"

В течение 12 лет своей работы сервис Антиплагиат обнаруживал заимствования в рамках одного языка. То есть, если пользователь загружал на проверку текст на русском, то мы искали в русскоязычных источниках, если на английском, то в англоязычных и т. д. В этой статье я расскажу об алгоритме, разработанном нами для обнаружения переводного плагиата, и о том, какие случаи переводного плагиата удалось найти, опробовав это решение на базе русскоязычных научных статей.

Я хочу расставить все точки над «i»: в статье речь пойдёт только о тех проявлениях плагиата, которые связаны с использованием чужого текста. Всё, что связано с воровством чужих изобретений, идей, мыслей, останется за рамками статьи. В тех случаях, когда мы не знаем, насколько правомерным, корректным или этичным было такое использование, мы будем говорить «заимствование текста» или «текстовое заимствование». Слово «плагиат» мы используем только тогда, когда попытка выдать чужой текст за свой очевидна и не подлежит сомнению.

Над этой статьей мы работали вместе с Rita_Kuznetsova и Oleg_Bakhteev. Мы решили, что образы Пиноккио и Буратино служат прекрасной иллюстрацией к проблеме поиска плагиата из иностранных источников. Сразу оговорюсь, что мы ни в коем случае не обвиняем А.Н.Толстого в плагиате идей Карло Коллоди.

Для начала я коротко расскажу, как работает «обычный Антиплагиат». Мы построили своё решение на основе т.н. «алгоритма шинглов», который позволяет быстро находить заимствования в очень больших коллекциях документов. Этот алгоритм основан на разбиении текста документа на небольшие перекрывающиеся последовательности слов определенной длины – шинглы. Обычно используется шинглы длиной от 4 до 6 слов. Для каждого шингла рассчитывается значение хэш-функции. Поисковый индекс формируется как отсортированный список значений хэш-функции с указанием идентификаторов документов, в которых встретились соответствующие шинглы.

Проверяемый документ также разбивается на шинглы. Затем по индексу находятся документы с наибольшим количеством совпадений по шинглам с проверяемым документом.
Этот алгоритм успешно зарекомендовал себя в поиске заимствований как на английском, так и на русском языке. Алгоритм поиска по шинглам позволяет быстро обнаруживать заимствованные фрагменты, при этом он позволяет искать не только полностью скопированный текст, но и заимствования с небольшими изменениями. Подробнее о задаче обнаружения нечетких текстовых дубликатов и методах её решения можно узнать, например, из статьи Ю. Зеленкова и И. Сегаловича.

По мере развития системы поиска «почти дубликатов» становилось недостаточно. У многих авторов возникала потребность быстро повысить процент оригинальности документа, или, говоря иначе, тем или иным способом «обмануть» действующий алгоритм и получить более высокий процент оригинальности. Естественно, самый действенный способ, который приходит на ум, – это переписать текст другими словами, то есть перефразировать его. Однако основной недостаток такого способа – на реализацию уходит слишком много времени. Поэтому нужно что-то более простое, но гарантированно приносящее результат.

Тут на ум приходит заимствование из иностранных источников. Стремительный рост современных технологий и успехи машинного перевода позволяют получить оригинальную работу, которая при беглом взгляде выглядит так, как будто её написали самостоятельно (если не вчитываться внимательно и не искать ошибки машинного переводчика, которые, впрочем, легко исправить).

До недавнего времени обнаружить такой вид плагиата было можно, только обладая широкими знаниями по тематике работы. Автоматического инструмента детектирования заимствований такого рода не существовало. Это хорошо иллюстрирует случай со статьей «Корчеватель: Алгоритм типичной унификации точек доступа и избыточности». Фактически «Корчеватель» — это перевод автоматически сгенерированной статьи «Rooter: A Methodology for the Typical Unification of Access Points and Redundancy». Прецедент был создан искусственно с целью проиллюстрировать проблемы в структуре журналов из списка ВАК в частности и в состоянии российской науки в целом.

Увы, но переведённая работа «обычным Антиплагиатом» не нашлась бы – во-первых, поиск осуществляется по русскоязычной коллекции, а во-вторых, нужен иной алгоритм поиска таких заимствований.





Общая схема алгоритма


Очевидно, что если и заимствуют тексты путем перевода, то преимущественно из англоязычных статей. И происходит это по нескольким причинам:

  • на английском языке написано невероятное количество всевозможных текстов;
  • российские ученые в большинстве случаев в качестве второго «рабочего» языка используют английский;
  • английский – общепринятый рабочий язык для большинства международных научных конференций и журналов.

Исходя из этого, мы решили разрабатывать решения для поиска заимствований с английского на русский язык. В итоге получилась вот такая общая схема алгоритма:

  1. Русскоязычный проверяемый документ поступает на вход.
  2. Выполняется машинный перевод русского текста на английский язык.
  3. Происходит поиск кандидатов в источники заимствований по проиндексированной коллекции англоязычных документов.
  4. Производится сопоставление каждого найденного кандидата с английской версией проверяемого документа – определение границ заимствованных фрагментов.
  5. Границы фрагментов переносятся в русскоязычную версию документа. При завершении процесса формируется отчёт о проверке.

Шаг первый. Машинный перевод и его неоднозначность


Первая задача, которую нужно решить после появления проверяемого документа, – это перевод текста на английский язык. Для того, чтобы не зависеть от сторонних инструментов, мы решили использовать готовые алгоритмические решения из открытого доступа и обучать их самостоятельно. Для этого необходимо было собрать параллельные корпуса текстов для пары языков «английский – русский», которые есть в открытом доступе, а также попробовать собрать такие корпуса самостоятельно, анализируя веб-страницы двуязычных сайтов. Разумеется, качество обученного нами переводчика уступает лидирующим решениям, но ведь от нас никто и не требует высокого качества перевода. В итоге удалось собрать около 20 миллионов пар предложений научной тематики. Такая выборка подходила для решения стоявшей перед нами задачи.

Реализовав машинный переводчик, мы столкнулись с первой трудностью – перевод всегда неоднозначен. Один и тот же смысл может быть выражен разными словами, может меняться структура предложения и порядок слов. А так как перевод делается автоматически, то сюда накладываются ещё и ошибки машинного перевода.

Чтобы проиллюстрировать эту неоднозначность, мы взяли первый попавшийся препринт с arxiv.org



и выбрали небольшой фрагмент текста, который предложили перевести двум коллегам с хорошим знанием английского языка и двум известным сервисам машинного перевода.



Проанализировав результаты, мы сильно удивились. Ниже видно, насколько разными получились переводы, хотя общий смысл фрагмента сохранился:



Мы предполагаем, что текст, который на первом шаге нашего алгоритма мы автоматически перевели с русского на английский, ранее мог быть переведен с английского на русский. Естественно, каким именно образом был осуществлён исходный перевод, нам неизвестно. Но даже если бы мы это знали, шансы получить в точности исходный текст были бы ничтожно малы.

Здесь можно провести параллель с математической моделью «зашумленного канала» (noisy channel model). Допустим, какой-то текст на английском прошёл через «канал с шумом» и стал текстом на русском языке, который, в свою очередь, прошёл ещё через один «канал с шумом» (естественно, это уже был другой канал) и стал на выходе текстом на английском языке, который отличается от оригинала. Наложение такого двойного «шума» – одна из основных проблем поставленной задачи.



Шаг второй. От точных совпадений до поиска «по смыслу»


Стало очевидно, что, даже имея переведенный текст, корректно найти в нём заимствования, осуществляя поиск по коллекции источников, состоящей из многих миллионов документов, обеспечивая достаточную полноту, точность и скорость поиска, при помощи традиционного алгоритма шинглов невозможно.

И тут мы решили уйти от старой схемы поиска, основанной на сопоставлении слов. Нам однозначно нужен был другой алгоритм детектирования заимствований, который, с одной стороны, мог бы сопоставлять фрагменты текстов «по смыслу», а с другой, оставался таким же быстрым, как алгоритм шинглов.

Но что же делать с шумом, который дает нам «двойной» машинный перевод в текстах? Будут ли обнаружены тексты, порождённые разными переводчиками, как на примере ниже?



Поиск «по смыслу» мы решили обеспечить через кластеризацию английских слов так, чтобы семантически близкие слова и словоформы одного и того же слова попали в один кластер. Например, слово «beer» попадет в кластер, который также содержит следующие слова:

[beer, beers, brewing, ale, brew, brewery, pint, stout, guinness, ipa, brewed, lager, ales, brews, pints, cask]

Теперь перед разбиением текстов на шинглы необходимо заменить слова на метки классов, к которым эти слова относятся. При этом за счёт того, что шинглы строятся с перекрытием, можно не обращать внимания на определенные неточности, присущие алгоритмам кластеризации.

Несмотря на погрешности кластеризации, поиск документов-кандидатов происходит с достаточной полнотой – нам достаточно, чтобы совпало всего несколько шинглов, и по-прежнему с высокой скоростью.

Шаг третий. Из всех кандидатов победить должны самые достойные


Итак, документы-кандидаты на наличие переводных заимствований найдены, и можно приступить к «смысловому» сравнению текста каждого кандидата с проверяемым текстом. Здесь нам шинглы уже не помогут – этот инструмент для решения этой задачи слишком неточен. Мы попробуем реализовать такую идею: каждому фрагменту текста поставим в соответствие точку в пространстве очень большой размерности, при этом будем стремиться к тому, чтобы фрагменты текстов, близкие по смыслу, были представлены точками, расположенными в этом пространстве неподалеку (были близки по некоторой функции расстояния).

Рассчитывать координаты точки (или чуть более научно – компоненты вектора) для фрагмента текста мы будем с помощью нейронной сети, а обучать эту сеть будем с помощью данных, размеченных асессорами. Роль асессора в этой работе – создать обучающую выборку, то есть указать для некоторых пар фрагментов текста, являются ли они близкими по смыслу или нет. Естественно, что чем больше удастся собрать размеченных фрагментов, тем лучше будет работать обученная сеть.

Ключевая задача во всей работе — правильно выбрать архитектуру и обучить нейронную сеть. Наша сеть должна отображать текстовый фрагмент произвольной длины в вектор большой, но фиксированной размерности. При этом она должна учитывать контекст каждого слова и синтаксические особенности текстовых фрагментов. Для решения задач, связанных с какими-либо последовательностями (не только текстовыми, но и, например, биологическими) существует целый класс сетей, которые называются рекуррентными. Основная идея этой сети состоит в том, чтобы получать вектор последовательности, итеративно добавляя информацию о каждом элементе этой последовательности. На практике такая модель имеет множество недостатков: её сложно тренировать, и она достаточно быстро «забывает» информацию, которая была получена из первых элементов последовательности. Поэтому на основе этой модели было предложено множество более удобных архитектур сетей, которые исправляют эти недостатки. В нашем алгоритме мы используем архитектуру GRU. Эта архитектура позволяет регулировать, сколько информации должно быть получено из очередного элемента последовательности и сколько информации сеть может «забыть».

Для того, чтобы сеть хорошо работала с разными видами перевода, мы обучали её как на примерах ручного, так и машинного перевода. Сеть обучалась итеративно. После каждой итерации мы изучали, на каких фрагментах она ошибалась сильнее всего. Такие фрагменты мы также давали сети для обучения.

Интересно, но использование готовых нейросетевых библиотек, таких как word2vec, успеха не принесло. Их результаты мы использовали в работе в качестве оценки базового уровня, ниже которого опускаться было нельзя.

Стоит отметить ещё один немаловажный момент, а именно — размер фрагмента текста, который будет отображаться в точку. Ничто не мешает, например, оперировать с полными текстами, представляя их в виде единого объекта. Но в этом случае близкими будут только тексты, полностью совпадающие по смыслу. Если же в тексте будет заимствована только какая-то часть, то нейронная сеть расположит их далеко, и мы ничего не обнаружим. Хорошим, хотя и не бесспорным, вариантом является использование предложений. Именно на нём мы решили остановится.

Давайте попробуем оценить, какое количество сравнений предложений нужно будет выполнить в типичном случае. Допустим, и проверяемый документ, и документы кандидаты содержат по 100 предложений, что соответствует размеру средней научной статьи. Тогда на сравнение каждого кандидата нам потребуется 10 000 сравнений. Если кандидатов будет всего 100 (на практике из многомиллионного индекса иногда поднимаются и десятки тысяч кандидатов), то нам потребуется 1 миллион сравнений расстояний для поиска заимствований всего в одном документе. А поток проверяемых документов часто переваливает за 300 в минуту. При этом сам по себе расчёт каждого расстояния – тоже не самая простая операция.

Чтобы не сравнивать все предложения со всеми, используем предварительный отбор потенциально близких векторов на основе LSH-хэширования. Основная идея этого алгоритма в следующем: каждый вектор мы умножаем на некоторую матрицу, после чего запоминаем, какие компоненты результата умножения имеют значение больше нуля, а какие – меньше. Такую запись про каждый вектор можно представить двоичным кодом, обладающим интересным свойством: близкие векторы имеют схожий двоичный код. Таким образом, при правильном подборе параметров алгоритма мы сокращаем количество требуемых попарных сравнений векторов до небольшого числа, которое можно провести за приемлемое время.

Шаг четвертый. «Чтобы не нарушать отчётность…»


Отобразим результаты работы нашего алгоритма – теперь при загрузке пользователем документа можно выбрать проверку по коллекции переводных заимствований. Результат проверки виден в личном кабинете:



Практическая проверка – неожиданные результаты


Итак, алгоритм готов, проведено его обучение на модельных выборках. Удастся ли нам найти что-то интересное на практике?

Мы решили поискать переводные заимствования в крупнейшей электронной библиотеке научных статей eLibrary.ru, основу которой составляют научные статьи, входящие в Российский индекс научного цитирования (РИНЦ). Всего мы проверили около 2,5 млн научных статей на русском языке.

В качестве области поиска мы проиндексировали коллекцию англоязычных архивных статей из фондов elibrary.ru, сайты журналов открытого доступа, ресурс arxiv.org, англоязычную википедию. Общий объем базы источников в боевом эксперименте составил 10 миллионов текстов. Может показаться странным, но 10 миллионов статей – это очень небольшая база. Количество научных текстов на английском языке исчисляется, как минимум, миллиардами. В этом эксперименте, располагая базой, в которой находилось менее 1% потенциальных источников заимствований, мы считали, что даже 100 выявленных случаев будут удачей.

В результате мы обнаружили более 20 тысяч статей, содержащих переводные заимствования в значительных объемах. Мы пригласили экспертов для детальной проверки выявленных случаев. В результате удалось проверить чуть меньше 8 тысяч статей. Результаты анализа этой части выборки представлены в таблице:

Тип срабатывания Количество
Заимствование 2627
Переводные заимствования
(текст переведен с английского языка и выдан за оригинальный)
921
Заимствования «наоборот» – из русского языка в английский (определялось по дате публикаций) 1706
Легальные заимствования 2355
Двуязычные статьи
(работы одного и того же автора на двух языках)
788
Цитаты законов
(использование формулировок законов)
1567
Cамоцитирование
(переводное цитирование автором своей же англоязычной работы)
660
Ошибочные срабатывания
(из-за некорректного перевода или ошибки нейронной сети)
507
Другое
(проверяемые статьи содержали фрагменты на английском языке, или сложно отнести к какой-либо категории)
1540
Всего 7689

Часть результатов относится к легальным заимствованиям. Это переводные работы тех же авторов или выполненные в соавторстве, часть результатов — корректные срабатывания одинаковых фраз, как правило, одних и тех же юридических законов, переведённых на русский язык. Но значительная часть результатов — это некорректные переводные заимствования.

Исходя из анализа, можно сделать несколько интересных выводов, например, о распределении процента заимствований:



Видно, что чаще всего заимствуют небольшие фрагменты, однако встречаются работы, заимствованные целиком и полностью, включая графики и таблицы.



Из гистограммы, приведенной ниже, видно, что заимствовать предпочитают из недавно опубликованных статей, хотя встречаются работы, где источник датируется, например, 1957 г.

Мы использовали метаданные, предоставленные eLibrary.ru, в том числе о том, к какой области знания относится статья. Используя эту информацию, можно определить, в каких российских научных областях чаще всего заимствуют путём перевода с английского.



Самый наглядный способ убедиться в корректности результатов – это сравнить тексты обеих работ – проверяемой и источника, положив их рядом.



Сверху – работа на английском языке с arxiv.org, снизу – русскоязычная работа, которая целиком и полностью, включая графики и результаты, является переводом. Соответствующие блоки отмечены красным. Примечательным является и тот факт, что авторы пошли ещё дальше – оставшиеся куски оригинальной статьи они тоже перевели и опубликовали ещё пару «своих» статей. На оригинал авторы решили не ссылаться. Информация обо всех найденных случаях переводных заимствований передана в редакции научных журналов, выпустивших соответствующие статьи.

Таким образом, результат не мог нас не порадовать – система «Антиплагиат» получила новый модуль для обнаружения переводных заимствований, который проверяет русскоязычные документы теперь и по англоязычным источникам.

Творите собственным умом!
«Антиплагиат»
112,00
Компания
Поделиться публикацией

Комментарии 64

    0
    Я так понимаю, теперь единственный шанс начинающего плагиатора англоязычных статей — обучить свою нейросеть генерить статьи с минимальным процентом заимствования и максимальной оригинальностью :)
      +1
      Английский в этом случае не очень и нужен — можно генерировать сразу на русском. Мы проводили пару лет назад проводили исследование по поиску сгенерированных русскоязычных статей. Пока это не тренд.
        +1
        А как Вы искали сгенерированные статьи?
          +1
          Возможно, расскажем об этом отдельно. Там результат получился отрицательный — ничего интересного не нашли — поэтому статья, скорее всего, получится не очень интересной. Или, что более реально, попробуем обновить результаты с учетом вновь вышедших статей и расскажем про оба эксперимента сразу.
            0
            По статьям, конечно, следовало ожидать отрицательного результата. А вообще сгенерированными «дурацкими» текстами пользуются SEO-шники, которым надо хоть какой-то уникальный контент положить на сайт. Не пробовали их искать?
              0
              Банально, но вопрос упирается в рынок. SEO — другой сегмент, которым мы пока не занимаемся. Допустим, мы нашли 100500 машинных текстов на различных сайтах. Сейчас у нас нет механизма, чтобы монетизировать эту информацию. А затраты на такой расчет будут порядочными.
        0
        Теперь единственный шанс начинающего плагиатора англоязычных статей — плагиатить статьи на других языках. Немецкий/французский/японский…
          +1
          Думаю, до них тоже доберутся)
        +1
        Круто! Вы с «Диссернет» на эту тему общались?
        +3
        Не вводите систему так быстро, а то мне тут скоро диплом защищать)
          0
          :) Кто предупрежден…
          +1
          В бытность мою аспирантом, часто «в нагрузку» к практике давали проверять горы дипломных работ студентов… антиплагиат тогда только появился и работал хорошо если на троечку, но и тогда сильно упрощал работу.
          Хотелось, естественно, большего, поэтому я брал блок текста, брал оттуда несколько ключевых позиций(имена собственные, редкие наименования и прочее) и затем тупо гуглил тексты, имеющие тот же набор ключей. Сейчас это можно назвать прообразом тэгов.
          Так вот… совпадение по 5 и более ключам почти гарантированно давало нахождение плагиата.
          Имхается мне, что при проверке переводного плагиата этот способ можно использовать для упрощенного поиска, если брать термины, имеющие однозначное толкования в обоих языках. Более того, подобный способ даст возможность сделать грубый и быстрый поиск плагиата вообще с любого на любой язык.

          Возьмем пример автора темы…
          Lamport clocks — Часы Лэмпорта
          Markov — Марков
          rasterization — растрирование
          stochastic — стохастический
          virtual machine — виртуальная машина

          перевод у всех выражений — однозначный
          сумма этих выражений выводит на указанный результат даже простым запросом в гугле на первой странице
          проблема только в автоматизации -)
            0
            В целом, вы правы, но как всегда есть несколько нюансов.
            1. Автоматизация. На описанный вами анализ требуется примерно от 30 до 60 минут на работу. Делал лично, в том числе, и до того как мы разработали Антиплагиат. С переводом чуть дольше, но не принципиально. Средний вуз защищает в год несколько тысяч студентов. Как правило сроки сжатые и требовать текст ВКР больше чем за неделю до принятия решения о допуске получается далеко не всех. Получаем, что нужно за 1 неделю выполнить работу пусть даже на 1 тысячу человеко-часов. Получаем 25 человек в течение недели по 8 часов. При этом у этих людей обычных обязанностей никто отменяет. А ведь есть вузы с выпуском по 10 тысяч студентов.
            2. Есть базы, которые не гуглятся, а там ведь тоже хочется искать.
            3. Результат проверки нужно сохранять и передавать коллегам, то есть еще необходимо будет разработать методологию всех этих действий.
            Вывод: проще и лучше Антиплагиатом.
              0
              Я дамаю, тут немного другой алгоритм предложен. Есть корпус «однозначных переводов». Дальше при помощи гугл или гугл-наука мы ищем по методике шинглов тексты, где высок процент совпадения. Дальше текст парсится из источника и анализируется по вашей методике. Т.е. вам не надо иметь огромную базу текстов под рукой, а просто написать дополнительный алгоритм поиска, который еще больше будет покрывать случаи возможного плагиата.
                0
                Этот вариант возможен, но нужно сделать этот корпус «однозначных переводов». Это первая проблема. Проблема в том, что перевод неоднозначен — см. пример в статье. И неоднозначен он по очень разным причинам. Одна из них контекст. Одно и то же предложение в разных контекстах будет однозначно переведено по-разному.
                Вторая проблема, в том, что за обращение к гуглу нужно платить. И платить придется много.
                Но в принципе схема рабочая, мы ее тестировали, и, вероятно, скоро запустим как дополнение к действующей, так как в закрытых коллекциях гугл не поможет.
              +1
              А не великоват риск ложноположительных? Скажем, я написал пару лет назад статью про эволюцию хитинсинтаз эукариот, а за несколько лет до того некая A.-C. Zakrzewski, PhD написала статью про eukaryotic chitin synthase phylogeny. А до неё статьи примерно про то же писали ещё несколько немцев. Что характерно, в работах даже наборы данных частично перекрываются и методы похожие, не говоря уж о введении и прочей художественной литературе про то, что хитин и его синтез — интересные штуки. Содержательные различия только в том, что в каждой новой статье добавляются новые последовательности и, как правило, авторы концентрируются на разных группах организмов. Все честно друг друга цитируют, никто никого намеренно не плагиатит.

              Это, в общем, нормальный научный процесс. Тема часто не закрывается единственным исследованием и появление даже очень сходных по методологии и результатам работ с разницей в несколько лет — нормальное дело. Без полнотекстового поиска и однозначного сопоставления перетащенных абзацев как-то рискованно.
                0
                Ничего страшного не произойдет. То же самое может быть и с русскоязычными источниками. Для того, чтобы в таких хитросплетениях разобраться нужны эксперты. В любом случае, система не определяет корректность и правомерность обнаруженного заимствования. Это должен делать человек.
                Какое-то количество ложноположительных конечно будет, но мы относим к ложноположительным те случаи, когда человек (эксперт) говорит, что обнаруженный фрагмент не является переводом источника.
                  0
                  Я спорил не с логикой антиплагиата вообще, а с упомянутым в первом комменте методом «ищем статью по пяти-семи узкоспециальным ключевым словам и если такая есть — с немалой вероятностью русский текст нагло покраден оттуда». У вас-то, как я понимаю, полный текст той и другой статьи парсится и ищутся совпадающие (выше какого-то порога) протяжённые участки?
              0
              Информация обо всех найденных случаях переводных заимствований передана в редакции научных журналов, выпустивших соответствующие статьи.


              А какая-нибудь реакция от них уже последовала?
                0
                Пока предварительная. Возможно будет о чем рассказать в дальнейшем.
                –5
                Никогда искренне не понимал как можно просить детей писать об одном и том же но разными словами? они ведь на одну и туже тему пишут. И вроде по умолчанию на одном и том же языке. Так с фигали у них в принципе должен получаться другой текст?? Как в анекдоте про Вовочку: «но ведь учительница то у нас одна!».
                Да и вообще проверять надо знания, а не диссертации и дипломные… Да и зачем вообще тогда в принципе в конце любой дипломной работы ссылки на источники? У нас либо реально своя работа, либо переписанная из источников. Ну так если нас в любом случае заставляют указывать эти источники (априори втюривая невозможность дойти до каких либо вещей своей головой) так зачем тогда вообще проверять такую работу на плагиат, если она на самом деле чуть более чем на 90% из него и состоит по определению??

                Хотят чтобы Россия шла к великому будущему, а просят — перевоспроизводить (извените) говно из прошлого, причём своими словами и так чтобы оно не было на него похоже… Век, блин, открытых знаний…
                  +1

                  По моему личному опыту, если попросить десять умных людей написать работу на одну и ту же тему, получится десять разных работ. Каждый пропускает работу через себя и вносит что-то своё. В гуманитарных науках в особенности.

                  +1
                  Во-первых, речь идет научных статьях, а не о квалификационных работах. Вы ведь не отрицаете, что в них текст должен быть в значительной степени оригинальным.
                  Что же касается Выпускных Квалификационных Работ (полагаю, Вы о них), как и квалификационных работ других типов, то основная их цель — это не проверка ЗНАНИЙ. Для этого есть экзамены, при сдаче которых, как раз и не требуется оригинальности.
                  Квалификационные работы предназначены для подтверждения квалификации. Они предполагают УМЕНИЕ (прочувствуйте отличие) соискателя самостоятельно выполнить работу. На оригинальную тему. Ссылки на источники в конце совершенно не предназначены для того, чтобы указать откуда работа списана, а как раз для того, чтобы соискатель смог продемонстрировать чем его результаты отличаются от того, что получено ранее.
                  И крайне странно предполагать, что для великого будущего России от ее граждан потребуется только умение копипастить.
                    0
                    «а не о квалификационных работах. »
                    открываем вкладку «о системе» и видим: "… по написанию…… дипломных работ..."
                    дипломная — один из видов выпускной квалификационной работы. Да я именно о том для чего ваша площадка себя рекомендует.

                    Если вы напишите то что написали вы в этом комментарии на главной странице — учителя которые проверяют работы учеников через ваш сервис хотя бы задумаются… А пока что — «85% студентов учатся в ВУЗах, использующих систему АНТИПЛАГИАТ».
                    Вот только прикол в том что вузам не выгодно давать детям работу которую учителя бы сами не «прошли» в доль и поперёк. Потому что в новые работы ещё вникать надо, время тратить…
                    чем его результаты отличаются от того, что получено ранее.
                    Вот именно что ничем. Даже само определение слова «реферат» — краткий доклад по определённой теме, в котором собрана информация из одного или нескольких источников, мягко намекает что именно что компиляция то и нужна.
                    УМЕНИЕ самостоятельно выполнить работу.
                    Вот как раз это и есть бич современного времени. Каким именно образом проверить это самое «умение» если этот самый соискатель приносит готовую работу? правильно* проверить не украл ли он её.
                    * а вот и НЕТ. Единственный способ проверить «умение» — заставить человека воспроизвести то что именно написано в его творческих трудах с изменёнными условиями. т.е. проверка на практике.
                    И вообще разве «умения» тем пластом знаний которые просто достаточно хорошо закрепились в подкорке чтобы их можно было воспроизводить? Т.е. по сути всё равно это всё повторение.
                    Повторю вопрос: как можно просить детей писать об одном и том же разными словами?
                    Если дети для получения этих ваших умений используют одни и теже книги — будут ли в письменном виде они отличаться друг от друга? даже если будут — это произойдёт лишь первые пару раз — далее хочешь или не хочешь синонимы кончатся.
                      0
                      Извините, но то, что Вы пишите мало касается обсуждаемой и моих комментариев.
                    +2
                    Вопрос к авторам: на картинке с долей заимствования представлены преимущественно гуманитарные области. Из технических/естественнонаучных одна только медицина. Всякие там биологи/химики/математики правда настолько меньше воруют или их в анализе было меньше? Что получается, если нормировать это дело на количество статей их соответствующей области в наборе данных?
                      0

                      Математику сложнее автоматизировать. Если в формуле поменять местами 2 символа, то смысл может поменяться кардинально.
                      Или, например, одна из статей по математике: Мы проводили выч.эксп. и случайно нашли контрпример к теореме Такого-то. Вот он: тут пять чисел
                      Вся статья занимает меньше трети страницы.

                        0
                        А там покража автоматизированная, вы думаете? Не пробовал, но мне кажется, что проще и эффективнее нанять для писания кого-нибудь умеренно компетентного (студента или аспиранта), чем возиться с системой автоматического плагиата.

                        И в любом случае, к естественным наукам этот аргумент неприменим. Не знаю, что там за работа в последнем примере из статьи, но я практически уверен, что мог бы при желании аналогичным образом разделить одну хорошую статью из, например, NAR на несколько неплохих статей в какой-нибудь провинциальный «Вестник».
                        +1
                        Спасибо за совет. Действительно для того чтобы сравнивать области наук, нужно нормировать на количество статей. Я думаю, что состав десятки не поменяется, но веса могут измениться. Кстати, далеко не все области науки можно заимствовать с английского. Есть темы, которые развиваются только на русском.
                        0
                        В прошлом году наши студенты проверяли свои дипломы в Антиплагиате. Замучались. В списке литературы находит заимствования, длинные термины тоже помечает. Шапку на титульнике «Министерство образования… и т.д.» и то отмечает. Это нормально?
                        Специальность техническая.
                          0
                          Во-первых, вопрос к вам: а почему проверяли студенты? Проверять должны были преподаватели.
                          Во-вторых, предполагаю, что замучались подгонять процент под норматив. Это отдельная проблема. Рекомендую прочитать эту и эту статьи.
                          В-третьих, с апреля этого года запустили в системе функцию обнаружения общеупотребительных выражений, то есть как раз длинных терминов, названий организаций и т.п.
                          Правда все это темы отдельных постов на Хабр.
                            0
                            Это я так выразился. Каждый отдельный студент проверял, конечно же через руководителя диплома.
                            Спасибо, почитаю.
                            Я безо всяких претензий написал. Просто при случае поинтересовался — система пока так работает или мы что-то неправильно делали. Всего этого процесса лично я только немного касался.
                              0
                              Скорее всего проблема в том, что от студентов требуют выполнения «норматива по проценту». А как он достигается, никого не интересует. Вот и получается, что «под одну гребенку» попадают и копипащенные у других студентов тексты, и собственные статьи, которые опубликованы до защиты диплома.
                              Со списком литературы особая проблема — заимствования в нем нужно анализировать особым образом.
                          0

                          Было бы интересно узнать, применяются ли подобные системы за рубежом и если да, то какие.

                            0
                            Конечно, применяются. Более того, за рубежом этой темой начали заниматься намного раньше — в 96-97-м годах. Вот наиболее распространенная зарубежная система. Надо сказать, что Антиплагиат обязан ей своим возникновением. Когда в 2005 году в TurnItIn обратились с вопросом, могут ли они сделать поиск на русском языке, они ответили, что русскоязычный рынок их не интересует. И мы стали делать для российского рынка.
                              0
                              Насколько я знаю как минимум в Германии, Англии и Франции в системах образования(школы-университеты) они достаточно мало распространены. Там просто немного другой подход к дипломным, курсовым, сочинениям и т.д. и т.п. Меньше учеников/студентов на преподавателя, более «уникальные» темы, больше времени на «защиту» в виде общения с спреподавателем/классом/группой.

                              А вот научные работы(в том числе и кандидатские-докторские) проверять начали активно лет десять назад. Причём не только новые, но и те, которые были сданы десятилетия назад. В связи с чем даже отнимали научные степени и было пару громких скандалов с политиками у которых их отобрали.
                                0
                                В Германии есть несколько собственных сервисов. Степень проникновения этих сервисов в вузы не изучал, но знакомые жаловались, что проверяют :).
                                В Великобритании проверяют всё. Именно с помощью TurnItIn. При этом подход очень жесткий — одного выявленного случая хватает не просто для отчисления, а для того, чтобы после этого не быть принятым ни в один британский вуз.
                                Есть французский сервис, степень охвата не знаю.
                                Зарубежный подход действительно отличается от нашего. Но так, что заимствовать могут только очень безбашенные люди. Одного случая хватает для того, чтобы оказаться вне профессии навсегда.
                                  +1
                                  Я может быть не совсем точно выразился. Я о том что насколько мне известно в школах-универах нет массовой проверки работ на плагиаты. Проверяют только если действительно есть какие-то подозрения. И да, если в универе на таком поймали, то последствия могут быть очень плачевные. А вот научные работы с недавнего времени почти все прогоняют через систему.
                                    0
                                    Соглашусь, что проверка, скорее всего, не массовая, а на усмотрение преподавателя. Но наказание такое, что десять раз подумаешь, стоит ли рисковать. Тем более, что все более распространенной практикой оказывается размещение выпускных работ в открытом доступе.
                              0

                              Увы, бесплатная версия антиплагиата давно стала бесполезной — в отличие от других систем, которые ищут во всех открытых источниках, антиплагиат ищет исключительно в источниках, не вошедших в платные базы. В итоге заимствования, за исключением простого переписывания рефератов из баз, определяться перестали, заведомый плагиат, который легко гуглится, определяет как оригинальный текст. Платная версия стоит совершенно конских по сравнению с зарплатой преподавателя денег. В итоге, если универ не проплатил антиплагиат.вуз (причем для всех сотрудников, а не только для редакции журналов и имеющих дело с диссертациями), приходится использовать другие системы и рекомендовать студентам и руководству именно их.

                                0
                                Коллега, если подскажете бесплатный сервис, который проверяет по платным источникам, буду крайне признателен. Все известные мне бесплатные сервисы проверяют именно по бесплатному интернету и с помощью внешних поисковиков. Как правило, все российские университеты охвачены теми или иными платными системами. Чаще всего — АП. Наша политика не ограничивает количество пользователей в организации. Как правило, это «инициатива» самого вуза.
                                  0

                                  Etxt прекрасно определяет заимствования как с лежащих в открытом доступе диссертаций (а это все с 2014 года), так и со статей открытого доступа в elibrary. Антиплагиат этих заимствований не находит, если не подключать соответствующие платные базы, проверено многократно. Поэтому для проверки студенческих работ простым преподавателем он бесполезен — 80 процентов заимствований он не замечает (причем специально не замечает, чтобы заставить отстегнуть бабло). Ваша политика ограничивает число проверок, входящих в вузовский пакет, что ничуть не лучше ограничений по числу пользователей. Если вуз не заплатил очень много денег — дать доступ всем он не может, быстро закончится лимит проверок. В итоге имеем то, что имеем — проверять что-то может только редакционный отдел, диссоветы и библиотека (один раз дипломную работу). Несколько лет назад пользоваться было можно — поиск был по всем открытым источникам, преподавателям давали индивидуальный доступ по запросу и справке с места работы. Сейчас нет — и открытые источники игнорируются, и преподавателей посылают в стиле "ваш вуз купил у нас антиплагиат.вуз, идите к руководству". А что в этот "вуз" никого не пускают — кого это волнует?

                                    0
                                    Все правильно,
                                    с лежащих в открытом доступе диссертаций
                                    . Антиплагиат, тоже находит эти диссертации. Можете проверить.
                                    С elibrary несколько сложнее — есть соглашение, что мы не грузим сайт индексированием напрямую — с деньгами это никак не связано.
                                    (причем специально не замечает, чтобы заставить отстегнуть бабло).
                                    — такие утверждения требуют доказательств. Как руководитель компании могу заверить, что утверждение не соответствует действительности абсолютно. Не скрою, что подобные идеи периодически обсуждаются, но порчей результатов поиска мы не занимаемся. Иногда даже (в силу особенностей обновления версий) бывает, что бесплатный показывает результаты чуть лучше, чем платный (на коллекции интернет).
                                    Если ваш вуз не дает вам пользоваться системой, обратитесь к нам в поддержку, мы попробуем решить вашу проблему.
                                      +1
                                      Можете проверить
                                      Ну неужели вы думаете, я не проверял? Антиплагиат я начал использовать с 2006 года, одним из первых в своём вузе. Опыта более чем достаточно. И именно в последние годы его стало очень легко обойти, используя открытые источники. Неоднократно возникала ситуация, когда высокие показатели оригинальности выдавались для работы, представляющей собой копипаст диссертации. Причём до смешного доходит: находятся совпадения с отрывками диссертации на пиратских сайтах типа диссеркэта (то есть заведомо вторичных источниках, куда диссертация попадает спустя время после защиты), а с полным текстом на сайте диссовета — через раз в лучшем случае. С elibrary та же ситуация — большинство статей из открытого доступа можно спокойно брать и копировать, антиплагиат молчит. Etxt же видит всё, что проиндексировано поисковиками, в том числе и эти источники. Какие здесь причины, организационные, технические или маркетинговые, на самом деле не важно. Главное, что студент без труда может найти «беспалевный» источник. И с курсовыми-дипломами это ещё полбеды, а вот когда студенты статьи на конференции и кружки готовят — это просто критический недостаток.
                                      Если ваш вуз не дает вам пользоваться системой, обратитесь к нам в поддержку, мы попробуем решить вашу проблему.
                                      Спасибо за предложение. Мне в следующем году опять конференцию проводить, вероятно, придётся воспользоваться. Но всё равно, увы, полезность системы уже не та, что раньше.
                                        0
                                        На самом деле общая проблема выглядит так, если ориентироваться на какой-то бесплатный сервис, то ВСЕГДА можно будет найти способ обнаружить то, что не проиндексировано. Я могу предложить десяток способов (не делаю этого здесь по этическим соображениям, чтобы не получилось как в анекдоте про «занавесками не вытираться») как найти контент, который не ищется etxt.
                                        Нет, пожалуй, об одном все-таки расскажу — он описан в статье выше. Берем англоязычную статью, переводим, и, вуаля. все бесплатные сервисы отдыхают. Равно как и большинство платных.

                                        По поводу конференции, напишите мне. Подумаем, что можно сделать.
                                          0
                                          Обнаружить не проиндексированное можно всегда. Особенно велика доля непроиндексированного, если не пожалеть немного денежек и скачать источник с платного ресурса. Это всё понятно. Но речь идёт по сути о том, чтобы искать под фонарём — искать в студенческих работах заимствования из находящихся в открытом доступе научных работ более высокого уровня.

                                          Кстати, насчёт перевода — а в сторону украинского языка вы не думали? Работ на украинском доступна в сети масса, машинный перевод с него получается практически идеальным ввиду близости языков. В моей области спасает то, что заимствовать не даёт национальная специфика, но в других потенциал просто огромный.
                                            0
                                            Насчет украинского думали, но пока в приоритете другие языки стран СНГ. Скорее всего, до украинского доберемся к следующей сессии. С ним все будет просто.
                                  0
                                  Кстати, почему-то бесплатная версия используется сейчас с интенсивностью от 150 до 200 проверок в минуту. Могу предположить, что не для всех она одинаково бесполезна ;).
                                    0
                                    Только у одного меня сейчас на потоке сдают курсовые около 100 студентов. И работы они проверяют не по одному разу, пока не получат нужный результат оригинальности. Для них это, без сомнения, полезно — если Антиплагиат показал заимствования, то более тщательная проверка тем более покажет. А усилия минимальны. Я же, получив пачку работ с протоколами проверки, в которых всё нормально, уже думаю: а не пойти ли сразу вводить капчи в etxt, чтобы чуть получить результат чуть большими усилиями, но зато реальный, а не за вычетом самых качественных источников заимствования.
                                      0
                                      Если не сложно, напишите лично о каком вузе идет речь. Здесь сразу куча проблем: почему работы проверяют студенты? зачем их заставляют подгонять под процент? Это профанация проверки на заимствования. Чуть выше в комментариях давал ссылки на наши статьи, где обсуждаем почему так организовывать проверки нельзя.
                                        +1
                                        Название вуза писать не буду, не слишком этично выносить проблемы моих взаимоотношений с текущим работодателем к посторонним людям. Но это далеко не одного вуза практика и это далеко не всегда связано с подгонкой под процент (на вопрос про который я всегда отвечал по вашим методичкам). Проверяются потенциальные источники заимствования на предмет «можно ли списать». Проверяются заведомо списанные куски на предмет «достаточно ли вот этих изменений, чтобы система не нашла совпадения». Да и с процентом тоже — ну какой студент будет отправлять работу в неизвестность на проверку преподавателю? Все всё равно проверяют и всё равно занимаются «повышением процента», даже если сто раз сказано, как надо делать правильно. И протоколы несут не потому, что я от них требую, а потому что считают это доказательством самостоятельности своей работы. Объяснения здесь работают крайне плохо.

                                        Ну и кроме того, мы же сейчас не о теории «как правильно». Мы о том, откуда 150-200 проверок в минуту. Я не думаю, что сильно погрешу против истины, если скажу, что существенную часть дают авторы, проверяющие и перепроверяющие собственные работы и потенциальные источники заимствования.
                                          +1
                                          По поводу нагрузки вы правы — она именно от этого.
                                          По поводу этики отношений с работодателем, смотрите сами. Я не предлагаю публиковать название вуза здесь и не планирую ссылаться, но ситуация такова, что нам (сотрудникам Антиплагиата) приходится проводить большой объем разъяснительной работы. Нам обидно, когда инструмент используется не по назначению или неправильно. И есть много прецедентов, когда такие усилия достигали цели. Поэтому и предлагаю помощь, не обещая, впрочем, что она будет результативной.
                                            0
                                            Стоит отметить, что сам процесс работы по «повышению процента» закрепляет часть информации в голове студента… причем как бы не лучше чем написание шпаргалок… много раз в этом убеждался… один после моего пятого заворота работы просто сел и сам все написал, ибо разобрался в теме.
                                              0
                                              Наверное, что-то закрепляет, но вот оптимальный ли это путь для закрепления информации? Видимо нужны исследования.
                                                0
                                                Учитывая, что студенты эти доучились до дипломного курса, искать оптимальный путь для закрепления информации скорее всего уже поздно =) Возможность же запомнить хоть часть необходимого — уже плюс.

                                                  +1
                                                  Моя практика показывает, что при перелицовывании текста в голове у студентов остается мало. И доучиваться до выпускного курса они должны с пониманием, что переписывание не поможет. В рамках дипломной работы студент должен не запоминать, а создавать. Это принципиально.
                                                    0
                                                    Кто бы спорил, однако переформатировать студента за время написания диплома из позиции запоминать-выдавать переосмысленное запомненное в позицию «созидать» малореально.
                                                    Я подобных студентов изначально не включал в группу тех, кто после получения диплома сможет нормально работать по специальности.
                                                      +2
                                                      Я понимаю что мое предложение звучит немного радикально, но зачем вообще выдавать диплом студенту, который не умеет «созидать»?
                                                        0
                                                        Полностью с вами согласен!
                                  0
                                  Спасибо за отличную статью, интересует чисто с технической точки зрения, сколько времени вам понадобилось на реализацию такого сложного механизма + эксперименты? Или над этим работала большая команда и они за месяц-два все реализовали, протестировали и выкатили в прод?
                                    0
                                    Этот проект оказался достаточно долгосрочным.
                                    Сначала были проведены исследования – нужно было найти общую схему алгоритмического решения и дальше в рамках схемы оптимизировать качество работы отдельных этапов (7 месяцев).
                                    Затем подготовить решение, которое можно развернуть на продакшене (4 месяца).
                                    Подготовка индекса для прода (2 недели).
                                    Проведение эксперимента по проверке русскоязычных статей (чуть больше 1 месяца).
                                    На каждом этапе работала небольшая команда 2-3 человека.
                                    Как ни странно, но много времени ушло на понимание того, где хотим опубликовать статью и подготовку статьи. Все промышленные работы мы закончили еще в сентябре прошлого года. С того же момента модуль переводных заимствований подключается пользователям — пока правда доступен только для корпоративных пользователей.
                                    +1
                                    Заголовок: «как найти плагиат с английского языка в русских научных статьях», исследование интересное но гораздо больше плагиата можно найти в статьях на английском, китайском, немецком, французском с заимствованиями из русскоязычных статей.
                                    Например, известный случай с теоремой Котельникова. В 1933 Котельниковым В. А. была опубликована известная фундаментальная работа «О пропускной способности «эфира» и проволоки в электросвязи», которая среди прочего содержит 6 теорем с доказательством, среди которых теорема отсчётов. Повторно, теорема отсчётов, «открыта» в 1949 году (через 16 лет) Клодом Шенноном. И явно Шенон был знаком с теоремами Котельникова, т.к. радиосвязь в то время очень активно развивалась и конкурирующие государства очень тщательно сканировали публикации «партнёров». В 1999 году Международный научный фонд Эдуарда Рейна (Германия) признал приоритет В. А. Котельникова, наградив его премией в номинации «фундаментальные исследования» за впервые математически точно сформулированную и доказанную в аспекте коммуникационных технологий теорему отсчётов. Но большинство зарубежных авторов избегают называть теорему именем Котельникова, а называют «теоремой Шенона». Таких примеров огромное число. Запад ворует не только результаты публикаций, но и сами публикации и идеи. Можно вспомнить историю с Пентковским В. М. и появлением процессора Пентиум, идеи и принципы на которых был построен Пентиум разрабатывались в СССР несколькими научными коллективами. Примеров масса.
                                      0
                                      Согласен с вами, что процесс наверняка многосторонний. Но те примеры, о которых говорите вы, это ближе к настоящему плагиату — воровству идей. То есть, авторы вторичных статей (результатов) наверняка проводили большую работу, чтобы разобраться в идеях, которые были заложены в оригинальных публикациях.
                                      Наше исследование было направлено скорее на обнаружение переводного копи-пейста, то есть случае, когда человек относительно бездумно переводит английский оригинал на русский и публикует его. Таких случаев, как обнаружилось, достаточно много. Такое направление поиска переводов обусловлено спецификой нашего бизнеса — через Антиплагиат так или иначе проходят практически все русскоязычные публикации.
                                      При этом, мы совершенно не исключаем что может быть обнаружено и много случаев противоположной направленности, то есть переводов с русского на английский или другие языки. Вопрос с том, как обеспечить проверку через Антиплагиат иностранных публикаций (хотя бы англоязычных).

                                    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                                    Самое читаемое