Как стать автором
Обновить

Комментарии 31

Сервис конечно полезный. Но то как его использует Минобр, это нечто.
Кандидатская диссертация не проходит проверку из-за «плагиата» моих же научных статей, опубликованных в процессе написания диссертации.
Проблема понятна и знакома, но не в области Минобра. Это зона ответственности конкретного диссертационного совета. Мы неоднократно писали письма с разъяснениями, можете написать мне в личку, постараемся помочь. В целом, мы ведем активную разъяснительную работу и уже есть достаточно много мест правильной работы с нашим инструментом.
Спасибо! Уже корочка получена.
За 28 минут решили проблему? Вот это я понимаю — связи!
Писал в помощь кафедре утилиту, которая позволяла быстро определять попытки грязного обхода вашей системы. Критерии следующие: скрытый текст, блоки с текстом (скрытые, прозрачные, белые, за границей документа), подмена букв, определение прямых модификаций разметки и вывод небольшой статистики: количество изображений в документе, общее количество ошибок.
Это позволяет «на потоке» быстро отсечь совершенно левые работы. При тестировании умудрялись находить работы, где использовались все методы одновременно.
Думаю, что тема для вас не нова, но мне кажется, что было бы неплохо встроить эту проверку на этапе загрузки документа.
Это есть на этапе загрузки документа. Все что вы перечислили уже встроено в систему. Недавно мы сделали показ этой информации в интерфейсе (ниже пример того как это выглядит) и обновили критерий подозрительного документа. Опыт ценный, буду признателен, если поделитесь примерами «подготовленных» документов.

Тогда просто молодцы :)
А как боретесь с «синонимированием»? Надеюсь правильно употребил термин, когда производится автоматическая замена словом-синонимом. Два синонима в предложении и это же будет уже совершенно иной и «чистый» текст.
Кстати, по накопленному опыту, наши письма очень даже помогают поставить ситуацию на место. Хочется, конечно, решить ситуацию системно, но, например, в этом году Минобру было не до плагиата в диссертациях :)
Огромные проблемы возникают у студентов-технарей и, соответственно, преподавателей. Большинство курсовых работ — это один и тот же расчет по разным исходным данным и отличия между курсовиками в формулах, таблицах, графиках и чертежах. А текстовая часть и названия рисунков — идентичные.
А зачем в этом случае использовать «Антиплагиат»? Тут скорее эксель нужен для проверки расчетов. Коллекция одобренного к цитированию текста для компании у нас в планах. Правда, пока не могу сказать когда мы это зарелизим. Это должно снять боль студентов-технарей в сценарии описанном вами.
А это никого не волнует на всех уровнях выше преподавателя/студента/заведующего кафедрой — всё у всех должно быть разное!
Сколько я слов нелестных слышал, работая на кафедре ИТ от преподов ИТ и математиков. Понятное дело, что проблема не в Антиплагиате, а в системе контроля образования, но негативные эмоции возникают только после проверки на плагиат.
Вопрос переадресуем к Министерству науки и высшего образования — это их требования.
А расчеты и чертежи и так проверяем на правильность.
Это не требования МОН. Это требования вуза, так как конкретный порядок сбора ВКР и проверки на заимствования определяется локальными актами учебной организации
Для уточнения: п.38, приказа Минобрнауки РФ №636 от 29 июня 2015 года.
Год назад сдавал дипломную работу. Преподаватели были рады, что это не очередная «локалка на предприятии»
Microsoft Office 97

2000
Когда готовил статью, то на автомате написал, что 97 офис был последним, для которого doc был родным форматом. Позже занялся проверкой фактов, оказалось, что doc был основным для Word вплоть до 2003 включительно. MS Compatibility Pack, дающий старым версиям возможность читать и писать docx, имеет минимальные требования Word 2000 sp3.
Снова нет: www.microsoft.com/en-us/download/details.aspx?id=33298

Recommended Microsoft Office programs:

Microsoft Word 2000 with Service Pack 3, Microsoft Excel 2000 with Service Pack 3, and Microsoft PowerPoint 2000 with Service Pack 3

Microsoft Word 2002 with Service Pack 3, Microsoft Excel 2002 with Service Pack 3, and Microsoft PowerPoint 2002 with Service Pack 3

Microsoft Office Word 2003 with at least Service Pack 1, Microsoft Office Excel 2003 with at least Service Pack 1, and Microsoft Office PowerPoint 2003 with at least Service Pack 1

Ваша первоначальная идея была-таки верна. Почти. MS Office 97 — был последним, который не умеет DOCX вообще. А «из коробки» его добавили только в версии с пресловутым риббоном (2007+)
Меня очень смущает жадный алгоритм.
Вы сравнивали его полноту с не жадным?
А с MinHash, Bloom filter, SimHash, w-shingling, Count-min sketch?
Как применить хотя бы один из перечисленных алгоритмов в том месте где я упомянул про жадность? Жадный алгоритм выбора документов-кандидатов для построения отчета эффективен и отлично справляется с поставленной задачей.
Возможно я неправильно понял ваш вопрос?
Огромное спасибо за ваш проект. Жаль, что в 21 веке такой отчет до сих пор не обязателен. Я не ставлю под сомнение эффективность алгоритма, но если эта информация не является секретной было бы классно опубликовать чуть больше технических деталей.

Жадным называется алгоритм, принимающий локально оптимальные решения. В примере с поиском документов по запросу логично предположить, что такой алгоритм может снижать полноту выборки по документам. Поскольку большое количество хешей(не фрагментов) еще не гарантия того, что будут найдены все заимствования, то вроде как условия для жадности не выполняется.
Например, на основании 2х первых наборов хешей будет отброшен документ содержащий общий набор хешей, но в нем будет заимствование, которого может не оказаться в первых документах.
1: AAA 2:BBB 3:AB
Я понимаю, что с учетом перекрытия при шинглировании реальный пример будет сложнее, но потеря полноты на данном этапе может помешать установить наибольший заимствованный фрагмент например.
Если же вспомнить, что хеши имеют коллизии, то еще больше хочется увидеть конкретные цифры полноты и точности для данного алгоритма.
Пример того, как можно использовать MinHash:
Считаем MinHash для типичных фрагментов абзац/предложение, совпадение хешей в этом случае будет означать совпадение фрагментов с вероятностью, которой можно управлять количеством хеш-функций. В дальнейшем, при отборе документов мы имеем фрагменты текста, а нет хеши.
Тут весь фокус в том, что мы не стремимся за полнотой. Важно найти большие фрагменты, а если останутся несколько единичных n-ок слов (черепички), то это не сыграет большой роли и мы заодно не покажем заимствование какого-то часто употребимого набора слов. От отчета требуется максимизировать покрытие текста-запроса найденными фрагментами и вполне логично брать для подробного сравнения документы-кандидаты с большим числом совпавших шинглов. Как показывает практика практически все шинглы документа-кандидата потом вычеркиваются из дальнейшего рассмотрения.
У меня такой вопрос: я балуюсь корректорской вычиткой на сайтах фанфиков и самиздате, проблема в том, что глаз достаточно быстро замыливается, в итоге я не могу определить, какой в этом случае ставится знак препинания и ставится ли вообще (в первую очередь вводные слова, слова-предложения, несколько союзов подряд, устоявшиеся выражения). Поскольку заучивать Розенталя мне откровенно лень, хотел написать себе хелпер: сопоставление выбранного неуникального куска текста с корпусом литературы, например, от Чехова и до 80х (в 90х корректоры с редакторами, случалось, откровенно халявили), и просто смотреть, ставилась запятая или таки нет. Хотел бы попросить совета по подготовке и хранению текста: имеет ли поступить как это описали Вы (лемматизация, черепички), привязать к хэшу положение в тексте, а потом смотреть глазами, есть ли там запятая. Или стоит как-то иначе?
Объем указанных вами источников не очень велик. Думаю в десяток гигов все влезет. Я бы предложил использовать вторую часть нашего поиска сразу. Копайте в сторону суффиксных деревьев для быстрого поиска. Такое дерево вам потребуется построить единожды т.к. ваш эталонный корпус текстов, судя по всему, меняться уже не будет.
Забавно, я будучи преподавателем вуза написал прообраз подобной системы в 2000-м году) Тоже в марте) С интернетом тогда еще были сложности и рефераты в основном были на компакт-дисках, а обсуждение системы было в конференции фидонета) Го*ны среди студентов начали сразу бурлить от понимания того, что тайное можно сделать явным. Дошел тогда до того, что сам текст хранить не надо, надо хешировать, но скорость поиска совпадений всё одно была печальной (2000-й год все таки, компьютеры уровня Целерона 466-го). Но в большей степени остановило меня тогда необходимость извлечения текста из документов разных форматов типа doc, поэтому студенты получили еще 5 лет халявы)
И всё-таки хорошо, что такую систему сделали)
Желаю успехов в дальнейшем развитии!
необходимость извлечения текста из документов разных форматов типа doc

На локальной машине для этого можно пользоваться Word'ом. Пишем ему макрос, который будет извлекать текст и сохранять его в txt, и радуемся жизни.
Интересно узнать, как построена разработка, какие у Вас процессы, как устроен быт команд! Как Вы всё это делаете и доносите продукт пользователю?
Есть в планах такая статья.
Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.