Comments / Profile of andyray / Habr

How to become an author

Андрей Ивахненко @andyray

Руководитель отдела внедрения и эксплуатации

Profile Publications 4Comments 35Bookmarks 59

Так Систему не обойти

andyray Dec 17 2019 at 15:49

Заимствования можно разделить на 3 категории:
1. Правомерное заимствование: читатель знает, что текст заимствован и знает из какого источника.
2. Некорректное заимствование: читатель знает, что текст заимствован, но может испытывать затруднения в поиске источника
3. Неправомерные заимствования: читатель умышлено или неумышлено вводится в заблуждение и не имеет основания считать, что заимствованный текст написан не автором.

Ваша задача написать работу с отсутствием неправомерных заимствований и минимальным количеством некорректных.
Правомерность и корректность оценивает человек, не Антиплагиат (инструмент по выявлению схожих фрагментов текстов).

Так Систему не обойти

andyray Dec 17 2019 at 15:38

Из doc и docx мы однозначно рекомендуем только docx. Видимо, на вашей кафедре, услышали где-то только два последних слова из этой фразы.
Приведенные вами слова это точно не требования Антиплагиата.

Так Систему не обойти

andyray Dec 17 2019 at 15:32

Модуль поиска по Гаранту делает именно это! Цитаты из него «красятся в зеленый цвет» («цитирование», против оранжевых «заимствований»).

Такая боль, такая боль, касса как сервис 2:0

andyray Nov 1 2019 at 09:33

Вполне рабочая альтернатива. А как у вас платежи принимаются? Пользуетесь каким-то агрегатором или что-то своё сделали?
Ваш способ сложно применить, если нет серверной и все в облаках.

Триллион маленьких шинглов

andyray Apr 1 2019 at 15:35

У нас есть специальное выделение легитимных заимствований нормативно-правовых документов, реализовано как поиск по системам с нормативкой типа Гарант. Такое заимствование называется «цитированием» и отмечается зеленым цветом. В целом 100% = Заимствование + Цитирование + Оригинальный текст. Цитированием так же считается: корректно оформленное цитирование, общеупотребимые фразы, библиография.
Важно отмечать и такое заимствование, т.к. может оказаться что вся работа состоит из цитрований и своих мыслей совсем нет. Мы стараемся предоставить эксперту максимальный объем информации чтобы он смог вынести взвешенное решение.

Такая боль, такая боль, инфраструктура как сервис 1:0

andyray Feb 21 2019 at 16:54

Арендуем конечно! Активно ищем аналоги в РФ. В Амазоне не критичная к отключению на день-два часть инфраструктуры.

Так устроен поиск заимствований в Антиплагиате

andyray Nov 15 2018 at 00:09

Есть в планах такая статья.

Так устроен поиск заимствований в Антиплагиате

andyray Nov 14 2018 at 18:47

Объем указанных вами источников не очень велик. Думаю в десяток гигов все влезет. Я бы предложил использовать вторую часть нашего поиска сразу. Копайте в сторону суффиксных деревьев для быстрого поиска. Такое дерево вам потребуется построить единожды т.к. ваш эталонный корпус текстов, судя по всему, меняться уже не будет.

Так устроен поиск заимствований в Антиплагиате

andyray Nov 14 2018 at 18:11

Тут весь фокус в том, что мы не стремимся за полнотой. Важно найти большие фрагменты, а если останутся несколько единичных n-ок слов (черепички), то это не сыграет большой роли и мы заодно не покажем заимствование какого-то часто употребимого набора слов. От отчета требуется максимизировать покрытие текста-запроса найденными фрагментами и вполне логично брать для подробного сравнения документы-кандидаты с большим числом совпавших шинглов. Как показывает практика практически все шинглы документа-кандидата потом вычеркиваются из дальнейшего рассмотрения.

Так устроен поиск заимствований в Антиплагиате

andyray Nov 14 2018 at 17:16

Как мы боремся с перефразированием описано в статье «Трое в лодке, нищета и собаки», или как Антиплагиат ищет парафраз

Так устроен поиск заимствований в Антиплагиате

andyray Nov 14 2018 at 16:36

Как применить хотя бы один из перечисленных алгоритмов в том месте где я упомянул про жадность? Жадный алгоритм выбора документов-кандидатов для построения отчета эффективен и отлично справляется с поставленной задачей.
Возможно я неправильно понял ваш вопрос?

Так устроен поиск заимствований в Антиплагиате

andyray Nov 14 2018 at 15:51

Когда готовил статью, то на автомате написал, что 97 офис был последним, для которого doc был родным форматом. Позже занялся проверкой фактов, оказалось, что doc был основным для Word вплоть до 2003 включительно. MS Compatibility Pack, дающий старым версиям возможность читать и писать docx, имеет минимальные требования Word 2000 sp3.

Так устроен поиск заимствований в Антиплагиате

andyray Nov 14 2018 at 10:47

А зачем в этом случае использовать «Антиплагиат»? Тут скорее эксель нужен для проверки расчетов. Коллекция одобренного к цитированию текста для компании у нас в планах. Правда, пока не могу сказать когда мы это зарелизим. Это должно снять боль студентов-технарей в сценарии описанном вами.

Так устроен поиск заимствований в Антиплагиате

andyray Nov 14 2018 at 10:40

Это есть на этапе загрузки документа. Все что вы перечислили уже встроено в систему. Недавно мы сделали показ этой информации в интерфейсе (ниже пример того как это выглядит) и обновили критерий подозрительного документа. Опыт ценный, буду признателен, если поделитесь примерами «подготовленных» документов.

Так устроен поиск заимствований в Антиплагиате

andyray Nov 14 2018 at 10:22

Проблема понятна и знакома, но не в области Минобра. Это зона ответственности конкретного диссертационного совета. Мы неоднократно писали письма с разъяснениями, можете написать мне в личку, постараемся помочь. В целом, мы ведем активную разъяснительную работу и уже есть достаточно много мест правильной работы с нашим инструментом.

2