Pull to refresh
15
0
Андрей Ивахненко @andyray

Руководитель отдела внедрения и эксплуатации

Send message
Заимствования можно разделить на 3 категории:
1. Правомерное заимствование: читатель знает, что текст заимствован и знает из какого источника.
2. Некорректное заимствование: читатель знает, что текст заимствован, но может испытывать затруднения в поиске источника
3. Неправомерные заимствования: читатель умышлено или неумышлено вводится в заблуждение и не имеет основания считать, что заимствованный текст написан не автором.

Ваша задача написать работу с отсутствием неправомерных заимствований и минимальным количеством некорректных.
Правомерность и корректность оценивает человек, не Антиплагиат (инструмент по выявлению схожих фрагментов текстов).
Из doc и docx мы однозначно рекомендуем только docx. Видимо, на вашей кафедре, услышали где-то только два последних слова из этой фразы.
Приведенные вами слова это точно не требования Антиплагиата.
Модуль поиска по Гаранту делает именно это! Цитаты из него «красятся в зеленый цвет» («цитирование», против оранжевых «заимствований»).

Вполне рабочая альтернатива. А как у вас платежи принимаются? Пользуетесь каким-то агрегатором или что-то своё сделали?
Ваш способ сложно применить, если нет серверной и все в облаках.

У нас есть специальное выделение легитимных заимствований нормативно-правовых документов, реализовано как поиск по системам с нормативкой типа Гарант. Такое заимствование называется «цитированием» и отмечается зеленым цветом. В целом 100% = Заимствование + Цитирование + Оригинальный текст. Цитированием так же считается: корректно оформленное цитирование, общеупотребимые фразы, библиография.
Важно отмечать и такое заимствование, т.к. может оказаться что вся работа состоит из цитрований и своих мыслей совсем нет. Мы стараемся предоставить эксперту максимальный объем информации чтобы он смог вынести взвешенное решение.

Арендуем конечно! Активно ищем аналоги в РФ. В Амазоне не критичная к отключению на день-два часть инфраструктуры.

Есть в планах такая статья.
Объем указанных вами источников не очень велик. Думаю в десяток гигов все влезет. Я бы предложил использовать вторую часть нашего поиска сразу. Копайте в сторону суффиксных деревьев для быстрого поиска. Такое дерево вам потребуется построить единожды т.к. ваш эталонный корпус текстов, судя по всему, меняться уже не будет.
Тут весь фокус в том, что мы не стремимся за полнотой. Важно найти большие фрагменты, а если останутся несколько единичных n-ок слов (черепички), то это не сыграет большой роли и мы заодно не покажем заимствование какого-то часто употребимого набора слов. От отчета требуется максимизировать покрытие текста-запроса найденными фрагментами и вполне логично брать для подробного сравнения документы-кандидаты с большим числом совпавших шинглов. Как показывает практика практически все шинглы документа-кандидата потом вычеркиваются из дальнейшего рассмотрения.
Как применить хотя бы один из перечисленных алгоритмов в том месте где я упомянул про жадность? Жадный алгоритм выбора документов-кандидатов для построения отчета эффективен и отлично справляется с поставленной задачей.
Возможно я неправильно понял ваш вопрос?
Когда готовил статью, то на автомате написал, что 97 офис был последним, для которого doc был родным форматом. Позже занялся проверкой фактов, оказалось, что doc был основным для Word вплоть до 2003 включительно. MS Compatibility Pack, дающий старым версиям возможность читать и писать docx, имеет минимальные требования Word 2000 sp3.
А зачем в этом случае использовать «Антиплагиат»? Тут скорее эксель нужен для проверки расчетов. Коллекция одобренного к цитированию текста для компании у нас в планах. Правда, пока не могу сказать когда мы это зарелизим. Это должно снять боль студентов-технарей в сценарии описанном вами.
Это есть на этапе загрузки документа. Все что вы перечислили уже встроено в систему. Недавно мы сделали показ этой информации в интерфейсе (ниже пример того как это выглядит) и обновили критерий подозрительного документа. Опыт ценный, буду признателен, если поделитесь примерами «подготовленных» документов.

Проблема понятна и знакома, но не в области Минобра. Это зона ответственности конкретного диссертационного совета. Мы неоднократно писали письма с разъяснениями, можете написать мне в личку, постараемся помочь. В целом, мы ведем активную разъяснительную работу и уже есть достаточно много мест правильной работы с нашим инструментом.
2

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity