Комментарии 13
Почему б не выложить тестовые тексты на GitHub?
критикуйте, восхищайтесьПока не вижу причин.
быстрее аналогов (~200 док/c);Что такое «док/с»? Документов в секунду? Не пробовали в CLD3 устанавливать лимит символов на определение?
Это для того, чтобы по русской аннотации сказать на казахскую статью что она русская? Ну так себе развлечение…
Кстати есть 3-х язычные статьи, например, киргизско-русско-английские. И, наверное, не только на постсоветском пространстве.
Кстати есть 3-х язычные статьи, например, киргизско-русско-английские. И, наверное, не только на постсоветском пространстве.
А зачем тексты выкладывать?
Да, документов в секунду.
Да, документов в секунду.
помню вашу систему по университету. Не знаю, как сейчас, но тогда обходилась довольно легко особой подменой пробелов невидимыми знаками в вордовском документе
Сейчас, насколько я слышал, система создает графический образ документа (типа виртуального принтера), а затем его распознает с нуля. То есть манипуляции с символами бесполезны. Также обрабатываются близкие синонимы и простые замены слов.
Остается старый добрый рерайт, чуть подольше, но зато обеспечивает уникальность 90+%. Юристам только плохо — цитаты из нормативки не отрерайтишь, а они нужны объективно.
Остается старый добрый рерайт, чуть подольше, но зато обеспечивает уникальность 90+%. Юристам только плохо — цитаты из нормативки не отрерайтишь, а они нужны объективно.
Я предполагаю, что у юристов и не нужна борьба с цитатами. Тема работы обычно сужает список используемой литературы, а, если она — это тексты законов, то и вообще выбора не остаётся.
Система предполагает цитирования, которые считаются отдельно от заимствований.
Для юридических текстов уже лет восемь работает механизм т.н. «белой коллекции», который окрашивает юридические тексты, как корректное цитирование. Так что юристы не страдают :)
Сейчас я аспирант, и на методологии полгода назад нам секретарь ученого совета жаловался на проблемы с цитатами из нормативки. Дескать, приходится вручную проглядывать работу и чистить цитаты, помеченные как некорректные заимствования. Мне пока еще проверять нечего, поэтому с уверенностью — так ли это, не скажу ;)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Определяем язык текста. Сложный случай