Как стать автором
Обновить
10
0

Пользователь

Отправить сообщение
Верно подмечено. Данные выгружались как есть, чтобы отразить текущую ситуацию и выброс соответствует нашему роботу, который проверяет работоспособность сервиса.
Выше писала про модуль детектирования часто-употребимых фраз (в том числе законов, длинных терминов, названий организаций), призванный справится с этим. Также, не стоит забывать про правила корректного оформления цитат со ссылкой на источник (касается известных фактов и тех же законов), цитаты система помечает отдельно, на процент заимствований они не влияют.
Нет предела совершенству, существующие технологии уже позволяют сделать то, что до этого было невозможным. В любом случае, область сейчас активно развивается — это можно видеть, например, по ежегодному конкурсу SemEval, посвященному семантической оценке близости текстов и по огромному количеству публикаций по этой теме.
Сейчас в системе проходит аппробацию модуль часто-употребимых фраз и терминов, призванный справиться с этой проблемой. В любом случае, корректность и правомерность обнаруженного заимствования определяется не системой, а человеком.
В статье про детектирование переводных заимствований про это упомянуто — архитектура encoder-decoder, где в качестве блоков кодирования и декодирования выступает GRU. Основная суть у нас в использовании чуть более хитрой функции ошибки (не просто ошибка реконструкции) и подборе правильных обучающих примеров. Тема, действительно, интересная — подробно про это будет рассказано в научной статье, ссылку на которую мы обязательно выложим сюда после публикации.
Мне кажется, Ваше предложение не противоречит моему — усреднение подразумевает под собой потери. Можно тут смотреть как раз в сторону VAE — моделирование среднего и дисперсии позволяет учесть вариации выборки и улучшает механизм порождения объекта. Отличный пример — вот эта статья arxiv.org/pdf/1502.04623.pdf. И, как я и писала в обзоре, тут хорошо показывают себя Generative Adversarial Networks — добавление adversarial loss также позволяет минимизировать размытие.

Информация

В рейтинге
Не участвует
Работает в
Зарегистрирован
Активность