nocodeOTR 15 апр 2021 в 20:54

Как мы выбирали библиотеку машинного обучения для работы с естественным языком

4 мин

4.2K

Блог компании ОТРИскусственный интеллект

Комментарии 12

xytop 15 апр 2021 в 22:10

Так и чем в итоге ваша нейросеть занимается? Автоматическая категоризация тикетов?

nocodeOTR 16 апр 2021 в 14:50

Она решает сразу же несколько задач:
— категоризирует тикеты по тексту;
— подбор к тикетам подходящий статей из базы знаний, которые могут решить проблему пользователей;
— поиск дублирующих друг друга тикетов.

Ananiev_Genrih 16 апр 2021 в 09:05

судя по статье-повышением некой точности

khmelkoff 16 апр 2021 в 10:48

похоже на классификатор типов обращений

LeoMat 16 апр 2021 в 10:28

Так почему бы тогда не использовать просто библиотеку transformers? Там есть и работа с TensorFlow, и простое дообучение BERT-моделей, в том числе RuBERT.

khmelkoff 16 апр 2021 в 11:05

Для классификации узкоспециализированных обращений обычно хватает простого эмбеддинга. Даже если нужно, например, определять сходство запроса с вопросом из базы знаний.

nocodeOTR 20 апр 2021 в 11:36

Не хватает. Примеры реальных синонимичных текстов из жизни:
«Возникают ошибки при отправке ПГ в ЛК ЕИС. Одна из ошибок — наличие размещенного извещения в ЕИС, которое является отмененным»
«Не выгружается ПГ в ЕИС перед утверждением бюджетной сметы»

nocodeOTR 20 апр 2021 в 11:35

Мы пробовали предобученный BERT от Google, результат был слабым по точности. К тому же такая модель слишком ресурсоёмкая по памяти, учится неприемлемо долго (если не покупать TPU). В итоге у нас получилась более лёгкая и точная модель, заточенная на предметную область. На сложных предметных областях со специфичными текстами связка «предобученная на больших корпусах обычного текста модель + дообучение на специфике» работает плохо.

khmelkoff 20 апр 2021 в 18:28

Если будете еще экспериментировать, попробуйте RuBERT. Она помещается на 8ГБ GPU, если размер сообщения не больше, чем 64 токена.

nocodeOTR 21 апр 2021 в 11:37

Спасибо, обязательно попробуем

khmelkoff 16 апр 2021 в 10:33

Свёрточные нейросети отвечали заданным требованиям. Выбор был остановлен именно на них.

Необходимую точность показывали только модели типа GPT и BERT

Интересно, с каких пор трансформеры стали относится к сверточным архитектурам?

nocodeOTR 21 апр 2021 в 11:37

Скорректировали статью по вашему замечанию. Спасибо, что внимательно прочитали и дали обратную связь.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий