Как стать автором
Обновить

Комментарии 12

Так и чем в итоге ваша нейросеть занимается? Автоматическая категоризация тикетов?

Она решает сразу же несколько задач:
— категоризирует тикеты по тексту;
— подбор к тикетам подходящий статей из базы знаний, которые могут решить проблему пользователей;
— поиск дублирующих друг друга тикетов.
судя по статье-повышением некой точности
похоже на классификатор типов обращений
Так почему бы тогда не использовать просто библиотеку transformers? Там есть и работа с TensorFlow, и простое дообучение BERT-моделей, в том числе RuBERT.
Для классификации узкоспециализированных обращений обычно хватает простого эмбеддинга. Даже если нужно, например, определять сходство запроса с вопросом из базы знаний.
Не хватает. Примеры реальных синонимичных текстов из жизни:
«Возникают ошибки при отправке ПГ в ЛК ЕИС. Одна из ошибок — наличие размещенного извещения в ЕИС, которое является отмененным»
«Не выгружается ПГ в ЕИС перед утверждением бюджетной сметы»
Мы пробовали предобученный BERT от Google, результат был слабым по точности. К тому же такая модель слишком ресурсоёмкая по памяти, учится неприемлемо долго (если не покупать TPU). В итоге у нас получилась более лёгкая и точная модель, заточенная на предметную область. На сложных предметных областях со специфичными текстами связка «предобученная на больших корпусах обычного текста модель + дообучение на специфике» работает плохо.
Если будете еще экспериментировать, попробуйте RuBERT. Она помещается на 8ГБ GPU, если размер сообщения не больше, чем 64 токена.
Спасибо, обязательно попробуем
Свёрточные нейросети отвечали заданным требованиям. Выбор был остановлен именно на них.
Необходимую точность показывали только модели типа GPT и BERT
Интересно, с каких пор трансформеры стали относится к сверточным архитектурам?
Скорректировали статью по вашему замечанию. Спасибо, что внимательно прочитали и дали обратную связь.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий