Сначала DSS LAB делает голос-текст, потом LSTM-классификаторы, сущности Spacy + Yargy (Natasha), лемматизация Pymorphy2, правки Fasttext и Word2Vec, 3 разных суммаризатора и наши решения. Мы можем анализировать ваш голос не только для того, чтобы понимать, о чём ведётся диалог, но и для того, чтобы искать места улучшений банковских продуктов после диалога.
Например, по распознаванию некоторых ключевых слов в речи вроде «аккредитив» или «эскроу» оператору показывается справка, по названиям депозитов — их точные тарифы и так далее. Нажимать при этом ничего не надо. Возможность сейчас обкатывается в бете.
Пример:
На входе:
«…почему мне откапывает банкомат с переводом в другой банк».
Коррекция:
«почему мне отказывает банкомат с переводом в другой банк».
Выделенное ключевое сообщение:
«отказывает банкомат».
Действие: оператору предлагается маршрутизация звонка, звонок классифицируется для статистики.
Само распознавание устроено следующим образом:
- Голос раскладывается на фонемы. Фонемы собираются в слова тем же решением.
- Из собираемых данных удаляются различные клиентские данные: номера карт, кодовые слова и так далее.
- Затем полученный поток слов снабжается пунктуацией (точками и запятыми) и заглавными буквами: это нужно для нейросетей, очень чувствительных к такому. Исправляются опечатки, корректируются термины (география).
- И на выходе получаются текстовые диалоги, как в чате: их анализирует уже нейросеть, пытающаяся привязать смысл в реальном времени.
- После окончания звонка тексты также анализируются нейросетями, отвечающими за сбор разных метрик по голосовой и чат-поддержке.
Давайте покажу реальные (обезличенные) примеры диалогов, чтобы было понятнее.