djunka 8 фев 2023 в 13:32

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

9 мин

7.8K

Блог компании SberDevicesOpen source*Data Mining*Машинное обучение*Искусственный интеллект

+17

Комментарии 6

snakers4 8 фев 2023 в 16:01

We use common metrics for SER tasks: macro F1 score (F1), Unweighted Accuracy (UA), Weighted Accuracy (WA).

мы развиваем технологии распознавания эмоций голоса для линейки наших умных устройств, а также для решений, позволяющих анализировать общение по телефону

Погодите-погодите. У вас умная колонка (которая уже следит за эмоциями пользователей судя по этой статье), но эмоциональный датасет вы собираете с помощью крауд-сорсинга или из подкастов. Хм.

При этом взвешенная точность на "наигранном" датасете получается примерно (при выборе из 4 вариантов) 75%, а на подкастах 50%. Это конечно выше, чем 25%, но такое конечно, но:

Например, на этой технологии базируется наш новый продукт SaluteSpeech Insights, который автоматически оценивает эмоции клиента и оператора колл-центра по каждой произнесённой ими фразе, классифицирует все диалоги на позитивные, нейтральные и негативные, определяет более 300 различных речевых характеристик, а ещё прогнозирует оценку CSI (Customer Satisfaction Index).

Ну то есть вы уже продаете это заказчикам, даже когда точность мягко говоря не фонтан? Современные проблемы и правда требуют современных решений! Я просто видел пару презентаций распознавания эмоций по речи … и там всегда написано про 99%+

-11

AlexanderDenisenko 8 фев 2023 в 17:02

Я просто видел пару презентаций распознавания эмоций по речи … и там всегда написано про 99%+

На заборе тоже много чего написано. Поделитесь конкретными статьями или продуктами? Я бы с радостью почитал

vldmrkondrat 8 фев 2023 в 17:56

эмоциональный датасет вы собираете с помощью крауд-сорсинга или из подкастов

Мы собирали этот датасет для того, чтобы выложить его в opensource. Можно было бы использовать и другие источники, но, кажется, подкасты это наиболее близкий домен к реальным эмоциям в разговорной речи.

При этом взвешенная точность на "наигранном" датасете получается примерно (при выборе из 4 вариантов) 75%, а на подкастах 50%. Это конечно выше, чем 25%, но такое конечно

Мы выложили код для обучения бейзлайнов. Нашей целью не было показать классную модель, наша цель здесь - снизить порог входа, чтобы можно было быстро поэксперементировать с нашим датасетом и своими архитектурами.

Ну то есть вы уже продаете это заказчикам, даже когда точность мягко говоря не фонтан?

На данный момент доступ к SaluteSpeech Insights предоставляется вместе с доступом нашему сервису синтеза и распознавания речи SaluteSpeech без дополнительной платы.
Более того, Insights работает на данных из телефонии, там другие данные, другой звук и другой спектр эмоций)

Что касается качества распознавания эмоций в сервисе SaluteSpeech. Вы же понимаете, как устроено обучение подобного рода моделей? Для наших "боевых" решений мы используем другие данные и другие модели. Как минимум, в "проде", мы учитываем не только интонацию голоса (как в опубликованных моделях), но и произносимый текст, не говоря уже об архитектурных отличиях и куче маленьких трюков (о которых мы когда-нибудь обязательно расскажем)

Я просто видел пару презентаций распознавания эмоций по речи … и там всегда написано про 99%+

Было бы интересно посмотреть на ваше ультимативное сравнение с конкурентами.

Таким образом, мы преследуем две цели: предоставить хороший бенчмарк для задачи SER и дать толчок развитию области распознавания эмоций, так как наш датасет отлично подходит для исследовательских целей.

Так что буду рад, если вы обучите свою модель на нашем датасете и поделитесь результатами)

snakers4 8 фев 2023 в 18:18

Так что буду рад, если вы обучите свою модель на нашем датасете и поделитесь результатами)

А я буду рад, если вы вернете средства из ФНБ налогоплательщикам.

Для наших "боевых" решений мы используем другие данные и другие модели. Как минимум, в "проде", мы учитываем не только интонацию голоса (как в опубликованных моделях), но и произносимый текст

Единственное, что хоть как-то работало в этой сфере, что я видел - было просто очень продвинутым набором словарей. Что по сути эта статья и подтверждает.

-3

NXZFT 9 фев 2023 в 10:08

Лучше бы писали статьи без упоминания слова "сбер". Любое упоминание этого ругательного слова - моментальное отторжение и раздражение...

ilia_bonn 16 фев 2023 в 15:44

Например, на этой технологии базируется наш новый продукт SaluteSpeech Insights, который автоматически оценивает эмоции клиента и оператора колл-центра по каждой произнесенной ими фразе, классифицирует все диалоги на позитивные, нейтральные и негативные, определяет более 300 различных речевых характеристик, а еще прогнозирует оценку CSI (Customer Satisfaction Index).

Прям 1984 какой-то - как минимум, с точки зрения оператора, думаю, должно быть такое ощущение, если он знает, что за качеством его работы постоянно наблюдает и оценивает её по 300+ параметрам ИИ

Зарегистрируйтесь на Хабре, чтобы оставить комментарий