эмоциональный датасет вы собираете с помощью крауд-сорсинга или из подкастов
Мы собирали этот датасет для того, чтобы выложить его в opensource. Можно было бы использовать и другие источники, но, кажется, подкасты это наиболее близкий домен к реальным эмоциям в разговорной речи.
При этом взвешенная точность на "наигранном" датасете получается примерно (при выборе из 4 вариантов) 75%, а на подкастах 50%. Это конечно выше, чем 25%, но такое конечно
Мы выложили код для обучения бейзлайнов. Нашей целью не было показать классную модель, наша цель здесь - снизить порог входа, чтобы можно было быстро поэксперементировать с нашим датасетом и своими архитектурами.
Ну то есть вы уже продаете это заказчикам, даже когда точность мягко говоря не фонтан?
На данный момент доступ к SaluteSpeech Insights предоставляется вместе с доступом нашему сервису синтеза и распознавания речи SaluteSpeech без дополнительной платы. Более того, Insights работает на данных из телефонии, там другие данные, другой звук и другой спектр эмоций)
Что касается качества распознавания эмоций в сервисе SaluteSpeech. Вы же понимаете, как устроено обучение подобного рода моделей? Для наших "боевых" решений мы используем другие данные и другие модели. Как минимум, в "проде", мы учитываем не только интонацию голоса (как в опубликованных моделях), но и произносимый текст, не говоря уже об архитектурных отличиях и куче маленьких трюков (о которых мы когда-нибудь обязательно расскажем)
Я просто видел пару презентаций распознавания эмоций по речи … и там всегда написано про 99%+
Было бы интересно посмотреть на ваше ультимативное сравнение с конкурентами.
Таким образом, мы преследуем две цели: предоставить хороший бенчмарк для задачи SER и дать толчок развитию области распознавания эмоций, так как наш датасет отлично подходит для исследовательских целей.
Так что буду рад, если вы обучите свою модель на нашем датасете и поделитесь результатами)
Мы собирали этот датасет для того, чтобы выложить его в opensource. Можно было бы использовать и другие источники, но, кажется, подкасты это наиболее близкий домен к реальным эмоциям в разговорной речи.
Мы выложили код для обучения бейзлайнов. Нашей целью не было показать классную модель, наша цель здесь - снизить порог входа, чтобы можно было быстро поэксперементировать с нашим датасетом и своими архитектурами.
На данный момент доступ к SaluteSpeech Insights предоставляется вместе с доступом нашему сервису синтеза и распознавания речи SaluteSpeech без дополнительной платы.
Более того, Insights работает на данных из телефонии, там другие данные, другой звук и другой спектр эмоций)
Что касается качества распознавания эмоций в сервисе SaluteSpeech. Вы же понимаете, как устроено обучение подобного рода моделей? Для наших "боевых" решений мы используем другие данные и другие модели. Как минимум, в "проде", мы учитываем не только интонацию голоса (как в опубликованных моделях), но и произносимый текст, не говоря уже об архитектурных отличиях и куче маленьких трюков (о которых мы когда-нибудь обязательно расскажем)
Было бы интересно посмотреть на ваше ультимативное сравнение с конкурентами.
Так что буду рад, если вы обучите свою модель на нашем датасете и поделитесь результатами)