Комментарии / Профиль AlexanderDenisenko / Хабр

Александр Денисенко @AlexanderDenisenko

Speech Recognition

Профиль Публикации 1Комментарии 8Закладки

Dusha: самый большой открытый датасет для распознавания эмоций в устной речи на русском языке

AlexanderDenisenko 8 фев 2023 в 17:02

Я просто видел пару презентаций распознавания эмоций по речи … и там всегда написано про 99%+

На заборе тоже много чего написано. Поделитесь конкретными статьями или продуктами? Я бы с радостью почитал

Посмотреть

Бесплатный Telegram-бот для расшифровки аудио. Рассказываем кратко, как мы его сделали

AlexanderDenisenko 1 апр 2022 в 15:27

Из опенсурса есть репа с нашим датасетом Golos, языковой и акустической моделью, можете посмотреть: https://github.com/sberdevices/golos

И посвящённая им майская статья на Хабре для пояснения: https://habr.com/ru/company/sberdevices/blog/559496/

Посмотреть

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko 4 июн 2021 в 13:35

Добрый день! В архивах есть jsonl-файлы, содержащие аннотацию

Посмотреть

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko 1 июн 2021 в 17:22

Добрый день!

Эти записи получены со смартфонов, никаких особенных ограничений мы не накладывали
В датасете есть отдельные tsv-файлы для 100/10/1 часов и 10 минут. Это сделано, например, для того, чтобы погонять пробные эксперименты и быть уверенным в своих пайплайнах перед запуском обучения на всём датасете
Нет, мы никак не используем информацию об ударении

Посмотреть

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko 28 мая 2021 в 16:17

Количество уникальных голосов — тысячи, мб есть 10 тысяч.
Неа, такие эксперименты не проводили

Посмотреть

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko 28 мая 2021 в 15:10

Обученная модель, которую мы выложили в открытый доступ, это модель распознавания речи (ASR, Speech-To-Text).
Если хочется слушать книжки — то можно обучить на этих данных свою Text-To-Speech модель — хотя это может быть нетривиально, ведь тут большое количество разных спикеров. Либо можно попробовать TTS-модель от Сбера на https://sberdevices.ru/smartspeech/

Посмотреть

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko 27 мая 2021 в 16:40

Ну почему же вы отрезаете часть предложения? Оно выглядело так ;)

На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную

Посмотреть

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

AlexanderDenisenko 27 мая 2021 в 16:36

Конечно, мы пробовали системы автоматической транслитерации — хотя и в основном для других целей, нежели для генерации точной транскрипции на кириллице. Качество нас не устроило, на таком было бы не сделать хороший ASR-датасет, мы хотим иметь максимально чистый датасет. Нас интересует в первую очередь транскрипция именно того, что произнесено на аудиозаписи. Если речь заходит о музыкальных исполнителях — то ни у какой системы автоматической транслитерации нет шансов, нужно слушать аудиозапись.
Следующие исполнители/песни как экстремальный пример: 24kGoldn, 6lack, xo tour llif3.

Посмотреть