Эти записи получены со смартфонов, никаких особенных ограничений мы не накладывали
В датасете есть отдельные tsv-файлы для 100/10/1 часов и 10 минут. Это сделано, например, для того, чтобы погонять пробные эксперименты и быть уверенным в своих пайплайнах перед запуском обучения на всём датасете
Нет, мы никак не используем информацию об ударении
Обученная модель, которую мы выложили в открытый доступ, это модель распознавания речи (ASR, Speech-To-Text).
Если хочется слушать книжки — то можно обучить на этих данных свою Text-To-Speech модель — хотя это может быть нетривиально, ведь тут большое количество разных спикеров. Либо можно попробовать TTS-модель от Сбера на https://sberdevices.ru/smartspeech/
Конечно, мы пробовали системы автоматической транслитерации — хотя и в основном для других целей, нежели для генерации точной транскрипции на кириллице. Качество нас не устроило, на таком было бы не сделать хороший ASR-датасет, мы хотим иметь максимально чистый датасет. Нас интересует в первую очередь транскрипция именно того, что произнесено на аудиозаписи. Если речь заходит о музыкальных исполнителях — то ни у какой системы автоматической транслитерации нет шансов, нужно слушать аудиозапись.
Следующие исполнители/песни как экстремальный пример: 24kGoldn, 6lack, xo tour llif3.
На заборе тоже много чего написано. Поделитесь конкретными статьями или продуктами? Я бы с радостью почитал
Из опенсурса есть репа с нашим датасетом Golos, языковой и акустической моделью, можете посмотреть: https://github.com/sberdevices/golos
И посвящённая им майская статья на Хабре для пояснения: https://habr.com/ru/company/sberdevices/blog/559496/
Добрый день! В архивах есть jsonl-файлы, содержащие аннотацию
Добрый день!
Количество уникальных голосов — тысячи, мб есть 10 тысяч.
Неа, такие эксперименты не проводили
Обученная модель, которую мы выложили в открытый доступ, это модель распознавания речи (ASR, Speech-To-Text).
Если хочется слушать книжки — то можно обучить на этих данных свою Text-To-Speech модель — хотя это может быть нетривиально, ведь тут большое количество разных спикеров. Либо можно попробовать TTS-модель от Сбера на https://sberdevices.ru/smartspeech/
Ну почему же вы отрезаете часть предложения? Оно выглядело так ;)
Следующие исполнители/песни как экстремальный пример: 24kGoldn, 6lack, xo tour llif3.