Комментарии 14
Вместе с датасетом, Сбер недавно также опубликовал свою систему распознавания речи. Хотел бы поделиться с Хабром нашим ультимативным исследованием-сравнением коммерческих систем распознавания речи — https://habr.com/ru/post/559640/
Для того, чтобы избавиться от таких символов, но сохранить данные, мы вновь прибегаем к платформе разметки
Хм, транслитерация несложно делается алгоритмами вроде, разве нет?
Следующие исполнители/песни как экстремальный пример: 24kGoldn, 6lack, xo tour llif3.
На текущий момент это самый большой корпус аудиозаписей на русском языке
Еще есть датасет Open STT — https://github.com/snakers4/open_stt
Я ни в коем случае на умаляю ваших достижений, 1,000 часов это круто с учетом того, что вы только что запилили свой сервис (Яндекс много лет имеет свой ASR, но полезных публикаций за ними не замечено), но буду откровенен — на фоне триллионов рублей влитых в Сбер из ФНБ и релизов западных коллег, выглядит не очень впечатляюще.
Обученная модель, которую мы выложили в открытый доступ, это модель распознавания речи (ASR, Speech-To-Text).
Если хочется слушать книжки — то можно обучить на этих данных свою Text-To-Speech модель — хотя это может быть нетривиально, ведь тут большое количество разных спикеров. Либо можно попробовать TTS-модель от Сбера на https://sberdevices.ru/smartspeech/
А сколько уникальных голосов? И не проводили эксперименты, какое уникальное количество голосов начинает давать приемлемый результат?
1. Правильно ли я понимаю, что crowd-домен это записи микрофонного качества, сделанные на гарнитуру или микрофон ноутбука? Были ли какие то требования к таким записям?
2. «Для экспериментов с ограниченным числом записей мы выделили подмножества меньшей длины»
В чем смысл экспериментов? Отражена ли как то эта информация в опубликованном датасете?
3. При обучении акустики на ru-english слова используете ли вы информацию об ударении, сделанном диктором непосредственно в данной записи?
Добрый день!
- Эти записи получены со смартфонов, никаких особенных ограничений мы не накладывали
- В датасете есть отдельные tsv-файлы для 100/10/1 часов и 10 минут. Это сделано, например, для того, чтобы погонять пробные эксперименты и быть уверенным в своих пайплайнах перед запуском обучения на всём датасете
- Нет, мы никак не используем информацию об ударении
Но на гите только аудио, акустическая и языковая модель. Нет файлов аннотации. В чём тогда польза для сообщества от ручной разметки?
Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе