Как стать автором
Обновить

Golos — самый большой русскоязычный речевой датасет, размеченный вручную, теперь в открытом доступе

Время на прочтение6 мин
Количество просмотров17K
Всего голосов 26: ↑23 и ↓3+31
Комментарии14

Комментарии 14

Вместе с датасетом, Сбер недавно также опубликовал свою систему распознавания речи. Хотел бы поделиться с Хабром нашим ультимативным исследованием-сравнением коммерческих систем распознавания речи — https://habr.com/ru/post/559640/

Для того, чтобы избавиться от таких символов, но сохранить данные, мы вновь прибегаем к платформе разметки

Хм, транслитерация несложно делается алгоритмами вроде, разве нет?

Конечно, мы пробовали системы автоматической транслитерации — хотя и в основном для других целей, нежели для генерации точной транскрипции на кириллице. Качество нас не устроило, на таком было бы не сделать хороший ASR-датасет, мы хотим иметь максимально чистый датасет. Нас интересует в первую очередь транскрипция именно того, что произнесено на аудиозаписи. Если речь заходит о музыкальных исполнителях — то ни у какой системы автоматической транслитерации нет шансов, нужно слушать аудиозапись.
Следующие исполнители/песни как экстремальный пример: 24kGoldn, 6lack, xo tour llif3.
На текущий момент это самый большой корпус аудиозаписей на русском языке

Еще есть датасет Open STT — https://github.com/snakers4/open_stt


Я ни в коем случае на умаляю ваших достижений, 1,000 часов это круто с учетом того, что вы только что запилили свой сервис (Яндекс много лет имеет свой ASR, но полезных публикаций за ними не замечено), но буду откровенен — на фоне триллионов рублей влитых в Сбер из ФНБ и релизов западных коллег, выглядит не очень впечатляюще.

Ну почему же вы отрезаете часть предложения? Оно выглядело так ;)


На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную
Вот как бы это всё прикрутить к FBreader? И слушать электронные книжки?

Обученная модель, которую мы выложили в открытый доступ, это модель распознавания речи (ASR, Speech-To-Text).
Если хочется слушать книжки — то можно обучить на этих данных свою Text-To-Speech модель — хотя это может быть нетривиально, ведь тут большое количество разных спикеров. Либо можно попробовать TTS-модель от Сбера на https://sberdevices.ru/smartspeech/

А сколько уникальных голосов? И не проводили эксперименты, какое уникальное количество голосов начинает давать приемлемый результат?

Господа, пара вопросов.
1. Правильно ли я понимаю, что crowd-домен это записи микрофонного качества, сделанные на гарнитуру или микрофон ноутбука? Были ли какие то требования к таким записям?
2. «Для экспериментов с ограниченным числом записей мы выделили подмножества меньшей длины»
В чем смысл экспериментов? Отражена ли как то эта информация в опубликованном датасете?
3. При обучении акустики на ru-english слова используете ли вы информацию об ударении, сделанном диктором непосредственно в данной записи?

Добрый день!


  1. Эти записи получены со смартфонов, никаких особенных ограничений мы не накладывали
  2. В датасете есть отдельные tsv-файлы для 100/10/1 часов и 10 минут. Это сделано, например, для того, чтобы погонять пробные эксперименты и быть уверенным в своих пайплайнах перед запуском обучения на всём датасете
  3. Нет, мы никак не используем информацию об ударении
Спасибо. Исчерпывающе.
На текущий момент это самый большой корпус аудиозаписей на русском языке, размеченный вручную.
Но на гите только аудио, акустическая и языковая модель. Нет файлов аннотации. В чём тогда польза для сообщества от ручной разметки?

Добрый день! В архивах есть jsonl-файлы, содержащие аннотацию

Зарегистрируйтесь на Хабре, чтобы оставить комментарий