Как стать автором
Обновить

Огромный открытый датасет русской речи версия 1.0

Время на прочтение 2 мин
Количество просмотров 18K

image


В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.


Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.


Кратко об Open STT v1.0


  • Более 20 000 часов (изначально мы ставили себе планку в 10 000 часов) аудио русской речи, 2.3 Tb данных (в формате wav, в формате .mp3 конечно меньше);
  • Большое разнообразие доменов: начиная с аудио, записанных на профессиональный микрофон, заканчивая телефонными звонками:

Домен Аннотация Фразы Часы GB
Радио Alignment 8,3М 11,996 1367
Публичная речь Alignment 1,7M 2,709 301
Youtube Субтитры 2,6М 2,117 346
Книги Alignment/ASR 1,3М 1,632 180
Звонки ASR 695K 819 91
Другие датасеты TTS, начитывание 1.9M 835 95

Более детально со статистикой можно познакомиться в репозитории проекта.


  • Теперь данные можно скачать на высокой скорости как в .wav(mono, 16KHz, int16) формате через торрент, так и по прямой ссылке в .mp3;
  • Добавили небольшой вручную размеченный валидационный датасет (18 часов) для 3х основных доменов;

Мы приложили максимум усилий для повышения качества разметки:


  • Усовершенстовали модель для алайнмента новых доменов;
  • Использовали более качественные и тонко настроенные STT-модели для алайнмента;
  • Улучшили алгоритм нормализации цифр и латиницы;
  • Постепенно переразмечаем/убираем "грязные" данные из прошлых версий;
  • Вылечили ряд детских проблем датасета таких как:
    • "Болтающиеся" одиночные буквы в начале и конце предложений;
    • Низкий выход алайнмента вследствие низкого качества моделей;
    • "Правильная" работа со знаками препинания во время алайнмента;
  • (Скоро!) Появятся настоящие лейблы для спикеров;

Для каких задач может пригодиться наш датасет?


  • Распознавание речи;
  • Синтез речи;
  • Денойзинг, устранение шума в аудио;
  • Идентификация голоса;
  • Разделение дикторов;

Как планируем развивать датасет в дальнейшем?


  • Улучшить / перезалить существующие датасеты, почистить разметку;
  • Опубликовать модели для распознования речи и постпроцессинга;
  • Добавить разметку со speaker id. Для части новых доменов есть готовая разметка, но есть также идея добавить спикеров и в старые датасеты;
  • Возможно переключиться на другие языки;
  • Возможно добавить несколько новых доменов;

Подробнее познакомиться с новыми доменами можно в репозитории

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
А вы пользовались версией 0.5 (или более ранней версией) датасета?
7.45% Да 12
68.32% Нет, первый раз слышу 110
14.29% Нет, хотел воспользоваться, но не получилось 23
9.94% Зачем вообще нужен такой датасет? / Мне нерелеватно 16
Проголосовал 161 пользователь. Воздержались 34 пользователя.
Теги:
Хабы:
Если эта публикация вас вдохновила и вы хотите поддержать автора — не стесняйтесь нажать на кнопку
+36
Комментарии 18
Комментарии Комментарии 18

Публикации

Истории

Работа

Data Scientist
66 вакансий

Ближайшие события

Московский туристический хакатон
Дата 23 марта – 7 апреля
Место
Москва Онлайн
Геймтон «DatsEdenSpace» от DatsTeam
Дата 5 – 6 апреля
Время 17:00 – 20:00
Место
Онлайн
PG Bootcamp 2024
Дата 16 апреля
Время 09:30 – 21:00
Место
Минск Онлайн
EvaConf 2024
Дата 16 апреля
Время 11:00 – 16:00
Место
Москва Онлайн