В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.

Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Кратко об Open STT v1.0

Более 20 000 часов (изначально мы ставили себе планку в 10 000 часов) аудио русской речи, 2.3 Tb данных (в формате wav, в формате .mp3 конечно меньше);
Большое разнообразие доменов: начиная с аудио, записанных на профессиональный микрофон, заканчивая телефонными звонками:

Домен	Аннотация	Фразы	Часы	GB
Радио	Alignment	8,3М	11,996	1367
Публичная речь	Alignment	1,7M	2,709	301
Youtube	Субтитры	2,6М	2,117	346
Книги	Alignment/ASR	1,3М	1,632	180
Звонки	ASR	695K	819	91
Другие датасеты	TTS, начитывание	1.9M	835	95

Более детально со статистикой можно познакомиться в репозитории проекта.

Теперь данные можно скачать на высокой скорости как в .wav(mono, 16KHz, int16) формате через торрент, так и по прямой ссылке в .mp3;
Добавили небольшой вручную размеченный валидационный датасет (18 часов) для 3х основных доменов;

Мы приложили максимум усилий для повышения качества разметки:

Усовершенстовали модель для алайнмента новых доменов;
Использовали более качественные и тонко настроенные STT-модели для алайнмента;
Улучшили алгоритм нормализации цифр и латиницы;
Постепенно переразмечаем/убираем "грязные" данные из прошлых версий;
Вылечили ряд детских проблем датасета таких как:
- "Болтающиеся" одиночные буквы в начале и конце предложений;
- Низкий выход алайнмента вследствие низкого качества моделей;
- "Правильная" работа со знаками препинания во время алайнмента;
(Скоро!) Появятся настоящие лейблы для спикеров;

Для каких задач может пригодиться наш датасет?

Распознавание речи;
Синтез речи;
Денойзинг, устранение шума в аудио;
Идентификация голоса;
Разделение дикторов;

Как планируем развивать датасет в дальнейшем?

Улучшить / перезалить существующие датасеты, почистить разметку;
Опубликовать модели для распознования речи и постпроцессинга;
Добавить разметку со speaker id. Для части новых доменов есть готовая разметка, но есть также идея добавить спикеров и в старые датасеты;
Возможно переключиться на другие языки;
Возможно добавить несколько новых доменов;

Подробнее познакомиться с новыми доменами можно в репозитории

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

7.27%Да12

68.48%Нет, первый раз слышу113

14.55%Нет, хотел воспользоваться, но не получилось24

9.7%Зачем вообще нужен такой датасет? / Мне нерелеватно16

Проголосовали 165 пользователей. Воздержались 34 пользователя.

Огромный открытый датасет русской речи версия 1.0

Кратко об Open STT v1.0

Для каких задач может пригодиться наш датасет?

Как планируем развивать датасет в дальнейшем?

Публикации