В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.
Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.
Кратко об Open STT v1.0
- Более 20 000 часов (изначально мы ставили себе планку в 10 000 часов) аудио русской речи, 2.3 Tb данных (в формате
wav
, в формате.mp3
конечно меньше); - Большое разнообразие доменов: начиная с аудио, записанных на профессиональный микрофон, заканчивая телефонными звонками:
Домен | Аннотация | Фразы | Часы | GB |
---|---|---|---|---|
Радио | Alignment | 8,3М | 11,996 | 1367 |
Публичная речь | Alignment | 1,7M | 2,709 | 301 |
Youtube | Субтитры | 2,6М | 2,117 | 346 |
Книги | Alignment/ASR | 1,3М | 1,632 | 180 |
Звонки | ASR | 695K | 819 | 91 |
Другие датасеты | TTS, начитывание | 1.9M | 835 | 95 |
Более детально со статистикой можно познакомиться в репозитории проекта.
- Теперь данные можно скачать на высокой скорости как в
.wav
(mono, 16KHz, int16) формате через торрент, так и по прямой ссылке в.mp3
; - Добавили небольшой вручную размеченный валидационный датасет (18 часов) для 3х основных доменов;
Мы приложили максимум усилий для повышения качества разметки:
- Усовершенстовали модель для алайнмента новых доменов;
- Использовали более качественные и тонко настроенные STT-модели для алайнмента;
- Улучшили алгоритм нормализации цифр и латиницы;
- Постепенно переразмечаем/убираем "грязные" данные из прошлых версий;
- Вылечили ряд детских проблем датасета таких как:
- "Болтающиеся" одиночные буквы в начале и конце предложений;
- Низкий выход алайнмента вследствие низкого качества моделей;
- "Правильная" работа со знаками препинания во время алайнмента;
- (Скоро!) Появятся настоящие лейблы для спикеров;
Для каких задач может пригодиться наш датасет?
- Распознавание речи;
- Синтез речи;
- Денойзинг, устранение шума в аудио;
- Идентификация голоса;
- Разделение дикторов;
Как планируем развивать датасет в дальнейшем?
- Улучшить / перезалить существующие датасеты, почистить разметку;
- Опубликовать модели для распознования речи и постпроцессинга;
- Добавить разметку со speaker id. Для части новых доменов есть готовая разметка, но есть также идея добавить спикеров и в старые датасеты;
- Возможно переключиться на другие языки;
- Возможно добавить несколько новых доменов;
Подробнее познакомиться с новыми доменами можно в репозитории