Огромный открытый датасет русской речи версия 1.0

    image


    В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
    можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.


    Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.


    Кратко об Open STT v1.0


    • Более 20 000 часов (изначально мы ставили себе планку в 10 000 часов) аудио русской речи, 2.3 Tb данных (в формате wav, в формате .mp3 конечно меньше);
    • Большое разнообразие доменов: начиная с аудио, записанных на профессиональный микрофон, заканчивая телефонными звонками:

    Домен Аннотация Фразы Часы GB
    Радио Alignment 8,3М 11,996 1367
    Публичная речь Alignment 1,7M 2,709 301
    Youtube Субтитры 2,6М 2,117 346
    Книги Alignment/ASR 1,3М 1,632 180
    Звонки ASR 695K 819 91
    Другие датасеты TTS, начитывание 1.9M 835 95

    Более детально со статистикой можно познакомиться в репозитории проекта.


    • Теперь данные можно скачать на высокой скорости как в .wav(mono, 16KHz, int16) формате через торрент, так и по прямой ссылке в .mp3;
    • Добавили небольшой вручную размеченный валидационный датасет (18 часов) для 3х основных доменов;

    Мы приложили максимум усилий для повышения качества разметки:


    • Усовершенстовали модель для алайнмента новых доменов;
    • Использовали более качественные и тонко настроенные STT-модели для алайнмента;
    • Улучшили алгоритм нормализации цифр и латиницы;
    • Постепенно переразмечаем/убираем "грязные" данные из прошлых версий;
    • Вылечили ряд детских проблем датасета таких как:
      • "Болтающиеся" одиночные буквы в начале и конце предложений;
      • Низкий выход алайнмента вследствие низкого качества моделей;
      • "Правильная" работа со знаками препинания во время алайнмента;
    • (Скоро!) Появятся настоящие лейблы для спикеров;

    Для каких задач может пригодиться наш датасет?


    • Распознавание речи;
    • Синтез речи;
    • Денойзинг, устранение шума в аудио;
    • Идентификация голоса;
    • Разделение дикторов;

    Как планируем развивать датасет в дальнейшем?


    • Улучшить / перезалить существующие датасеты, почистить разметку;
    • Опубликовать модели для распознования речи и постпроцессинга;
    • Добавить разметку со speaker id. Для части новых доменов есть готовая разметка, но есть также идея добавить спикеров и в старые датасеты;
    • Возможно переключиться на другие языки;
    • Возможно добавить несколько новых доменов;

    Подробнее познакомиться с новыми доменами можно в репозитории

    Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

    А вы пользовались версией 0.5 (или более ранней версией) датасета?

    • 6,5%Да10
    • 68,6%Нет, первый раз слышу105
    • 14,4%Нет, хотел воспользоваться, но не получилось22
    • 10,5%Зачем вообще нужен такой датасет? / Мне нерелеватно16

    Комментарии 18

      +2
      Датасет это хорошо, но еще лучше линки(или прямые примеры) как его использовать.
        +2
        У вас есть возможность сделать такие примеры. Наличие Image Net-a — это возможность, наличие Open STT — это возможность. Без них не будет примеров и реальных применений.
          +2

          Вообще мы планируем релизить пре-тренированные модели в домене STT и TTS (не решили до конца еще в каком виде), натренированные на масштабных данных. И сейчас волна демократизации в речи только начинается, поэтому первый, кто делится, по сути находится в условно проигрышном положении.


          Но каждая такая задача — это сейчас такой большой комок противоречий и длинный путь по оптимизации, по сути полноценный research проект. Там столько много всего, что на эту тему будет тоже отдельная статья.


          Если нужен линк, где все условно plug and play, то сейчас в отличие от того же Computer Vision в речи вроде такие линки как бы и есть, но рекомендовать их не возьмусь, т.к. везде есть такие strings attached, что я сам ими в итоге не стал пользоваться.


          Из того, что ± работает — EspNet, DeepSpeech 2, Wav2Letter++.

            0
            Спасибо за такую огромную работу! Могу сказать, что DeepSpeech2 даёт достаточно хорошие прогнозы на одном только private_buriy_audiobooks_2 (~1500 часов).
              0

              Тут всегда стоит вопрос генерализации обученной модели на другие домены ...

          +1
          Датасет русской речи, лейблы для спикеров… По мне, русская речь выглядит не так.
          Набор данных, метки для докладчиков и т.п. Ведь так гораздо приятнее.
            +1
            Знаете ли вы, что все слова, содержащие букву 'ф' — не русского происхождения? Чем замените форточку, конфорку и фильм, чтобы было гораздо приятнее?
              +2
              У обозначенных Вами слов замены нет, а вот у тех, на которые указал Gar02, есть.
                +3

                Ну почему нет, можно как минимум использовать малый проем окна, газовую горелку, плёнку. Вместо глаза использовать око, вместо пляжа набережную.
                Спор бессмысленный, устоявшейся терминологии нет, все статьи на английском, языки развиваются, проф жаргон был всегда. Боярский звучит смешно.
                Просто приведите мне нормальные русские аналоги для 'CNN', 'deep learning', 'inference’, 'reinforcement learning’, 'end-to-end training', 'confusion matrix', с которыми все согласятся

                  +1
                  Ну для «CNN» и «deep learning» устоявшиеся аналоги всё же есть. А вот с остальными примерами всё плохо, конечно.
                  Не понимаю, как можно требовать тотальной «русификации» от отрасли, которая растёт у нас на глазах, здесь и сейчас, и растёт как раз таки на английском языке.
                    +1
                    для reinforcement learning тоже есть — обучение с подкреплением, confusion matrix — матрица ошибок; для остальных указанных терминов, к сожалению, нет устоявшихся эквивалентов
                      0
                      Всегда интересовал вопрос: почему бы на хабре не сделать ИТ словарь для устоявшихся терминов? Может что-то вики-подобное, а может и просто пост редактируемый. Преподаю в университете и с каждым готом все больше осознаю свою ответственность перед студентами в выборе терминологии. В Израиле есть целый институт, который переводит терминологию. А у нас всё хаотично. И было бы здорово, если ИТ ресурс №1 сделал бы инструменты для словаря.

                      Пример:
                      1) Deductor Studio — отличный простой софт для знакомства с Data Mining переводил confusion matrix, как — «таблица сопряженности».
                      2) Яндекс переводчик: confusion matrix => «матрица неточностей»

                      Очень не хватает стандарта. У студентов в головах каша. Продвинутые английским пользуются, а что с остальными делать?
                        +1
                        хабре не сделать ИТ словарь

                        На хабре были прекрасные споры про профсоюз айтишников.
                        Не вспомню в какой статье, но итог будет такой же.


                        что с остальными делать

                        Видел пару примеров, когда без учителей, выпускники технических вузов, без инвестиций в курсы и преподавателей, за 6-12 месяцев неплохо поднимали уровень английского до "читаю и смотрю все без проблем".


                        Чего и вашим студентам советую.


                        Рецепт прост — 15 минут занятий каждый день, просмотр аудио выступлений, чтение, кино, сериалы, научные статьи, минимальная грамматика. Требует минимальной базы, но куда без нее.

                          +1
                          Чего и вашим студентам советую.
                          И я им это советую. Но это не решает проблему с переводом терминологии. Лекции по ИТ и так перенасыщены английскими терминами. И часто по причине существования множества альтернативных переводов.

                          В идеале, было бы удобно привести на лекции оригинальный термин на английском и его унифицированный перевод на русский и далее использовать русский. Причем, я не настаиваю на славянских корнях термина, а лишь подчеркиваю кривизну использования английских слов в русской речи. Их же склонять приходится :)
                          0
                          Это было бы очень хорошо. Мой коллега, профессор в области математики (не знаю точно, как называется его специализация), по поводу засилья западной терминологии в русском языке сказал мне примерно следующее.

                          Действительно новых терминов, отсутствующих в русском языке, — дай бог, половина. И при некоторых усилиях их можно перевести на русский без потери изначального смысла.
                          Остальная половина давно переведена на родной язык без потери смысла, и прочно вошла в язык русского научного сообщества.
                          Поэтому англицизмами сыпят в основном те, кто либо маловато знает предмет для самостоятельного перевода, либо пытается произвести впечатление на инвесторов.

                          Его речь содержит мало англицизмов, и это отнюдь не «боярский язык» XVII века, как любят юродствовать некоторые персонажи.
              +1
              Спасибо. Вы очень вовремя.
                0

                Вижу людей, кто пытается скачать торрент через неработающие клиенты (мне написала пара людей, которые думали мол что дело в том, что нет сидеров). У 2 людей пофиксилось по моей инструкции.


                Причина внезапно была в том, что не совсем очевидно какой размер блока ставить для такого большого торрента, я поставил большой блок, а многие торрент клиенты его не поддерживают.


                Короче вам сюда — вот так должно все работать:



                image

                  0

                  А пересчитывать торрент, когда его скачало уже пара людей, это тоже боль.

                Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                Самое читаемое