Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках / Хабр

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Подробности

Датсет содержит следующие наборы данных на следущих языках:

Название	Число часов	Число языков	Ссылка	Лицензия
Bible.is	53,138	1,596	URL	Уникальная
globalrecordings.net	9,743	6,171	URL	CC BY-NC-SA
VoxLingua107	6,628	107	URL	CC BY
Common Voice	30,329	120	URL	CC0
MLS	50,709	8	URL	CC BY
Итого	150,547	6,171+

Датасет представлен в виде .feather файлов, содержащих размеченные открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather файлы можно открыть с помощью библиотеки pandas:

import pandas as pd
dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)

Каждый .feather файл с разметкой содержит следующие колонки:

speech_timings - разметка данного аудио. Это список, содержащий словари вида {'start': START_SECOND, 'end': END_SECOND}, где START_SECOND и END_SECOND - время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;
language - ISO код языка данного аудио.

Все остальные детали и подробности вы можете узнать по ссылке.

Лицензия

Лицензия CC BY-NC-SA 4.0 была неизбежно выбрана, потому что один самых интересных наборов данных, globalrecordings.net, опубликован под этой "виральной" лицензией, которая обязывает пользователей использовать ее для производных работ.

Определенный вопрос есть с трактовкой лицензии Bible.is, но если нас попросят удалить эту часть датасета - это придется сделать.

Цитирование и аффилиации

Датасет создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».

Цитировать датасет можно следующим образом:

@misc{Silero VAD Dataset,
  author = {Silero Team},
  title = {Silero-VAD Dataset: a large public Internet-scale dataset for voice activity detection for 6000+ languages},
  year = {2024},
  publisher = {GitHub},
  journal = {GitHub repository},
  howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}},
  email = {hello@silero.ai}
}