
Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).
Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.
Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).
Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.
Подробности
Датсет содержит следующие наборы данных на следущих языках:
Датасет представлен в виде .feather файлов, содержащих размеченные открытые наборы аудиоданных, а также короткое описание каждого набора данных с примерами загрузки. .feather файлы можно открыть с помощью библиотеки pandas:
import pandas as pd dataframe = pd.read_feather(PATH_TO_FEATHER_FILE)
Каждый .feather файл с разметкой содержит следующие колонки:
speech_timings- разметка данного аудио. Это список, содержащий словари вида{'start': START_SECOND, 'end': END_SECOND}, гдеSTART_SECONDиEND_SECOND- время начала и конца речи в секундах. Количество данных словарей равно количеству речевых аудио отрывков, найденных в данном аудио;language- ISO код языка данного аудио.
Все остальные детали и подробности вы можете узнать по ссылке.
Лицензия
Лицензия CC BY-NC-SA 4.0 была неизбежно выбрана, потому что один самых интересных наборов данных, globalrecordings.net, опубликован под этой "виральной" лицензией, которая обязывает пользователей использовать ее для производных работ.
Определенный вопрос есть с трактовкой лицензии Bible.is, но если нас попросят удалить эту часть датасета - это придется сделать.
Цитирование и аффилиации
Датасет создан при поддержке Фонда содействия инновациям в рамках федерального проекта «Искусственный интеллект» национальной программы «Цифровая экономика Российской Федерации».
Цитировать датасет можно следующим образом:
@misc{Silero VAD Dataset, author = {Silero Team}, title = {Silero-VAD Dataset: a large public Internet-scale dataset for voice activity detection for 6000+ languages}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {\url{https://github.com/snakers4/silero-vad/datasets/README.md}}, email = {hello@silero.ai} }
