Audioman 4 апр 2020 в 13:29

Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons

3 мин

3.7K

Блог компании АудиоманияOpen source*Программирование*Машинное обучение*Звук

Небольшой дайджест для тех, кто разрабатывает модели машинного обучения.

Под катом — своды данных с речью, музыкой и шумом промышленных агрегатов.

^{Фото Emily Morter / Unsplash}

AudioSet

Этот набор данных курируют инженеры из лаборатории Machine Perception, являющейся частью Google. В нем собраны более двух миллионов голосовых отрезков из видео на YouTube длительностью до десяти секунд. Все они разбиты на 632 класса, которые описывают происходящее в ролике. Вот лишь пара примеров: музыка, смех, храп, взрыв, шум газонокосилки, журчание ручья, лай собаки.

AudioSet предлагает три набора: тестовый, сбалансированный и несбалансированный. Первый включает 20 383 видеосегмента, которые рассортированы по 527 звуковым классам. В каждом из них приведено минимум 59 роликов. Сбалансированный набор похож на тестовый, за одним исключением — в нем 22 176 сегментов. Что касается несбалансированного, то он содержит все два миллиона семплов без какой-либо сортировки.

Данные для скачивания представлены в двух форматах: как текстовые csv-файлы и как аудиопризнаки, извлеченные из видеороликов сверточной нейросетью. Чтобы выгрузить все видеозаписи, на основе которых собраны данные, можно использовать python-модуль — youtube-dl. Датасет распространяют по лицензии CC BY 4.0. За обновлениями можно следить в группе Google: audioset-users.

MIMII Dataset

Инженеры из Hitachi представили базу аудиозаписей со звуками работающего промышленного оборудования. Датасет подойдет для разработки моделей машинного обучения, определяющих неисправности индустриальных агрегатов. Подборка содержит шумы клапанов, помп и вентиляторов. Более 26 тыс. десятисекундных семплов посвящены аппаратуре, работающей в штатном режиме.

Еще 6 тыс. файлов — это записи машин, функционирующих в неидеальных условиях: без смазки, со сломанными лопастями или поврежденными направляющими.

Все записи сделаны в формате WAV с частотой дискретизации 16 кГц — их общий вес превышает 150 Гбайт. Примеры можно прослушать по ссылке. Набор распространяют по лицензии CC BY-SA.

^{Фото Nathan Roser / Unsplash}

LibriSpeech

Этот свод данных включает тысячу часов английской речи (16 кГц). Его курируют инженеры Васил Панайотов (Vassil Panayotov) и Дэниел Повей (Daniel Povey) из Университета Джонса Хопкинса. Данные взяты из аудиокниг, которые создает некоммерческий проект LibriVox. Их записывают добровольцы, читая тексты, являющиеся общественным достоянием в США — например, из проекта «Гутенберг».

Помимо самого датасета, на сайте можно скачать все MP3-файлы с записями (это 87 Гбайт) и метаданные к ним. Установленная лицензия — CC BY 4.0. Оценить акустические модели, натренированные с помощью этого набора данных, можно на kaldi-asr.org.

Million Song Dataset

Бесплатная коллекция аудиопризнаков и метаданных для миллиона популярных треков. В ней нет самих аудиозаписей, однако оригинальные дорожки можно «подтянуть», используя код, предоставленный разработчиками. Ими выступили инженеры из Национального научного фонда США, отвечающего за развитие науки и технологий в стране. Одной из первых данные для датасета предоставила аналитическая платформа The Echo Nest, которой с 2014 года владеет Spotify. Свой вклад также внесли Last.fm, Musixmatch и SecondHandSongs.

Вся база весит около 300 Гбайт. Но авторы предлагают небольшую тестовую выборку из 10 тыс. композиций — это 1,8 Гбайт. Все они разделены на категории, среди которых можно выделить: исполнителя, жанр, дату релиза, настроение и другие.

Больше подборок в нашем «Мире Hi-Fi»:

Где взять аудиосемплы для ваших проектов: подборка из девяти тематических ресурсов

12 тематических ресурсов с треками по лицензии Creative Commons

Где брать аудио для разработки игр и других коммерческих проектов

До 5 апреля мы заморозили цены на ряд товаров. Это — отличная возможность приобрести гаджет, который вы давно для себя присматривали. Например, акустику или «вертушку» до 25 тыс. руб.:

[17 150] ELAC Debut B5.2 — обзор What Hi-Fi: «Одно из лучших произведений»
[24 990] Lenco L-87 — обзор Stereo: «Когда нужно с чего-то начать»

P.S. Указанные цены актуальны только на дату размещения публикации. Сверяйтесь с официальным сайтом «Аудиомании», чтобы выбрать подходящий по вкусу аудиогаджет.

Теги:

Хабы:

Где взять аудио для машинного обучения: подборка открытых библиотек с лицензией Creative Commons

AudioSet

MIMII Dataset

LibriSpeech

Million Song Dataset

Публикации

Информация

Истории