Как стать автором
Поиск
Написать публикацию
Обновить

Mozilla обновила наборы голосовых данных Common Voice, включающие примеры произношения более 200 тыс. человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился с 27.1 до 28.1 тысяч часов речи, из которых 18.6 тысяч часов прошли процедуру проверки. Число поддерживаемых языков увеличилось со 108 до 112 (добавлены пушту, албанский, амхарский и стандартный марокканский берберский языки).

В подготовке материалов на английском языке приняли участие 88 тыс. человек, надиктовавших 3279 часов речи. Набор для русского языка охватывает 3001 участника и 263 часа.

Проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах.

Источник: OpenNET.

Рейтинг0
Комментарии0

Публикации

Ближайшие события