snakers4 Apr 11 2024 at 03:26

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Easy

2 min

Big Data * Open data * Machine learning * SoundNatural Language Processing *

Review

+18

Comments 13

alexmuk Apr 11 2024 at 03:41

извиняюсь за свою дремучесть. но 6000+ языков. что это за языки?

snakers4 Apr 11 2024 at 04:42

Примерно вот такие

yappari Apr 11 2024 at 12:10

Это именно языков столько? Складывается ощущение, что процентов 70-80 это диалекты. Неужели в каких-то регионах есть по языку на квадратный километр?

snakers4 Apr 11 2024 at 12:10

Одно время в одной только Индии было более 1000 языков.

Ds02006 Apr 11 2024 at 04:56

Эти сеты могут быть использованы для распознавания содержимого речи? Даже устный язык индейцев навахо ("говорящих с ветром") можно будет понять?

snakers4 Apr 11 2024 at 05:26

Они могут быть использованы в первую очередь для детекции речи.

SuharkovMP Apr 11 2024 at 05:14

Супер, данные просто бесценны! А вы не хотите их заодно на https://academictorrents.com/ оформить? Подходящий ресурс для подобных коллекций.

snakers4 Apr 11 2024 at 05:25

В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.

SuharkovMP Apr 11 2024 at 05:42

Данные перекладывать не надо, все ж на месте останется. Обмениваться легче будет, по мере роста количества скачавших себе копию. Конечно же, будет расти и риск того, что кто-то из скачавших нарушит CC BY-NC-SA 4.0 - но то же самое может случиться и без торрентов.

TsarS Apr 11 2024 at 06:25

Всё, удалили? На github 404

snakers4 Apr 11 2024 at 06:32

Поправил ссылку

vagon333 Apr 11 2024 at 14:39

Если я правильно понял, ваши датасеты только для детекции языка.
После определения языка следующий этап - распознаваниe речи в текст.

Есть ли у вас планы по созданию моделей для распознавания речи в текст?
Или вы сфокусировались исключительно на определении языка?

Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?

На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.

snakers4 Apr 11 2024 at 14:50

Есть ли у вас планы по созданию моделей для распознавания речи в текст? Или вы сфокусировались исключительно на определении языка?

В данной статье идёт речь про датасет для детекции языка.

Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?
На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.

Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".

Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.

У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.