Comments 13
извиняюсь за свою дремучесть. но 6000+ языков. что это за языки?
Эти сеты могут быть использованы для распознавания содержимого речи? Даже устный язык индейцев навахо ("говорящих с ветром") можно будет понять?
Супер, данные просто бесценны! А вы не хотите их заодно на https://academictorrents.com/ оформить? Подходящий ресурс для подобных коллекций.
В данном случае данные оформлены в виде ссылок на публичные датасеты и данные, поэтому перевыкладывать их имеет мало смысла, тем более что некоторые лицензии это прямо запрещают.
Всё, удалили? На github 404
Если я правильно понял, ваши датасеты только для детекции языка.
После определения языка следующий этап - распознаваниe речи в текст.
Есть ли у вас планы по созданию моделей для распознавания речи в текст?
Или вы сфокусировались исключительно на определении языка?
Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?
На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.
Есть ли у вас планы по созданию моделей для распознавания речи в текст? Или вы сфокусировались исключительно на определении языка?
В данной статье идёт речь про датасет для детекции языка.
Так же, какова ценность вашего детектора, если уже имеющиеся модели в состоянии автоматически определить язык и распознать речь в текст?
На базе одной из таких моделей я как раз наговариваю сейчас этот текст, который автоматически переключается между английским и русским.
Тяжело, конечно, сравнивать без конкретного указания какие именно "модели" имеются в виду, но наш детектор языка потребляет примерно на 2-3 порядка меньше ресурсов, чем "обычные" модели распознавания и на 5-6 порядков меньше, чем "большие".
Также как правило чем больше и универсальнее модели, тем они менее контролируемы и тем больше галлюцинаций они выдают на таких простых задачах, как детекция речи. В гугле легко ищутся самые популярные галлюцинации на эту тему.
У конкретного инструмента, вроде детектора речи, можно добиться высокого качества решения конкретной задачи без галлюцинаций на на порядки меньшем вычислительном бюджете.
Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках