eran Jun 15 2023 at 09:23

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Easy

8 min

6.3K

Yandex Cloud & Yandex Infrastructure corporate blogMachine learning * Cloud services * Artificial IntelligenceVoice user interfaces *

+27

Comments 13

Noospheratu Jun 15 2023 at 09:34

"... создаём языки...". Может быть, "добавляем"?

eran Jun 15 2023 at 09:49

"... создаём языки..." здесь использовали именно в контексте создания синтеза и распознавания под эти языки. Но согласен, без контекста может звучать странно :)

Aleks_ja Jun 15 2023 at 10:00

Планируется ли сделать синтез речи, либо распознавание для беларуского языка в Yandex SpeechKit?

В Сommon Voice уже почти 1500 часов накопилось.

eran Jun 15 2023 at 11:17

Пока что мы при создании синтеза и распознавания под каждый новый язык смотрим на востребованность этого языка для бизнеса. Следите за новостями, в какой-нибудь момент у нас наверняка появятся синтез и распознавание для белорусского языка, но пока без каких-либо сроков

UFO landed and left these words here

eran Jun 16 2023 at 06:57

Всё так, размечаются целиком предложения/фразы. Речь скорее шла о нежелательности выбросов на уровне слов. Например, если часть фразы была не размечена или была размечена неправильно

Benedictus Jun 16 2023 at 06:32

Я правильно понял что нормализация и для ASR и для TTS у вас сейчас строится на базе нейронке а нее на рулах или у вас какая то комбинация из этих инструментов?

eran Jun 16 2023 at 07:06

Сейчас мы используем скорее их комбинацию. Но правила, которые у нас есть, достаточно простые. И они больше применяются либо для исправления проведения сетки там, где она плохо справляется, либо для сбора данных для обучения той же сетки :)

SEN7759 Jun 16 2023 at 15:07

Когда эсперанто добавите?

eran Jun 16 2023 at 15:12

Не раньше белорусского :)

prorockov Jun 17 2023 at 00:23

Это, наверное, прекрасная система.
Только почему никто из техподдержки не может рассказать, как её можно интегрировать в свои сервисы? Например, у меня есть АТС на freePBX16. Продажники готовы продать сервис SpeechKit, я готов купить.

ispany Jun 19 2023 at 12:21

Хочется отметить, что все языки в SpeechKit работают в рамках единой мультиязычной модели. Это возможно во многом благодаря её трансформерной архитектуре.

При добавлении нового языка при этом переучиваете модель на всех данных? Вы как-то балансируете данные чтобы при добавлении нового языка модель не забывала старые?

И еще вопрос, в Яндекс Переводчике есть функция распознания речи, но для узбекского (и казахского) языка эта функция не поддерживается. Планируется добавление распознавания этих языков в переводчик?

eran Jun 19 2023 at 14:47

При добавлении нового языка при этом переучиваете модель на всех данных? Вы как-то балансируете данные чтобы при добавлении нового языка модель не забывала старые?

Если вкратце, то "да" и "да". Детальнее — уже особенности внутренней кухни :)

Планируется добавление распознавания этих языков в переводчик?

Переводчик — это отдельный не контролируемый нами сервис Яндекса. Сейчас мы скорее не можем повлиять на добавление распознавания на этих языках в сервис перевода. Но мы передали эту идею коллегам, спасибо!