Как стать автором
Обновить

«Яндекс» добавит в «Переводчик» более 20 языков малых народов России

Время на прочтение2 мин
Количество просмотров1.5K

«Яндекс. Переводчик» обновят, добавив в него более двух десятков языков малых народов России. Сервис уже поддерживает осетинский язык, а остальные будут добавлять постепенно в течение ближайших трёх лет.

Некоторые языки получат встроенную нейросетевую технологию распознавания и синтеза речи. Это позволит переводить сайты в «Яндекс. Браузере», а также использовать голосовой ввод в «Поиске», «Картах» и мессенджерах с помощью «Яндекс. Клавиатуры». Первым языком с поддержкой этой опции станет татарский.

Кроме татарского, распознавание и синтез речи будут доступны для более чем 10 популярных языков, на каждом из которых говорят более 300 тысяч человек

Кроме того, виртуальный ассистент «Алиса» научится читать на этих языках народные сказки. 

По данным «Яндекс. Поиска», жители РФ чаще всего ищут в Интернете перевод фраз на татарском. На втором месте — башкирский, а на третьем — чувашский. Эти и другие языки, такие как удмуртский, якутский, горномарийский и марийский, уже доступны в «Переводчике», часть из них — в бета-версии.  Позднее в «Переводчик» будут добавлены языки Северного Кавказа: чеченский, ингушский и другие, а позже и языки народов Сибири, в том числе бурятский и тувинский. 

Наконец, «Яндекс» планирует улучшить качество перевода доступных языков.

Чтобы научить нейросеть переводить с новых языков, ей показывают параллельные тексты — фрагменты одинакового текста на двух языках. При этом энкодер конвертирует исходный текст в абстрактное представление в виде чисел, а декодер использует это представление для генерации перевода. Однако в случае с малыми языками нейросети обычно не хватает данных. Чтобы решить эту проблему, «Яндекс» прибегает к помощи лингвистического сообщества. Кроме того, улучшать перевод помогают знания о схожих языках. В «Яндекс. Переводчике» одна модель переводит с татарского, якутского и чувашского на русский, поскольку эти три языка относятся к тюркским. Создание единой модели для родственных языков позволяет собирать большой набор параллельных текстов и в итоге добиваться более высокого качества, чем при обучении отдельных моделей для каждого языка.

Между тем в Google Translate внедрили поддержку 110 новых языков, от кантонского диалекта до кекчи. Ранее компания объявила об инициативе «1000 языков» — обязательстве создать модели искусственного интеллекта, которые будут поддерживать именно такое количество переводов.

Теги:
Хабы:
Всего голосов 4: ↑4 и ↓0+8
Комментарии1

Другие новости

Истории

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
11 сентября
Митап по BigData от Честного ЗНАКа
Санкт-ПетербургОнлайн
19 сентября
CDI Conf 2024
Москва
24 сентября
Конференция Fin.Bot 2024
МоскваОнлайн
25 сентября
Конференция Yandex Scale 2024
МоскваОнлайн
28 – 29 сентября
Конференция E-CODE
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
30 сентября – 1 октября
Конференция фронтенд-разработчиков FrontendConf 2024
МоскваОнлайн