«Яндекс» работает над ещё не анонсированной нейросетевой моделью SpeechGPT и нанимает в соответствующую команду инженера в области машинного обучения, говорится в разделе вакансий компании. На это обратил внимание «Ъ». Речь идёт о мультимодальной модели (то есть способной обрабатывать разные виды вводных данных), которая «умеет воспринимать текст и звук, отвечать текстом и звуком, решать разные задачи на стыке текста и звука».
В «Яндексе» пояснили, что работают над мультимодальностью в ассистенте «Алиса» и других сервисах. На вопрос о модели SpeechGPT в компании не ответили.
Некоторые нейросетевые сервисы «Яндекса» уже позволяют принимать вводные данные разных видов. С ассистентом «Алиса» можно общаться как голосом, так и текстом; в декабре 2023 года компания сделала отдельный подраздел сайта с текстовым чатом. В последних числах мая «Яндекс» схожим образом расширил функциональность сервиса Yandex SpeechSense: изначально созданный для анализа работы кол‑центров сервис получил возможность обрабатывать и текстовые сообщения. Возможность обрабатывать одновременно текст и картинки есть в сервисе «Нейро».
Но между мультимодальным пользовательским опытом и мультимодальностью самой модели есть разница, объясняет сооснователь Just AI Кирилл Петров. В первом случае зачастую происходит перевод данных из одного вида в другой: «Например, в случае с голосовым ассистентом речь сначала одной моделью преобразовывается в текст, этот текст анализируется другой моделью, а третья модель преобразовывает текст ответа в речь. На каждом шаге происходит упрощение, а ещё вся обработка занимает больше времени». Мультимодальные же модели вроде GPT-4o от OpenAI позволяют учитывать весь контент, причём без задержек.
Мультимодальные модели с поддержкой аудио, по словам гендиректора группы компаний ЦРТ Дмитрия Дырмовского, способны «распознавать речь на нескольких языках, разделять реплики дикторов, определять эмоции и сложные невербальные приёмы, такие как ирония и сарказм». При этом они смогут снизить порог входа в речевые технологии: «Они объединяют сразу несколько технологий и при этом используют тот же интерфейс, что и текстовые модели».
MVP (минимально жизнеспособный продукт) SpeechGPT, вероятно, появится в ближайшие месяцы, «дальше пойдёт процесс непрерывных улучшений», полагает эксперт в области ИИ и продвинутой аналитики компании Axenix Владимир Кравцев. Однако разработка «Яндекса» едва ли будет сопоставима по возможностям с мультимодальными моделями от Google (семейства Gemini) или OpenAI, считает директор по продукту Hybrid Светлана Другова: «Для того чтобы создать модель, способную конкурировать с ними, потребуются миллиарды долларов. Но учитывая, что у „Яндекса“ уже есть наработки, затраты будут несколько меньше».