Пост @AIguide — Microsoft Azure — 02.06 08:36 / Хабр

2 июн в 08:362.4K

Анонс моделей Microsoft MAI

Ну что, народ, опять утечки

Я обычно такое не пощу, но сегодня наткнулся на ветку на одном из тех закрытых форумов, где обсуждают железо и софт до анонсов. И там выложили выжимки с какой-то внутренней презентации Microsoft. Я сначала подумал фейк. Но потом начал сомневатся. Так что, скорее всего, правда.

Короче, Microsoft тихонько готовит две новые модели. Называются MAI-Voice-2 и MAI-Image-2.5.

Начну с голоса. MAI-Voice-2 это не просто синтез речи, как в старых читалках. Там заявляют мультидиалектную поддержку. То есть типа понимает акценты. Но главное, что они прям вынесли в заголовок эмоциональный диапазон от шепота до крика. Да, именно крика.

Вот это меня, честно говоря, смущает. Кому нужен орущий ИИ? Может, для озвучки игровых персонажей или для сцен в VR. Или для роботов-охранников. Но в реальных сценариях вроде поддержки клиентов или домашней автоматики зачем это? Представьте, что Алиса на кухне начинает орать, потому что вы забыли выключить газ. Ладно, допустим, полезно. Но звучит все равно как маркетинговый перегиб.

Люди пишут что в утекших слайдах еще было написано, что модель умеет передавать не только громкость, но и интонации вроде сарказма, усталости, радости. Там целая таблица была с 12 эмоциями. Если это реально работает без задержек будет прорыв. Но пока что я отношусь к этому как к обещанию. Помните, как они рекламировали свой первый голосовой ассистент? Тоже много чего обещали.

Теперь про картинки. MAI-Image-2.5 уже доступна в превью на LM Arena. Это платформа, где модели сравнивают в слепых тестах. Честно не сказать, что это убийца Midjourney. Но по сравнению с их прошлой версией да, прибавили. Детализация лучше, артефактов меньше, и вроде бы скорость генерации выше. Хотя на LM Arena всегда пинг большой, так что сложно судить.

На форумах уже начали спорить: зачем Microsoft лезет в генерацию картинок, когда рынок и так перенасыщен. Но я думаю, тут логика простая им нужна своя экосистема. Если у тебя есть Copilot, Windows, Azure, то почему бы не добавить генератор картинок и голоса? Чтобы пользователь вообще не выходил за пределы их сервисов.

Еще момент. В утечке говорится, что MAI-Voice-2 будет работать в реальном времени с задержкой меньше 300 миллисекунд. Это, кстати, серьезно. Для разговорных ИИ-агентов это критично. Если они это вывезут тогда да, это может быть интересно.

Пока же я вижу так: Microsoft анонсирует красиво, но выкатывает долго и с багами. Голосовую модель обещают к концу года. Но я ставлю на то, что первая публичная версия будет резаная, без половины эмоций. Потом допилят через полгода. Обычная их история.

В общем, если хотите сами потыкать картинки идите на LM Arena, ищете MAI-Image-2.5. А голос пока только в закрытом доступе. Кто найдет рабочий демо-стенд киньте ссылку в комментарии. Я тоже хочу услышать, как нейросеть орет.

Вот такие дела. Не реклама, просто делюсь.