Microsoft представила MAI-Transcribe-1 – нейросеть для распознавания при плохом качестве и одновременной речи / Хабр

Модель поддерживает 25 языков (арабский, китайский, чешский, датский, нидерландский, английский, финский, французский, немецкий, хинди, венгерский, индонезийский, итальянский, японский, корейский, норвежский букмол, польский, португальский, румынский, русский, испанский, шведский, тайский, турецкий, вьетнамский) и демонстрирует самую низкую частоту ошибок среди всех протестированных систем на эталонном бенчмарке FLEURS. В тестах она обошла Scribe v2, Whisper-large-V3, GPT-Transcribe и даже Gemini 3.1 Flash-Lite.

Особенность MAI-Transcribe-1 – устойчивость к сложным условиям записи: фоновому шуму, плохому качеству звука и перекрёстной речи (когда несколько человек говорят одновременно). Microsoft уже интегрировала модель в Copilot Voice и Microsoft Teams. Разработчики могут опробовать её через публичный превью в Microsoft Foundry и в Microsoft AI Playground.

MAI-Transcribe-1 (зелёный) лидирует по показателю WER на бенчмарке FLEURS среди большинства из 25 протестированных языков, превосходя Scribe v2, Gemini 3.1 Flash-Lite, Whisper-large-v3 и GPT-Transcribe

Модель можно комбинировать с MAI-Voice-1 и языковой моделью – так она становится основой для голосовых агентов. MAI-Voice-1 – топовая модель генерации речи, которая сохраняет индивидуальность диктора даже на длинных текстах. В обновлении Microsoft добавила возможность создавать кастомный голос всего по нескольким секундам аудио – безопасно и под контролем разработчика. Модель генерирует 60 секунд аудио за одну секунду вычислений, а эффективное использование GPU делает это дёшево. Попробовать можно уже в Copilot Audio Expressions или Copilot Podcasts.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Microsoft представила MAI-Transcribe-1 – нейросеть для распознавания при плохом качестве и одновременной речи

Другие новости

Информация