
Модель поддерживает 25 языков (арабский, китайский, чешский, датский, нидерландский, английский, финский, французский, немецкий, хинди, венгерский, индонезийский, итальянский, японский, корейский, норвежский букмол, польский, португальский, румынский, русский, испанский, шведский, тайский, турецкий, вьетнамский) и демонстрирует самую низкую частоту ошибок среди всех протестированных систем на эталонном бенчмарке FLEURS. В тестах она обошла Scribe v2, Whisper-large-V3, GPT-Transcribe и даже Gemini 3.1 Flash-Lite.
Особенность MAI-Transcribe-1 – устойчивость к сложным условиям записи: фоновому шуму, плохому качеству звука и перекрёстной речи (когда несколько человек говорят одновременно). Microsoft уже интегрировала модель в Copilot Voice и Microsoft Teams. Разработчики могут опробовать её через публичный превью в Microsoft Foundry и в Microsoft AI Playground.

Модель можно комбинировать с MAI-Voice-1 и языковой моделью – так она становится основой для голосовых агентов. MAI-Voice-1 – топовая модель генерации речи, которая сохраняет индивидуальность диктора даже на длинных текстах. В обновлении Microsoft добавила возможность создавать кастомный голос всего по нескольким секундам аудио – безопасно и под контролем разработчика. Модель генерирует 60 секунд аудио за одну секунду вычислений, а эффективное использование GPU делает это дёшево. Попробовать можно уже в Copilot Audio Expressions или Copilot Podcasts.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
