
Команда Google Health AI выпустила MedASR - модель преобразования речи в текст на основе архитектуры Conformer. Она предназначена для клинической диктовки и разговоров между врачами и пациентами и разработана для интеграции в современные рабочие процессы с использованием искусственного интеллекта.
Что такое MedASR?
MedASR - это модель преобразования речи в текст, основанная на архитектуре Conformer. Она предварительно обучена для медицинской диктовки и транскрипции. Модель позиционируется как отправная точка для разработчиков, которые хотят создавать приложения для здравоохранения, основанные на распознавании голоса, такие как инструменты для диктовки в радиологии или системы для записи заметок о визитах пациентов.
Модель имеет 105 миллионов параметров и принимает одноканальное аудио с частотой 16 000 герц и 16-битными целыми волновыми формами. Она выдает только текстовый вывод, поэтому может быть напрямую интегрирована в системы обработки естественного языка или генеративные модели, такие как MedGemma.
MedASR входит в портфель Health AI Developer Foundations вместе с MedGemma, MedSigLIP и другими медицинскими моделями, которые имеют общие условия использования и согласованную систему управления.
MedASR обучена на разнообразном корпусе деидентифицированной медицинской речи. Набор данных включает около 5 000 часов диктовки врачей и клинических разговоров в области радиологии, внутренней медицины и семейной медицины.
Для обучения пары аудиосегментов сопоставляются с транскриптами и метаданными. Подмножества разговорных данных аннотируются медицинскими именованными сущностями, включая симптомы, лекарства и состояния. Это дает модели хорошее покрытие клинической лексики и фраз, которые используются в рутинной документации.
Модель предназначена только для английского языка, и большинство обучающих аудиозаписей получены от носителей языка, выросших в Соединённых Штатах. В документации отмечается, что производительность может быть ниже для других профилей говорящих или при использовании шумных микрофонов, и рекомендуется тонкая настройка для таких условий.
Архитектура и декодирование
MedASR следует дизайну кодировщика Conformer. Conformer сочетает в себе блоки свертки с уровнями самовнимания, что позволяет улавливать локальные акустические закономерности и более длительные временные зависимости в одном стеке.
Модель представлена в виде автоматизированного детектора речи с интерфейсом в стиле CTC. В эталонной реализации разработчики используют AutoProcessor для создания входных функций из аудиоданных в виде волновых форм и AutoModelForCTC для получения последовательностей токенов. По умолчанию используется жадное декодирование. Модель также может быть объединена с внешней шестиграммовой языковой моделью с лучевым поиском размером 8 для повышения точности распознавания слов.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
