mefdayy 19 мая в 13:16

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

2 мин

424

Блог компании BotHubИскусственный интеллектЗвук

Stability AI и Arm выпустили компактную модель преобразования текста в звук, которая работает на смартфонах и способна генерировать стереофонические аудиоклипы продолжительностью до 11 секунд примерно за 7 секунд.

Модель под названием Stable Audio Open Small основана на методе, известном как «состязательный релятивистско-контрастный» (ARC), разработанном исследователями из Калифорнийского университета в Беркли и других учреждений. На высокопроизводительном оборудовании, таком как графический процессор Nvidia H100, она может воспроизводить стереозвук частотой 44 кГц всего за 75 миллисекунд — достаточно быстро для генерации практически в реальном времени.

Первоначальная версия Stable Audio Open была выпущена в прошлом году как бесплатная модель с открытым исходным кодом с 1,1 миллиарда параметров. В этой уменьшенной версии используется всего 341 миллион параметров, что значительно упрощает её использование на потребительском оборудовании. Stability AI и Arm впервые объявили о своём сотрудничестве в марте.

Чтобы модель работала на смартфонах, команда переработала архитектуру. Теперь система состоит из трёх компонентов: автокодировщика, который сжимает аудиоданные, встраиваемого модуля, который интерпретирует текстовые подсказки, и диффузионной модели, которая генерирует финальный звук.

Эта переработанная система не использует дистилляцию, но при этом сокращает использование памяти почти вдвое — с 6,5 ГБ до 3,6 ГБ. Такое сокращение позволяет впервые запустить модель на мобильных устройствах. Во время тестирования исследователи использовали Vivo X200 Pro — телефон на Android с 12 ГБ оперативной памяти и чипом Mediatek Dimensity 9400, выпущенным в конце 2024 года.

Stability AI сообщает, что модель особенно хорошо справляется с генерацией звуковых эффектов и полевых записей. Она по-прежнему испытывает трудности с музыкой, особенно с пением, и лучше всего работает с подсказками на английском языке.

Модель была обучена примерно на 472 000 клипах из базы данных Freesound, используя только материалы, лицензированные по условиям CC0, CC BY или CC-Sampling+. Чтобы избежать проблем с авторскими правами, команда отфильтровала данные с помощью ряда автоматических проверок.

Программное обеспечение доступно по лицензии Stability AI Community для использования с открытым исходным кодом. Коммерческое использование регулируется отдельными условиями. Код доступен на GitHub, а доступ к весам модели можно получить через Hugging Face.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Теги:

Хабы:

Stability AI выпускает модель преобразования текста в звук, которая работает на мобильных устройствах

Другие новости

Информация