Как стать автором
Обновить

Релиз открытой ИИ-модели hertz-dev для полнодуплексного голосового общения

Время на прочтение1 мин
Количество просмотров1.5K

В начале ноября 2024 года команда разработчиков из Standard Intelligence представила открытую ИИ-модель для синтеза речи в полнодуплексном режиме под названием hertz-dev. Исходный код проекта написан на Python и опубликован на GitHub под лицензией Apache 2.0.

Проект может использоваться в качестве основы для создания систем голосового общения в реальном времени или генерации разговорной речи. Модель hertz-dev позволяет генерировать речь, близкую к голосовым данным, на которых она обучена, обеспечивая взаимодействие в стиле живого человеческого общения без задержек.

По уточнению разработчиков, на системе с GPU Nvidia GeForce RTX 4090 средняя задержка перед генерацией речи в этой модели составляет 120 мс (теоретически до 65 мс), что примерно в два раза быстрее, чем у имеющихся в открытом доступе существующих моделей.

Опубликованный в открытом доступе вариант hertz-dev построен с использованием архитектуры трансформер. Проект охватывает 8.5 млрд параметров и обучен с использованием 500 млрд токенов. Размер учитываемого моделью контекста (число токенов, которые модель может обработать и запомнить при генерации речи) составляет 2048 токенов или примерно 4 минуты речи.

Теги:
Хабы:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

Другие новости

Истории

Работа

Data Scientist
49 вакансий

Ближайшие события

19 марта – 28 апреля
Экспедиция «Рэйдикс»
Нижний НовгородЕкатеринбургНовосибирскВладивостокИжевскКазаньТюменьУфаИркутскЧелябинскСамараХабаровскКрасноярскОмск
22 апреля
VK Видео Meetup 2025
МоскваОнлайн
23 апреля
Meetup DevOps 43Tech
Санкт-ПетербургОнлайн
24 апреля
VK Go Meetup 2025
Санкт-ПетербургОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань
14 мая
LinkMeetup
Москва
5 июня
Конференция TechRec AI&HR 2025
МоскваОнлайн
20 – 22 июня
Летняя айти-тусовка Summer Merge
Ульяновская область