Как стать автором
Обновить
581.89
BotHub
Агрегатор нейросетей: ChatGPT, Claude, Midjourney

LAION и Intel представляют инструменты, которые помогают ИИ оценивать интенсивность 40 различных эмоций

Время на прочтение3 мин
Количество просмотров345

Один из последних проектов с открытым исходным кодом от LAION и Intel направлен на то, чтобы системы искусственного интеллекта лучше понимали человеческие эмоции.

Пакет «Empathic Insight» включает в себя модели и наборы данных, предназначенные для анализа изображений лиц или аудиофайлов и оценки интенсивности 40 различных категорий эмоций. Для лиц эмоции оцениваются по шкале от 0 до 7; для голосов система определяет наличие, слабую выраженность или сильную выраженность эмоций.

Модели Empathic Insight могут распознавать до 40 различных эмоций на изображениях лиц
Модели Empathic Insight могут распознавать до 40 различных эмоций на изображениях лиц

EmoNet, лежащая в основе этих моделей, опирается на таксономию из 40 категорий эмоций, разработанную на основе «Справочника по эмоциям» — важного источника в области психологии. Исследователи расширили стандартный список базовых эмоций, добавив когнитивные состояния, такие как концентрация и замешательство, физические состояния, такие как боль и усталость, а также социальные эмоции, включая стыд и гордость. Они утверждают, что эмоции не поддаются универсальному прочтению — вместо этого мозг конструирует их из ряда сигналов. В результате их модели работают с вероятностными оценками, а не с фиксированными ярлыками.

Тренировка с использованием синтетических лиц и голосов

Для обучения моделей команда использовала более 203 000 изображений лиц и 4692 аудиозаписи. Речевые данные взяты из набора данных Laion's Got Talent, который включает более 5000 часов синтетических записей на английском, немецком, испанском и французском языках, созданных с помощью аудиомодели OpenAI GPT-4o.

Синтетические образцы изображений из EmoNet Face Benchmark демонстрируют разнообразие обучающих данных
Синтетические образцы изображений из EmoNet Face Benchmark демонстрируют разнообразие обучающих данных

Чтобы избежать проблем с конфиденциальностью и повысить демографическое разнообразие, LAION полностью полагался на синтетические данные. Изображения лиц были созданы с помощью моделей преобразования текста в изображение, таких как Midjourney и Flux, а затем программно скорректированы с учётом возраста, пола и этнической принадлежности. Все аудиозаписи были проверены экспертами в области психологии, и в набор данных вошли только те оценки, с которыми согласились три независимых рецензента.

Превосходящий установленный эмоциональный искусственный интеллект

По данным LAION, модели Empathic Insight превосходят существующих конкурентов по результатам тестов. В тесте EmoNet Face HQ модель Empathic Insight Face показала более высокую корреляцию с оценками экспертов-людей, чем Gemini 2.5 Pro или API с закрытым исходным кодом, такие как Hume AI. Ключевым показателем было то, насколько оценки ИИ совпадали с оценками специалистов в области психологии.

Оценки EmoNet совпадают с оценками экспертов-людей в 40% случаев по сравнению с 25–30% для стандартных VLM и почти нулевыми показателями для случайных базовых моделей
Оценки EmoNet совпадают с оценками экспертов-людей в 40% случаев по сравнению с 25–30% для стандартных VLM и почти нулевыми показателями для случайных базовых моделей

Исследователи также сообщают о впечатляющих результатах в области распознавания эмоций в речи. Модель Empathic Insight Voice показала лучшие результаты, чем существующие аудиомодели, в тесте EmoNet Voice Benchmark, правильно определив все 40 категорий эмоций. Команда экспериментировала с различными размерами моделей и методами обработки звука, чтобы оптимизировать результаты.

Улучшенная транскрипция с помощью BUD-E Whisper

Помимо распознавания эмоций, LAION разработала BUD-E Whisper, улучшенную версию модели Whisper от OpenAI. В то время как Whisper преобразует речь в текст, BUD-E Whisper добавляет структурированные описания эмоционального тона, распознаёт голосовые всплески, такие как смех и вздохи, и оценивает характеристики говорящего, такие как возраст и пол.

Все модели EmoNet доступны по лицензии Creative Commons (для моделей) и Apache 2.0 (для кода). Наборы данных и модели можно скачать с Hugging Face. Обе модели Empathic Insight доступны в версиях Small и Large на Hugging Face, что делает их доступными для различных сценариев использования и аппаратных требований.

Intel поддерживает проект с 2021 года в рамках своей стратегии в области ИИ с открытым исходным кодом, уделяя особое внимание оптимизации моделей для оборудования Intel.


Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник

Теги:
Хабы:
+5
Комментарии0

Другие новости

Информация

Сайт
bothub.chat
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
Greg Ewin