Как стать автором
Поиск
Написать публикацию
Обновить

Мультимодальные языковые модели: как нейросети учатся видеть и слышать

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров3.1K
Всего голосов 6: ↑6 и ↓0+6
Комментарии1

Комментарии 1

А про состыковку аудио информации и текста ни слова... И речь ведь не о банальном преобразовании речи в текст. Как живые существа ориентируются в пространстве и определяют положение объектов? Как узнают какой процесс издаёт конкретный звук? Какие звуки отобрать для обучения модели? Даже поставить правильные вопросы является довольно сложной проблемой, а не то что бы найти решения...

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации