Мультимодальные языковые модели: как нейросети учатся видеть и слышать / Comments / Habr

AndrewSpirit Mar 19 2025 at 16:37

А про состыковку аудио информации и текста ни слова... И речь ведь не о банальном преобразовании речи в текст. Как живые существа ориентируются в пространстве и определяют положение объектов? Как узнают какой процесс издаёт конкретный звук? Какие звуки отобрать для обучения модели? Даже поставить правильные вопросы является довольно сложной проблемой, а не то что бы найти решения...

Мультимодальные языковые модели: как нейросети учатся видеть и слышать

Comments 1

Articles