Мультимодальные языковые модели: как нейросети учатся видеть и слышать / Комментарии / Хабр

А про состыковку аудио информации и текста ни слова... И речь ведь не о банальном преобразовании речи в текст. Как живые существа ориентируются в пространстве и определяют положение объектов? Как узнают какой процесс издаёт конкретный звук? Какие звуки отобрать для обучения модели? Даже поставить правильные вопросы является довольно сложной проблемой, а не то что бы найти решения...

Мультимодальные языковые модели: как нейросети учатся видеть и слышать

Комментарии 1

Публикации