Comments 1
А про состыковку аудио информации и текста ни слова... И речь ведь не о банальном преобразовании речи в текст. Как живые существа ориентируются в пространстве и определяют положение объектов? Как узнают какой процесс издаёт конкретный звук? Какие звуки отобрать для обучения модели? Даже поставить правильные вопросы является довольно сложной проблемой, а не то что бы найти решения...
Sign up to leave a comment.
Мультимодальные языковые модели: как нейросети учатся видеть и слышать