Как стать автором
Обновить

Microsoft представила мультимодальную нейросеть, которая может решать головоломки и распознавать текст

Время на прочтение2 мин
Количество просмотров2.4K

Исследователи из Microsoft представили мультимодальную модель Kosmos-1, которая способна анализировать изображения, решать визуальные головоломки, распознавать текст, проходить визуальные тесты IQ и понимать инструкции на естественном языке. 

arxiv.org
arxiv.org

Исследователи считают, что мультимодальный ИИ, который объединяет различные режимы ввода, такие как текст, аудио, изображения и видео, станет ключевым шагом к созданию универсального искусственного интеллекта.

В Microsoft продемонстрировали, как модель анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и проходит визуальный тест IQ с точностью 22–26%. 

1-2 - визуальное объяснение, 3-4 -
ответ на вопрос, 5 - ответ на вопрос веб-страницы, 6 - простое математическое уравнение, 7-8 - распознавание цифр
1-2 - визуальное объяснение, 3-4 - ответ на вопрос, 5 - ответ на вопрос веб-страницы, 6 - простое математическое уравнение, 7-8 - распознавание цифр

Исследователи назвали систему «мультимодальной моделью большого языка» (MLLM). Kosmos-1 принимает входную информацию в виде серии токенов. Специальные маркеры и указывают на начало и конец встраивания закодированного изображения. Например, «document </g>» — это текстовый ввод, а «<s> paragraph <image> Image Embedded </image> paragraph </s>» — это чередующийся ввод изображения и текста.

1-2 - подписи к изображениям, 3-6 - ответы на визуальные запросы, 7-8 - распознавание текста на картинке, 9-11 - поддержание диалога.
1-2 - подписи к изображениям, 3-6 - ответы на визуальные запросы, 7-8 - распознавание текста на картинке, 9-11 - поддержание диалога.

Модуль внедрения применяется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем вложения подаются в декодер. Для входных токенов используется таблица поиска, чтобы сопоставить их с вложениями. 

Microsoft обучила Kosmos-1, используя данные из интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и веб-архива Common Crawl. 

После обучения исследователи оценили способности Kosmos-1 понимать язык, генерировать текст, классифицировать его без оптического распознавания символов, генерировать подписи к изображениям, визуальные ответы на вопросы, ответы на вопросы веб-страниц и классифицировать изображения. 

По данным Microsoft, во многих из этих тестов модель превзошла современные аналоги. 

Kosmos-1 смогла правильно ответить на вопрос теста Raven только в 22% случаев (в 26% в случае с тонкой настройкой). Однако это больше процента случайных правильных ответов (17%).

Исследователи говорят, что они планируют увеличить размер модели, а также интегрировать голосовые возможности.

Microsoft обещает, что откроет Kosmos-1 для разработчиков.

Ранее компания совместно с OpenAI объявили, что их конечная цель — создать систему ИИ общего назначения. В январе Microsoft выделила на развитие разработок OpenAI в области искусственного интеллекта около $10 млрд.

Однако Kosmos-1 выглядит как проект Microsoft, разрабатываемый без участия OpenAI. 

Теги:
Хабы:
Всего голосов 5: ↑5 и ↓0+5
Комментарии3

Другие новости

Истории

Работа

Data Scientist
77 вакансий

Ближайшие события

Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
OTUS CONF: GameDev
Дата30 мая
Время19:00 – 20:30
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область