Как стать автором
Обновить

xAI представила нейросеть Grok-1.5 Vision (Grok-1.5V), способную работать с изображениями

Время на прочтение1 мин
Количество просмотров2.5K

Компания Илона Маска xAI представила Grok-1.5 Vision, новую версию нейросети Grok. Инструмент способен обрабатывать не только текст, но и визуальную информацию: фото, скриншоты, диаграммы и многое другое. 

Как сообщает xAI, Grok-1.5V может преобразовать фото блок-схемы в код Python или скриншот таблицы в файл формата CSV. Её можно будет также попросить рассказать сказку по мотивам детского рисунка или объяснить мем.

В xAI заявляют, что эта мультимодальная модель выделяется среди аналогов (GPT-4V, Claude 3Sonnet, Claude 3 Opus и Gemini Pro 1.5) и превосходит конкурентов во многих популярных бенчмарках за счёт использования технологии RealWorldQA. Нейросеть обучили на 700+ изображений, которые сопровождались вопросами и ответами по каждому предмету.

В конце марта xAI выпустила Grok-1.5, способную обрабатывать до 128 000 токенов, что позволяет чат-боту выполнять более сложные запросы и лучше понимать входящие данные.

«[Grok-1.5 способна] использовать информацию из значительно более объёмных документов, — пишет X.ai. — Более того, модель может обрабатывать более сложные запросы, сохраняя при этом способность следовать инструкциям по мере расширения контекстного окна».

В апреле Илон Маск заявил, что для обучения чат-бота Grok 2 использовалось около 20 тысяч графических процессоров Nvidia H100 AI, а новое поколение Grok 3 потребует 100 тысяч GPU.

Теги:
Хабы:
Всего голосов 5: ↑5 и ↓0+7
Комментарии5

Другие новости

Истории

Работа

Data Scientist
79 вакансий

Ближайшие события

7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн
7 – 8 ноября
Конференция «Матемаркетинг»
МоскваОнлайн
15 – 16 ноября
IT-конференция Merge Skolkovo
Москва
22 – 24 ноября
Хакатон «AgroCode Hack Genetics'24»
Онлайн
28 ноября
Конференция «TechRec: ITHR CAMPUS»
МоскваОнлайн
25 – 26 апреля
IT-конференция Merge Tatarstan 2025
Казань