Компания Илона Маска xAI представила Grok-1.5 Vision, новую версию нейросети Grok. Инструмент способен обрабатывать не только текст, но и визуальную информацию: фото, скриншоты, диаграммы и многое другое.
Как сообщает xAI, Grok-1.5V может преобразовать фото блок-схемы в код Python или скриншот таблицы в файл формата CSV. Её можно будет также попросить рассказать сказку по мотивам детского рисунка или объяснить мем.
В xAI заявляют, что эта мультимодальная модель выделяется среди аналогов (GPT-4V, Claude 3Sonnet, Claude 3 Opus и Gemini Pro 1.5) и превосходит конкурентов во многих популярных бенчмарках за счёт использования технологии RealWorldQA. Нейросеть обучили на 700+ изображений, которые сопровождались вопросами и ответами по каждому предмету.
В конце марта xAI выпустила Grok-1.5, способную обрабатывать до 128 000 токенов, что позволяет чат-боту выполнять более сложные запросы и лучше понимать входящие данные.
«[Grok-1.5 способна] использовать информацию из значительно более объёмных документов, — пишет X.ai. — Более того, модель может обрабатывать более сложные запросы, сохраняя при этом способность следовать инструкциям по мере расширения контекстного окна».
В апреле Илон Маск заявил, что для обучения чат-бота Grok 2 использовалось около 20 тысяч графических процессоров Nvidia H100 AI, а новое поколение Grok 3 потребует 100 тысяч GPU.