Comments 12
Вот все эти последние модели, по тестам, якобы могут сдать экзамен в Гарвард. Но не могут справится с запросом типа "Нарисуй стрелочные часы показывающие время 12:05". Просто смешно от этого.
Это же не AGI, а LLM. Они предназначены для других целей. Вот вы можете в уме извлечь какой нибудь квадратный корень из какого-нибудь 2408193523.9783 ? А для компьютера это одна ассемблерная инструкция. Но это же не значит что вы глупее компьютера.
Интуитивно понятно, что для связки текста с картинками нужна огромная база изображений с подробными описаниями - а в естественном мире такого не бывает. Поэтому это место долго будет самым узким.
Да все они умеют, нужно просто уметь их грамотно готовить:

Результат налицо.
и часто вы микроскопом гвозди забиваете?
С каких пор LLM и генераторы изображений - это одно и тоже?
Через хтмл вполне себе может

Где вы увидели его в openrouter? Нет его там. Во всяком случае сегодня
Да мне все равно, я попросил ребенка нарисовать часы показывающие 12:10 и попросил так называемую "мультимодальную модель" (разных вендоров пробовал) нарисовать часы. Ребенок справился, модель нет. Вывод - пока еще глупее ребенка. О каких там экзаменах говорят... просто смешно!
xAI выпустила Grok 4 Fast: бесплатная модель с контекстом до 2M токенов