Прогнал те же тесты на этом облачном MCP и вот что думает Опус:
Главный вывод (4-way сравнение, kombo dataset, 10 скриншотов):
Локальная модель после тюнинга слегка обходит zai по агрегату — за счёт более надёжной схемы (100% валидного JSON), лучшей детекции клиппинга (9/10 vs 7/10) и стабильного extract_table (4×3 каждый раз).
Зато zai лучше на двух нишевых вещах: пер-карточные пастельные цвета step-карточек (shot 09 — фронтир-уровень, единственный кто поймал все 4 оттенка отдельно) и точная разбивка mobile H1 на wrap-строки (shot 07 — ровно 4 строки, как у Opus).
Остаточный разрыв до фронтира одинаков у обоих VLM и сидит в трёх местах: тонкая цветовая дискриминация (eyebrow "FOR TEACHERS" — серый, не фиолетовый; текст "Start playing" — почти чёрный, не белый), точный подсчёт wrap-строк на mobile, и инференс design-intent (понимание, что "FOR TEACHERS" — намеренно приглушённая "coming soon" карточка). Это территория, где пока нужен только фронтир.
Практический вывод: для batch-извлечения текста и таблиц со скриншотов локальная после тюнинга — рациональный default. Cloud-VLM (zai/GLM) — разумный fallback с похожей точностью; фронтир (Opus) — когда критичны цветовые нюансы, точная типографика wrap или комментарий о замысле дизайнера.
О, спасибо, я пропустил совершенно! Если честно, я даже рад что переизборел велосипед в некотором смысле. Во-первых, гам взята как поулярная модель, если и другие аналоги на том же free-tier без вожена. Это отличное подтверждение и валидация подхода, Во-вторых, остается ценность и применимость эксперимента на локальной модели. Ключи и подписка на ГЛМ есть не всех. Потестирую еще и против родного MCP.
Могу ошибаться, но насколько я представляю, vision у того же Opus устроен примерно так: vision encoder (ViT) обрабатывает пиксели, превращает их в visual tokens, projection module маппит их в embedding space языковой модели, и дальше LLM работает с ними как с обычными текстовыми токенами. Сама языковая модель пиксели не видит, она тоже «слепая», за неё видит encoder.
Вот хороший survey на эту тему: jina.ai/vision-encoder-survey.pdf (Jina AI / Elastic, Feb 2026, 70+ моделей) — на первой странице покана эта в общем-то каноническая архитектура. Кстати, Anthropic не раскрывает детали своего vision encoder, но авторы survey прямо намекают: архитектура у всех одна.
Я этот процесс повторил в приближении, вынеся encoder в отдельный сервис через MCP. Да, не без компромиссов — JSON-описание беднее чем сырые embeddings, есть потери в bandwidth. Но принцип тот же :)
Поэтому соглашусь с вами лишь частично. Модель как была слепа, так и осталась - да. НО! у неё появился вполне зрячий поводырь. Но это уже детали, не сильно интересные более широкой аудитории)
Спасибо за плюс и за комментарий!
Бонусный факт из статьи: qwen3-vl (та самая модель что у меня в sidecar) использует SigLIP 2 SO400M как vision encoder - 400M параметров. То есть из 8B параметров qwen3-vl только 400M — это «глаза», остальные 7.6B - «мозги». В общем вполне себе академичный подход даже оказывается :)
Вы проделали ровно тот путь, который описан в статье – только не заметили этого. Посмотрите на итог вашего же Gemini: «краткость, структура и знание матчасти значат гораздо больше, чем владение фигурами речи». А теперь перечитайте вывод ChatGPT из статьи: «чем умнее модели, тем меньше ценятся хаки и тем больше ценится способность ясно мыслить и точно формулировать намерение». Это один и тот же тезис, сформулированный разными словами. Подмена произошла в вашем промпте: вы приравняли «риторику» к «красноречию и фигурам речи» – и Gemini честно это опроверг. Но статья приходит к тому, что риторика в контексте AI – это не красноречие, а дисциплина точной постановки мысли. Именно то, что ваш Gemini назвал «системным анализом» и «доменной экспертизой». Вы спросили модель «опровергни тезис A», она опровергла тезис A и предложила тезис B, который совпадает с выводом статьи. Я сделал то же самое, попросив покритиковать и не согласившись с выводами Клода. Собственно, спасибо – это отличная иллюстрация того, что указанный мной в заголовке смысл достаточно универсален и не зависит от инструментария.
Спасибо. Вы специально обрезали контекст и не взяли итоговый вывод и просто повторили ровно тот же путь от риторики до смыслов?
Я так понимаю задача была подтвердить мои выводы отдельным независимым потоком. Гемини справился не хуже остальных моделей, что подтверждает выводы статьи.
Меня не смущает. То что модель излагает смыслы в таком ключе результат тюнинга (ее такой услужливой и обходительной быть натренировали люди). Я в состоянии отделить содержание от формы и спокойно работать с сутью.
Очень понравился угол про то "как используется модель" и что делают с ответом разные по опыту когорты пользователей.
Опытные пользователи с развитым критическим мышлением намного внимательнее проверяют выводы ИИ, задают уточняющие вопросы и не доверяют с первого раза. А не опытные (куда часто, но не всегда! попадает молодёжь) чаще использует ИИ как готовый ответ.
Примеры с младшими моделями, конечно верные и очень потешные. Отличие ЛЛМ-трансформеров от обычных алгоритмов с ошибками в том, что их ошибки не алгоритмические. Модели работают с семантикой и смыслами и младшие модели на действительно давали местами очень слабые результаты. Над этим и работают ведущие лаборатории и компании мира. Попробуйте так же легко обмануть современные фронтир модели. :)
Интересная мысль! Психология действительно имеет шансы расцвести с приходом ИИ, но есть нюанс - уже сейчас ЛЛМ активно используют именно как психологическую поддержку.
ГРок мне сообщил(у него вроде не плохо с поиском), что по свежим опросам 2025 года, почти 49% людей с ментальными сложностями, которые пользуются ИИ, обращаются к ChatGPT, Claude и подобным за помощью при тревоге, депрессии и стрессе. Причины банальные: ИИ всегда под рукой 24/7, ничего не стоит, не осуждает и не нужно ждать записи.
Мне это показалось логичным, из наблюдений: хорошего психолога ещё нужно найти, подстроиться под него и платить немалые деньги.
Что еще подумалось, топовые психологи с сильной практикой, репутацией и глубоким ремеслом точно не останутся без работы. Люди с деньгами и сложными запросами будут платить премию именно за живое человеческое взаимодействие, настоящую эмпатию и ответственность.
Ну и психологи, использующие в своей работе ЛЛМ (как и другие современные врачи) это уже реальность в 2026.
Понимаю о чем вы. Тем не менее, задача была поставлена на критику тезиса а не на его подкрепление. Поэтому итоговый вывод именно к "классической риторике" отношение имеет лишь косвенное. Будет классно, если вы продемонстрируете нам как заставите нейросеть опровергнуть основной тезис публикации. :)
Оказывается у вендора ровно такой же родной, еще и по качеству он оказалось не сильно превосходит мою самоделку https://habr.com/ru/articles/1029682/#comment_29906338
Прогнал те же тесты на этом облачном MCP и вот что думает Опус:
Главный вывод (4-way сравнение, kombo dataset, 10 скриншотов):
Локальная модель после тюнинга слегка обходит zai по агрегату — за счёт более надёжной схемы (100% валидного JSON), лучшей детекции клиппинга (9/10 vs 7/10) и стабильного extract_table (4×3 каждый раз).
Зато zai лучше на двух нишевых вещах: пер-карточные пастельные цвета step-карточек (shot 09 — фронтир-уровень, единственный кто поймал все 4 оттенка отдельно) и точная разбивка mobile H1 на wrap-строки (shot 07 — ровно 4 строки, как у Opus).
Остаточный разрыв до фронтира одинаков у обоих VLM и сидит в трёх местах: тонкая цветовая дискриминация (eyebrow "FOR TEACHERS" — серый, не фиолетовый; текст "Start playing" — почти чёрный, не белый), точный подсчёт wrap-строк на mobile, и инференс design-intent (понимание, что "FOR TEACHERS" — намеренно приглушённая "coming soon" карточка). Это территория, где пока нужен только фронтир.
Практический вывод: для batch-извлечения текста и таблиц со скриншотов локальная после тюнинга — рациональный default. Cloud-VLM (zai/GLM) — разумный fallback с похожей точностью; фронтир (Opus) — когда критичны цветовые нюансы, точная типографика wrap или комментарий о замысле дизайнера.
О, спасибо, я пропустил совершенно! Если честно, я даже рад что переизборел велосипед в некотором смысле. Во-первых, гам взята как поулярная модель, если и другие аналоги на том же free-tier без вожена. Это отличное подтверждение и валидация подхода, Во-вторых, остается ценность и применимость эксперимента на локальной модели. Ключи и подписка на ГЛМ есть не всех. Потестирую еще и против родного MCP.
Могу ошибаться, но насколько я представляю, vision у того же Opus устроен примерно так: vision encoder (ViT) обрабатывает пиксели, превращает их в visual tokens, projection module маппит их в embedding space языковой модели, и дальше LLM работает с ними как с обычными текстовыми токенами. Сама языковая модель пиксели не видит, она тоже «слепая», за неё видит encoder.
Вот хороший survey на эту тему: jina.ai/vision-encoder-survey.pdf (Jina AI / Elastic, Feb 2026, 70+ моделей) — на первой странице покана эта в общем-то каноническая архитектура. Кстати, Anthropic не раскрывает детали своего vision encoder, но авторы survey прямо намекают: архитектура у всех одна.
Я этот процесс повторил в приближении, вынеся encoder в отдельный сервис через MCP. Да, не без компромиссов — JSON-описание беднее чем сырые embeddings, есть потери в bandwidth. Но принцип тот же :)
Поэтому соглашусь с вами лишь частично. Модель как была слепа, так и осталась - да. НО! у неё появился вполне зрячий поводырь. Но это уже детали, не сильно интересные более широкой аудитории)
Спасибо за плюс и за комментарий!
Бонусный факт из статьи: qwen3-vl (та самая модель что у меня в sidecar) использует SigLIP 2 SO400M как vision encoder - 400M параметров. То есть из 8B параметров qwen3-vl только 400M — это «глаза», остальные 7.6B - «мозги». В общем вполне себе академичный подход даже оказывается :)
Вы проделали ровно тот путь, который описан в статье – только не заметили этого. Посмотрите на итог вашего же Gemini: «краткость, структура и знание матчасти значат гораздо больше, чем владение фигурами речи». А теперь перечитайте вывод ChatGPT из статьи: «чем умнее модели, тем меньше ценятся хаки и тем больше ценится способность ясно мыслить и точно формулировать намерение». Это один и тот же тезис, сформулированный разными словами. Подмена произошла в вашем промпте: вы приравняли «риторику» к «красноречию и фигурам речи» – и Gemini честно это опроверг. Но статья приходит к тому, что риторика в контексте AI – это не красноречие, а дисциплина точной постановки мысли. Именно то, что ваш Gemini назвал «системным анализом» и «доменной экспертизой». Вы спросили модель «опровергни тезис A», она опровергла тезис A и предложила тезис B, который совпадает с выводом статьи. Я сделал то же самое, попросив покритиковать и не согласившись с выводами Клода. Собственно, спасибо – это отличная иллюстрация того, что указанный мной в заголовке смысл достаточно универсален и не зависит от инструментария.
Вывод указан в заголовке, статья о пути к этому выводу
Спасибо. Вы специально обрезали контекст и не взяли итоговый вывод и просто повторили ровно тот же путь от риторики до смыслов?
Я так понимаю задача была подтвердить мои выводы отдельным независимым потоком. Гемини справился не хуже остальных моделей, что подтверждает выводы статьи.
Спасибо за фидбэк. Я опубликовал исходники, будет классно если вы «форкните» мои диалоги и опубликуете результат в комментариях
Тут это в корп секторе?
А в производстве на конвейере как?
Меня не смущает. То что модель излагает смыслы в таком ключе результат тюнинга (ее такой услужливой и обходительной быть натренировали люди). Я в состоянии отделить содержание от формы и спокойно работать с сутью.
Почему бесплатными-то? ;)
Может предложите свои варианты смыслов и платные качественные модели? ;) очень интересно
Диалектика - интересный угол, соглашусь. В другом комментарии вспомнили про «семантику», как домен.
Прошу прощения, видимо я вас запутал. Статя о том что особое составление промптов скорее менее важно, чем умение четко излагать свою мысль.
;) спасибо внимательный читатель.
Claude 4.7 Opus
Qwen 3.6 Plus
Grok 4.3 Beta
Очень понравился угол про то "как используется модель" и что делают с ответом разные по опыту когорты пользователей.
Опытные пользователи с развитым критическим мышлением намного внимательнее проверяют выводы ИИ, задают уточняющие вопросы и не доверяют с первого раза. А не опытные (куда часто, но не всегда! попадает молодёжь) чаще использует ИИ как готовый ответ.
Примеры с младшими моделями, конечно верные и очень потешные. Отличие ЛЛМ-трансформеров от обычных алгоритмов с ошибками в том, что их ошибки не алгоритмические. Модели работают с семантикой и смыслами и младшие модели на действительно давали местами очень слабые результаты. Над этим и работают ведущие лаборатории и компании мира. Попробуйте так же легко обмануть современные фронтир модели. :)
Интересная мысль! Психология действительно имеет шансы расцвести с приходом ИИ, но есть нюанс - уже сейчас ЛЛМ активно используют именно как психологическую поддержку.
ГРок мне сообщил(у него вроде не плохо с поиском), что по свежим опросам 2025 года, почти 49% людей с ментальными сложностями, которые пользуются ИИ, обращаются к ChatGPT, Claude и подобным за помощью при тревоге, депрессии и стрессе. Причины банальные: ИИ всегда под рукой 24/7, ничего не стоит, не осуждает и не нужно ждать записи.
Мне это показалось логичным, из наблюдений: хорошего психолога ещё нужно найти, подстроиться под него и платить немалые деньги.
Что еще подумалось, топовые психологи с сильной практикой, репутацией и глубоким ремеслом точно не останутся без работы. Люди с деньгами и сложными запросами будут платить премию именно за живое человеческое взаимодействие, настоящую эмпатию и ответственность.
Ну и психологи, использующие в своей работе ЛЛМ (как и другие современные врачи) это уже реальность в 2026.
Понимаю о чем вы. Тем не менее, задача была поставлена на критику тезиса а не на его подкрепление. Поэтому итоговый вывод именно к "классической риторике" отношение имеет лишь косвенное. Будет классно, если вы продемонстрируете нам как заставите нейросеть опровергнуть основной тезис публикации. :)
Я не удержался и дотроллил электроников: https://habr.com/ru/articles/1027954/
Оригинальные промты: https://pages.xronocode.com/ai-rhetoric/
Мне тоже кажется что фундаментальный вклад еще предстоит только ощутить и оценить
Имеете полное право :)