Pull to refresh
32K+
8
Михаил@Xronofag

CPO в финтехе. Внедряю AI в банкинг и экосистемы

29,8
Rating
10
Subscribers
Send message

Оказывается у вендора ровно такой же родной, еще и по качеству он оказалось не сильно превосходит мою самоделку https://habr.com/ru/articles/1029682/#comment_29906338

Прогнал те же тесты на этом облачном MCP и вот что думает Опус:

Главный вывод (4-way сравнение, kombo dataset, 10 скриншотов):                                     

Локальная модель после тюнинга слегка обходит zai по агрегату — за счёт более надёжной схемы (100% валидного JSON), лучшей детекции клиппинга (9/10 vs 7/10) и стабильного extract_table (4×3 каждый раз).

Зато zai лучше на двух нишевых вещах: пер-карточные пастельные цвета step-карточек (shot 09 — фронтир-уровень, единственный кто поймал все 4 оттенка отдельно) и точная разбивка mobile H1 на wrap-строки (shot 07 — ровно 4 строки, как у Opus).

Остаточный разрыв до фронтира одинаков у обоих VLM и сидит в трёх местах: тонкая цветовая дискриминация (eyebrow "FOR TEACHERS" — серый, не фиолетовый; текст "Start playing" — почти чёрный, не белый), точный подсчёт wrap-строк на mobile, и инференс design-intent (понимание, что "FOR TEACHERS" — намеренно приглушённая "coming soon" карточка). Это территория, где пока нужен только фронтир.

Практический вывод: для batch-извлечения текста и таблиц со скриншотов локальная после тюнинга — рациональный default. Cloud-VLM (zai/GLM) — разумный fallback с похожей точностью; фронтир (Opus) — когда критичны цветовые нюансы, точная типографика wrap или комментарий о замысле дизайнера. 

О, спасибо, я пропустил совершенно! Если честно, я даже рад что переизборел велосипед в некотором смысле. Во-первых, гам взята как поулярная модель, если и другие аналоги на том же free-tier без вожена. Это отличное подтверждение и валидация подхода, Во-вторых, остается ценность и применимость эксперимента на локальной модели. Ключи и подписка на ГЛМ есть не всех. Потестирую еще и против родного MCP.

Могу ошибаться, но насколько я представляю, vision у того же Opus устроен примерно так: vision encoder (ViT) обрабатывает пиксели, превращает их в visual tokens, projection module маппит их в embedding space языковой модели, и дальше LLM работает с ними как с обычными текстовыми токенами. Сама языковая модель пиксели не видит, она тоже «слепая», за неё видит encoder.

Вот хороший survey на эту тему: jina.ai/vision-encoder-survey.pdf (Jina AI / Elastic, Feb 2026, 70+ моделей) — на первой странице покана эта в общем-то каноническая архитектура. Кстати, Anthropic не раскрывает детали своего vision encoder, но авторы survey прямо намекают: архитектура у всех одна.

Я этот процесс повторил в приближении, вынеся encoder в отдельный сервис через MCP. Да, не без компромиссов — JSON-описание беднее чем сырые embeddings, есть потери в bandwidth. Но принцип тот же :)

Поэтому соглашусь с вами лишь частично. Модель как была слепа, так и осталась - да. НО! у неё появился вполне зрячий поводырь. Но это уже детали, не сильно интересные более широкой аудитории)

Спасибо за плюс и за комментарий!

Бонусный факт из статьи: qwen3-vl (та самая модель что у меня в sidecar) использует SigLIP 2 SO400M как vision encoder - 400M параметров. То есть из 8B параметров qwen3-vl только 400M — это «глаза», остальные 7.6B - «мозги». В общем вполне себе академичный подход даже оказывается :)

Вы проделали ровно тот путь, который описан в статье – только не заметили этого. Посмотрите на итог вашего же Gemini: «краткость, структура и знание матчасти значат гораздо больше, чем владение фигурами речи». А теперь перечитайте вывод ChatGPT из статьи: «чем умнее модели, тем меньше ценятся хаки и тем больше ценится способность ясно мыслить и точно формулировать намерение». Это один и тот же тезис, сформулированный разными словами. Подмена произошла в вашем промпте: вы приравняли «риторику» к «красноречию и фигурам речи» – и Gemini честно это опроверг. Но статья приходит к тому, что риторика в контексте AI – это не красноречие, а дисциплина точной постановки мысли. Именно то, что ваш Gemini назвал «системным анализом» и «доменной экспертизой». Вы спросили модель «опровергни тезис A», она опровергла тезис A и предложила тезис B, который совпадает с выводом статьи. Я сделал то же самое, попросив покритиковать и не согласившись с выводами Клода. Собственно, спасибо – это отличная иллюстрация того, что указанный мной в заголовке смысл достаточно универсален и не зависит от инструментария.​​​​​​​​​​​​​​​​

Спасибо. Вы специально обрезали контекст и не взяли итоговый вывод и просто повторили ровно тот же путь от риторики до смыслов?

Я так понимаю задача была подтвердить мои выводы отдельным независимым потоком. Гемини справился не хуже остальных моделей, что подтверждает выводы статьи.

Спасибо за фидбэк. Я опубликовал исходники, будет классно если вы «форкните» мои диалоги и опубликуете результат в комментариях

Тут это в корп секторе?

А в производстве на конвейере как?

Меня не смущает. То что модель излагает смыслы в таком ключе результат тюнинга (ее такой услужливой и обходительной быть натренировали люди). Я в состоянии отделить содержание от формы и спокойно работать с сутью.

Почему бесплатными-то? ;)

Может предложите свои варианты смыслов и платные качественные модели? ;) очень интересно

Диалектика - интересный угол, соглашусь. В другом комментарии вспомнили про «семантику», как домен.

Прошу прощения, видимо я вас запутал. Статя о том что особое составление промптов скорее менее важно, чем умение четко излагать свою мысль.

;) спасибо внимательный читатель.

Claude 4.7 Opus

Qwen 3.6 Plus

Grok 4.3 Beta

Очень понравился угол про то "как используется модель" и что делают с ответом разные по опыту когорты пользователей.

Опытные пользователи с развитым критическим мышлением намного внимательнее проверяют выводы ИИ, задают уточняющие вопросы и не доверяют с первого раза. А не опытные (куда часто, но не всегда! попадает молодёжь) чаще использует ИИ как готовый ответ.

Примеры с младшими моделями, конечно верные и очень потешные. Отличие ЛЛМ-трансформеров от обычных алгоритмов с ошибками в том, что их ошибки не алгоритмические. Модели работают с семантикой и смыслами и младшие модели на действительно давали местами очень слабые результаты. Над этим и работают ведущие лаборатории и компании мира. Попробуйте так же легко обмануть современные фронтир модели. :)

Интересная мысль! Психология действительно имеет шансы расцвести с приходом ИИ, но есть нюанс - уже сейчас ЛЛМ активно используют именно как психологическую поддержку.

ГРок мне сообщил(у него вроде не плохо с поиском), что по свежим опросам 2025 года, почти 49% людей с ментальными сложностями, которые пользуются ИИ, обращаются к ChatGPT, Claude и подобным за помощью при тревоге, депрессии и стрессе. Причины банальные: ИИ всегда под рукой 24/7, ничего не стоит, не осуждает и не нужно ждать записи.

Мне это показалось логичным, из наблюдений: хорошего психолога ещё нужно найти, подстроиться под него и платить немалые деньги.

Что еще подумалось, топовые психологи с сильной практикой, репутацией и глубоким ремеслом точно не останутся без работы. Люди с деньгами и сложными запросами будут платить премию именно за живое человеческое взаимодействие, настоящую эмпатию и ответственность.

Ну и психологи, использующие в своей работе ЛЛМ (как и другие современные врачи) это уже реальность в 2026.

Понимаю о чем вы. Тем не менее, задача была поставлена на критику тезиса а не на его подкрепление. Поэтому итоговый вывод именно к "классической риторике" отношение имеет лишь косвенное. Будет классно, если вы продемонстрируете нам как заставите нейросеть опровергнуть основной тезис публикации. :)

Я не удержался и дотроллил электроников: https://habr.com/ru/articles/1027954/
Оригинальные промты: https://pages.xronocode.com/ai-rhetoric/

Мне тоже кажется что фундаментальный вклад еще предстоит только ощутить и оценить

Information

Rating
276-th
Date of birth
Registered
Activity

Specialization

Директор по продукту
Ведущий
Python
Git
Английский язык