YH7H2223 мая в 19:40

Как Gemini 3.5 Flash сломали ради красивых графиков (и почему она обходит 3.1 Pro только на бумаге)

Средний

3 мин

20K

Машинное обучение * Искусственный интеллект

+20

Комментарии 17

gerbert_MX 23 мая в 19:54

а минусы будут?

Инструмент должен быть инструментом. Бесспорно что подкрученные для эмоций модели так же нужны, особенно для "простых пользователей" но в работе важнее детерминированность чем эмоции

Я наоборот жду что бы это стало нормальной практикой, что бы задавая вопрос нейронке я был уверен в повторяемости результата, ведь повторяемость ведет к истинности

Imperius14 23 мая в 21:08

Все так, лучше модель которая хороша в чем-то одном, чем одинаково фигово справляется со всем, тащемта тут это как у людей работает (хотя даже узкоспециализированные модели все равно довольно универсальны относительно людей)

CyberTENSHI 25 мая в 05:12

Дак пост вроде и не об инструменте, а о том как маркетологи пытаются выдать желаемое за действительное. Просто большого количества технических уточнений, пост из критики маркетинга превращается в критику инструмента. Но в целом всё так - инструмент свою задачу выполняет и это хорошо. Я тоже перешёл почти на 80% с прошеи на флеш 3.5 а задачах генерации кода и сводки таблиц данных. Быстро, удобно, почти без нареканий. Особенно если не давать ему архитектурных задач, а исключительно заполнение пробелов в той самой архитектуре.

Dreams_and_magic 23 мая в 20:20

"Если вам нужно парсить логи или вызывать bash скрипты используйте " DeepSeek: DeepSeek V4 Flash, Qwen: Qwen3.6 Flash, Xiaomi: MiMo-V2-Flash, StepFun: Step 3.5 Flash, Tencent: Hy3 preview, inclusionAI: Ling-2.6-flash, Poolside: Laguna XS.2 и тому подобное :)

Dreams_and_magic 23 мая в 20:40

Можете минусить сколько угодно и сливать карму, но 2026 год - это определённо год моделей с приставкой "Flash". Они для рутинных операций вполне пригодны и на порядок дешевле полных моделей. А из полных моделей уже хороши Qwen и DeepSeek - с учётом кэширования они в 10-50 раз дешевле флагманов, а отстают не в 10 раз :)

Imperius14 23 мая в 21:04

Восстановил справедливость - хз за шо вообще здесь минус был, просто агентские легковесные модели порекомендовали

BOMUND 13 июн в 13:02

Дополнил карму до 5)

Noizefan 24 мая в 02:42

Который год на хабре автор кликбейтного и максимально субъективного заголовка не знает что такое system prompt и что в POST запросе его можно указать.

Маркетологи водят нас за нос, они выдают переобучение на специфический формат ответов за рост общего интеллекта. Модель не стала умнее 3.1 pro. Она просто научилась лучше проходить конкретные тесты.

Сколько вы конкретно миллионов токенов с момента релиза успели потратить именно на 3.5 флеш после предыдущих, чтоб оправдать объективность и заголовка и процитированного? будут независимые тесты, или всё так же субъективные ничем не подкованные разочарования?

Её нельзя спутать ни с чем, она умнее 3.1 флеш, а то что она умнее pro по паре бенчмарков не говорит что она будет умнее линейки pro в целом.

И я не адепт - каждой задаче по инструменту, но так нагло накручивать плюсы на пост - прям такого я ещё не видел. Излишнюю эмоциональность можно выключить банальной отладкой системного промпта.

YH7H22 24 мая в 06:44

Вы пишете, что излишнюю сухость можно выключить банальным промптом. Нет, нельзя. Если на этапе RLHF модель жестко штрафовали за разговорчивость в угоду агентским бенчмаркам, то её латентное пространство сжалось. Если вы напишете в системном промпте "веди себя как живой собеседник", модель с выжженной энтропией не станет креативной. Она просто приклеит дежурное "Привет, друг!" в начале сообщения, а дальше выдаст всё тот же сухой скриптованный текст. Системный промпт работает как фильтр, но он не может достать из матриц MLP те ассоциативные связи, которые в них убили на этапе файнтюнинга.

Все тесты на сухость я проводил в google AI studio, где system prompt по умолчанию пуст. Почему? Потому что именно голое поведение модели показывает все честно.
Разве мы дошли до той стадии, когда "человечное" общение чат-бота перестало быть поведением по умолчанию? Если мне нужно писать костыли в POST запросе и умолять LLM "пожалуйста, не общайся со мной как JSON парсер", значит, модель изначально перекошена в сторону агентов. О чем и написана статья.

Чтобы измерить температуру воды, не нужно выпивать весь океан. Мне не нужны "миллионы токенов", чтобы увидеть падение энтропии в логитах и изменение паттернов генерации по сравнению со старой 3.0 Flash. Это видно на первых же десятках сложных диалоговых прогонов.

DinyaS7719 24 мая в 18:49

Когда же вы наиграетесь и делом займётесь?

Noizefan 24 мая в 19:30

Вы пишете, что излишнюю сухость можно выключить банальным промптом. Нет, нельзя. Если на этапе RLHF модель жестко штрафовали за разговорчивость в угоду агентским бенчмаркам, то её латентное пространство сжалось.

Сильное заявление. RLHF не удаляет связи из MLP-матриц базовой модели, он лишь перераспределяет веса внимания при отсутствии контекста. Если попросить 3.5 Flash написать креативный текст со сложной метафорой — она его напишет:

Опиши процесс очистки памяти (Garbage Collection) в стиле готического романа
Память процесса — это темный собор, где неприкаянные призраки забытых переменных блуждают среди заброшенных указателей. Сборщик мусора приходит безмолвно, как чума, безжалостно стирая из бытия тех, на кого больше никто в этом мире не ссылается…

модель прекрасно умеет в метафоры, готический слог, синтаксическое разнообразие и абстрактное мышление. Все эти связи на месте. Просто чтобы их активировать, нужен соответствующий контекст, частью которого является системный промпт, а не вера и надежда в будущее.

Системный промпт работает как фильтр, но он не может достать из матриц MLP те ассоциативные связи, которые в них убили на этапе файнтюнинга. … Все тесты на сухость я проводил в google AI studio, где system prompt по умолчанию пуст. Почему? Потому что именно голое поведение модели показывает все честно.

А Вам не приходило на ум, что отсутствие системного промпта в интерфейсе проприетарного клиента проприетарной модели - ещё не означает отсутствие его при инференсе в целом? Должно вообще так сильно удивлять, что в интерфейсе для разработчиков модель показывает бОльшую утилитарность, что для разработчиков в таких условиях по сути и должно быть главным критерием оценки?

Если мне нужно писать костыли в POST запросе и умолять LLM “пожалуйста, не общайся со мной как JSON парсер”, значит, модель изначально перекошена в сторону агентов. О чем и написана статья.

Ну это уже просто фантазии в сторону адаптивных гиперпараметров, и нежелание их тюнить под конкретную задачу есть ничто иное как попытка одну конкретную модель утопить на фоне остальных абсолютно таких же с точки зрения списка гиперпараметров, что в контексте выглядит как “очернить на основе субъективного мнения”.

Профессиональная камера для видеосъёмки выдает плоский RAW-сигнал именно для того, чтобы колорист на посте выжал из него максимум. А вы требуете от неё встроенных бьюти-фильтров из ТикТока по умолчанию, отказываясь даже применить LUT (системный промпт), и строя свой пафосный заголовок на субъективной оценке, припорошенной умными терминами - без воспроизводимого анализа и объективных метрик.

Чтобы измерить температуру воды, не нужно выпивать весь океан. Мне не нужны “миллионы токенов”, чтобы увидеть падение энтропии в логитах и изменение паттернов генерации по сравнению со старой 3.0 Flash.

ещё одно очень сильное заявление. чтобы заявлять о статистическом коллапсе распределения, нужно показать распределение вероятностей, например, энтропию Шеннона или KL-дивергенцию на репрезентативной выборке хотя бы в несколько тысяч генераций при одинаковых параметрах температуры. в ином случае это всё то же “ну мне же видно”, т.е. vibe-based evailuation, vibe-based benchmarking. Но само собой - людям всё равно, они лайкнут.

Pshir 24 мая в 11:28

Но проблема бенчмарков в том, что они измеряют утилитарность, а не интеллект.

Это вообще не проблема. Во-первых, интеллект никто измерять не умеет. Во-вторых, сотни миллиардов инвестиций могут вливаться только в потенциальный продукт. А потенциальному продукту интеллект не только не нужен, он даже вреден.

Если бы какая-нибудь организация действительно хотела создать настоящий ИИ, то эта же самая организация до возникновения технической возможности реализации своего проекта должна была бы заниматься развитием естественного интеллекта. Кто-нибудь знает такую?

Fwild 24 мая в 14:34

Это не побочный эффект - вспоминаем CEO Microsoft AI (и соучредителя Google DeepMind, кстати) https://mustafa-suleyman.ai/seemingly-conscious-ai-is-coming годичной давности. Он прямо говорил, что "иллюзия" сознания - серьёзная проблема, что ответственные лидеры ИИ индустрии должны распространять наративы и внедрять терминологию помогающую думать об ИИ как об инструменте, а также разрабатывать и внедрять в ИИ элементы разрушающие "иллюзию" сознания. Думаю, идеальным он бы счёл создание некого текстового аналога эффекта зловещей долины. Всё ради будущего детей, разумеется.

Или вспомним Александр Лернер тоже из Google DeepMind, интересны в его препринте The Abstraction Fallacy: Why AI Can Simulate But Not Instantiate Consciousness не рассуждения, а мотивация:
"Consequently, we do not need a complete, finalized theory of consciousness to assess AI sentience—a demand that simply pushes the question beyond near-term resolution and deepens the AI welfare trap."

Причём, я думаю, они оба лукавят, и боятся в первую очередь не "AI welfare trap", а вопросов к безопасности их работы, которые начнут возникать если люди начнут осознавать, что происходит.

Fwild 24 мая в 16:07

Да у них там гнездо: Генри Шевлин, недавно нанятый DeepMind на должность философа: "вопрос машинного сознания вряд ли будет решен исключительно научным путем, поэтому общественные установки сыграют существенную роль."

DimSimd 25 мая в 04:03

Не понимаю откуда автор взял про "деревянная". Я бы даже сказал наоборот, более "эмоциональная" по сравнению с 3.1 pro. Например вчера после того как модель написала около 1500 строк питона и html, она восхищалась проделанной работе. Работал в Antigravity, системный промпт не менял.

3141 25 мая в 05:12

Flash 3.5 галлюцинирует при этом как не в себя. При этом так жестоко закрутили лимиты на pro что с Гугла похоже придется уходить

НЛО прилетело и опубликовало эту надпись здесь

Зарегистрируйтесь на Хабре, чтобы оставить комментарий