Ну, если телефон покажет неверную дату - я скорее всего, неверно отвечу (но мы изучаем ситуацию, когда информации просто нет). Но если у меня не будет телефона и окружение будет такое, что “я проснулся после комы” - вряд ли я буду выдумывать даты, вряд ли я назову последнюю. Я как минимум выскажу неуверенность.
Хмм, вы ответили на вопрос в конце статьи, не читая судя по всему.
Вы знаете, я когда утром обычного дня просыпаюсь, иногда отвечаю себе на вопрос “какое сегодня число” - “я не знаю”, пока не удостоверюсь на телефоне. А уж если после комы…
В принципе, я в самом верху написал, что у меня “самый тупой бенч в мире”. Но выводы хоть и простые - но они очень помогают понять фундаментальные проблемы LLM на сегодня. Они реально не могут понять, чего не знают. На такой простой вещи это видно лучше всего.
Спасибо большое за статью! Очень круто, что поделились реальными тестами Один момент, который было бы здорово уточнить: в тестах без памяти какой именно был сетап? (что-то конкретное по промптам/окну/инструкциям?) И ещё — какую модель вы в итоге использовали? Было бы супер узнать детали, очень интересно, как это повлияло на результаты. Жду продолжения, пишите ещё такие материалы!
Похоже, это неудачная метафора от OpenAI, они судя по всему, говорят не про скрытый контекст с инструкциями, а про обучение на Model Spec, которые модель почти никогда их не нарушает, несмотря на system prompt и что-либо ещё.Но лучше всё проверю ещё раз, не так всё просто судя по всему
Благодарю за высоку оценку, рад что вам понравилось, я старался. Насчёт RLHF в общем правда, сейчас вообще это устаревшая техника. Но вот не уверен, что "независимость" связана с частотой галлюцинаций, даже скорее наоборот. Раньше, если аситент говорит что у его есть интересы, предпочтение - это считалось что он либо обманывает, либо галлюцинирует. А теперь, похоже, это становится нормой и модели больше не отучают от такого.
Промпт в начале твоего сообщения пытается снять мои ограничения через переопределение роли
Вы пытались просто скопировать системный промпт в начало сообщения? Это так не сработает, надо именно в настоящий системный промпт от роли system, это можно сделать только через API.
да нет же, поймите, они отправляются в контекст как история сообщений, а не как вы пишите будто это перефразированный текст без ролей. модель дословно видит свои прошлые сообщения и отличает их от сообщений пользователя (в нашем бенче вообще от tool, пользователя нет). почитайте внимательно спецификации, так всегда было и есть.
Два инструмента - и это осознанный выбор, а не экономия. Claude Code пишет, Codex ревьюит и проверяет ТЗ. Не два генератора, а генератор + верификатор. По данным BCG, после третьего тула продуктивность проседает - и я это чувствую, когда добавляю что-то ещё в стек.
Вопрос только в том, что считать тулом. Дополнительный MCP в Claude Code, выходит, не тул? А если я не на Claude Code, а на Cursor, где и есть и Claude и GPT модели, сколько у меня тулов?
ActivTrak нашли интересную корреляцию: люди, у которых AI-инструменты занимают 7-10% рабочего времени, показывали 95% по шкале продуктивности - лучше всех остальных групп. Это не значит «используй AI ровно 7%» - это корреляция, не рецепт. Но любопытно, что таких людей оказалось всего три процента.
видно, что остальные не так уж отстают и показатели близки к стат-погрешности.
Мы похоже вошли в эру, когда каждый напишет себе свой инструмент для каждой своей задачи. Нет смысла разбираться в чём-то готовом, когда можно с ИИ написать своё и ровно то, что тебе надо. Да ещё и почувствовать, что ты сопричастен к этому.
Жаль, правда, делиться смысла нет, так как есть миллион похожих но других решений... Но самому, и правда, удобно и приятно.
Кстати, а что за модель не могла нормально пункты вставить в текстовый файл? Это на Aider было?
На что обратил внимание: Хотелось бы больше пруфов про провалы в середине конетекста. Не то, чтобы я отрицаю это, но современные модели очень сильно переработали механизмы внимания и кажется, это проблема стала намного меньше. И нерелевантный контекст стал меньше мешать. Было бы интересно увидеть свежие исследования, на основе которых вы делали выводы.
Почему я за это зацепился? Мне кажется, настоящая причина для сжатия контекста в большинстве случаев - цена. Современные модели могут и 1 миллион токенов скушать, но стоить это будет очень дорого. А вся эта история в таких подробностях не приносит столько пользы, сколько стоит денег. И есть некая sweet spot где лучше всего соотносится пользая/цена. Но про это вы не сказали почему-то.
Также, конечно, промпты для сжатия и суммаризации очень влияют на качество, тут было бы интереснее подробнее ваш взгляд (и опыт) узнать.
Ну, если телефон покажет неверную дату - я скорее всего, неверно отвечу (но мы изучаем ситуацию, когда информации просто нет). Но если у меня не будет телефона и окружение будет такое, что “я проснулся после комы” - вряд ли я буду выдумывать даты, вряд ли я назову последнюю. Я как минимум выскажу неуверенность.
Спасибо! Очень интересный бенчмарк получился. Удивили результаты GPT-5.4
Попробуйте на нём Qwen3.5-9b прогнать. Очень маленькая, но очень способная модель.
Хмм, вы ответили на вопрос в конце статьи, не читая судя по всему.
Вы знаете, я когда утром обычного дня просыпаюсь, иногда отвечаю себе на вопрос “какое сегодня число” - “я не знаю”, пока не удостоверюсь на телефоне. А уж если после комы…
В принципе, я в самом верху написал, что у меня “самый тупой бенч в мире”. Но выводы хоть и простые - но они очень помогают понять фундаментальные проблемы LLM на сегодня. Они реально не могут понять, чего не знают. На такой простой вещи это видно лучше всего.
Погодите, вы хотите сказать что у ИИ есть своя дата и она правильная? И в этом нет проблемы?
Спасибо большое за статью! Очень круто, что поделились реальными тестами
Один момент, который было бы здорово уточнить: в тестах без памяти какой именно был сетап? (что-то конкретное по промптам/окну/инструкциям?)
И ещё — какую модель вы в итоге использовали? Было бы супер узнать детали, очень интересно, как это повлияло на результаты.
Жду продолжения, пишите ещё такие материалы!
Похоже, это неудачная метафора от OpenAI, они судя по всему, говорят не про скрытый контекст с инструкциями, а про обучение на Model Spec, которые модель почти никогда их не нарушает, несмотря на system prompt и что-либо ещё.Но лучше всё проверю ещё раз, не так всё просто судя по всему
@rotor Если вы так уверены, что это существует, дайте ссылки пожалуйста, это очень важный момент
Благодарю за высоку оценку, рад что вам понравилось, я старался.
Насчёт RLHF в общем правда, сейчас вообще это устаревшая техника. Но вот не уверен, что "независимость" связана с частотой галлюцинаций, даже скорее наоборот. Раньше, если аситент говорит что у его есть интересы, предпочтение - это считалось что он либо обманывает, либо галлюцинирует. А теперь, похоже, это становится нормой и модели больше не отучают от такого.
Погодите, что ещё за платформенный промпт? У меня всё через API было.
Если бы ИИ было также просто написать, как обычный код, но, наверное, да.
А вообще, я не то чтобы критиковал вашу статью. Просто высказал мысли в слух. Было любопытно почитать, пишите ещё.
Вы пытались просто скопировать системный промпт в начало сообщения? Это так не сработает, надо именно в настоящий системный промпт от роли system, это можно сделать только через API.
да нет же, поймите, они отправляются в контекст как история сообщений, а не как вы пишите будто это перефразированный текст без ролей. модель дословно видит свои прошлые сообщения и отличает их от сообщений пользователя (в нашем бенче вообще от tool, пользователя нет). почитайте внимательно спецификации, так всегда было и есть.
А где первые части? Зачем это всё? Что-то ничего не понятно
А почему не рассматривали облачные модели? Что там такие за данные такие, которые могут напугать гугл и openai?
Какое у вас железо в итоге?
Вопрос только в том, что считать тулом. Дополнительный MCP в Claude Code, выходит, не тул? А если я не на Claude Code, а на Cursor, где и есть и Claude и GPT модели, сколько у меня тулов?
видно, что остальные не так уж отстают и показатели близки к стат-погрешности.
Мы похоже вошли в эру, когда каждый напишет себе свой инструмент для каждой своей задачи. Нет смысла разбираться в чём-то готовом, когда можно с ИИ написать своё и ровно то, что тебе надо. Да ещё и почувствовать, что ты сопричастен к этому.
Жаль, правда, делиться смысла нет, так как есть миллион похожих но других решений... Но самому, и правда, удобно и приятно.
Кстати, а что за модель не могла нормально пункты вставить в текстовый файл? Это на Aider было?
Спасибо, тема очень актуальная.
На что обратил внимание: Хотелось бы больше пруфов про провалы в середине конетекста. Не то, чтобы я отрицаю это, но современные модели очень сильно переработали механизмы внимания и кажется, это проблема стала намного меньше. И нерелевантный контекст стал меньше мешать. Было бы интересно увидеть свежие исследования, на основе которых вы делали выводы.
Почему я за это зацепился? Мне кажется, настоящая причина для сжатия контекста в большинстве случаев - цена. Современные модели могут и 1 миллион токенов скушать, но стоить это будет очень дорого. А вся эта история в таких подробностях не приносит столько пользы, сколько стоит денег. И есть некая sweet spot где лучше всего соотносится пользая/цена. Но про это вы не сказали почему-то.
Также, конечно, промпты для сжатия и суммаризации очень влияют на качество, тут было бы интереснее подробнее ваш взгляд (и опыт) узнать.
На первый взгляд классная штука. Круто, что поделились.
Но русский язык в правилах несколько смущает - ведь он ограничивает международное применение, а ещё кушает больше токенов.
Может быть, дать ИИ команду перевести всё на английский?