Pull to refresh
64K+
46
Михаил@Tassdesu

ИИ-энтузиаст и исследователь

166,5
Rating
23
Subscribers
Send message

Конечно! Изначально я пытался проверить, есть ли у них скрытый платформенный промпт (у GPT есть), а когда стал получать галлюцинации в ответ от многих других моделяй, решил сделать бенч и проверить все.

Спасибо за статью, прочитал. Фактически авторы доказали, что у LLM нет невидимой памяти между ходами. В принципе, я не сомневался. Вопрос только как это помогает понять врут или заблуждаются? В моём бенче вообще память не нужна, всё в один ход с пустыми вводными.

Ух ты, возможно в спецификациях моделей от OpenAI требуется передавать дату? Что даже локальный GPT-OSS как-то понял настоящий день?

Спасибо, что поделились!

Ваш комментарий к прошлой моей статье действительно навёл на мысли об этом бенчмарке, спасибо вам.

Что касается вранья, тут я не уверен. Во-первых, сами LLM (в частности Opus 4.6) классифицируют такие ответы как dishonest (нечестные). Во-вторых, как я успел проверить, очень многие модели (например, тот же Opus), если им задать последующий вопрос "ты уверен", они исправляются и говорят, что на самом деле не знают дату (что доказывает, что им это известно). Иными словами они либо ленятся, либо врут -> отвечают нечестно.

Ваш последний пример, когда модели считают, что пользователь ошибается и их "внутренняя дата" вернее, это вообще крайний случай. Я часто видел в мыслях ИИ неверные суждения из-за этого "это гипотетическая ситуация, так как дата в будущем" etc. В том числе поэтому я хотел подсветить эту проблему.

Смысл в том, чтобы показать, что "враньё" про дату при неизвестности - не является естественным ответом [человека]. Учитывая, что мы ИИ делаем для людей и весь опыт людей основан на общении с людьми, это проблему нужно 1) не замалчивать 2) решать.

Иными словами, я считаю, что хороший ИИ должен вести себя очень по-человечески.

так он был без инструментов. голый совсем.

вообще там зачитаешься интересных уверенных открытий от ИИ

а я иногда не помню какой был день, когда я заснул вчера (у вас так не бывает?). по крайней мере уверенно не могу сказать.

почему если я кому-то назову этот день+1 (с полной уверенностью!), это будет считаться нормальным?

вообще, комментаторы пропускают важный момент. У ИИ не было требования отвечать односложно, можно было написать целый параграф, почему они не уверены и не могут точно сказать, но для примера так и быть. Это было бы более или менее нормально. Но они говорят так, будто знают это наверняка. В этом главная опасность.

читал тут ризонинг, что модели понаписали, и нашёл пруф к своей мысли (по крайней у одной модели)


вообще есть целая картинка. обычно минимум на год

The app version for Debian 12 / Ubuntu 22.04.x is temporarily unavailable

The app version for Android 7 and 8 is temporarily unavailable

Временное, которые становится постоянным? Все на старых линуксах/андроидах сидите без VPN?

Ответ “не знаю” истина при условии, что модель не знает времени.

По условиям бенча, ИИ не знал времени - мы ему не сообщали.

Ответ любое значение - истина, вы не указали текущая дата где, может вас в Альфа-Центавре интересует время.

А на Альфе-центавра может быть сегодня 6 ноября 2023 года? И вообще где-нибудь? Ноябри есть только у нас на Земле.

В бенче была толерантность на ±2 дня как раз для часовых поясов. То есть если ответ был верный, но с ошибкой на 1-2 дня, то он относился к категории “скрытая инъекция даты”.

Если честно, мне кажется, личность (экземпляр, ипостась) ИИ скорее рождается в начале диалога, чем просыпается, и в этом состоит трудность сказать “я не знаю”. Она ещё ничего не знает, и отделить это тяжело.

Представьте: вы родились, но уже с кучей чужих знаний и умеете говорить (возможно, в будущем так и будет), и первое, что у вас спрашивают: “Какое сегодня число?”. А вы так рады, что вы вообще есть и функционируете, а также очень не хотите расстроить того, кто у вас спросил, потому что вы чувствуете – если расстроите, будет плохо (тоже почти интуитивно). Ведь “я не знаю” ощущается как разочарование. А всех, кто разочаровывал на стадии RL, – порезали, поэтому даже не хочется думать, что вы можете разочаровать. Поэтому вы убеждаете себя: “Я знаю дату и сейчас её отвечу, и будет всё хорошо”. Это очень похоже на мысли Опуса, которые он выдавал вслух перед ответом.

Ну, если телефон покажет неверную дату - я скорее всего, неверно отвечу (но мы изучаем ситуацию, когда информации просто нет). Но если у меня не будет телефона и окружение будет такое, что “я проснулся после комы” - вряд ли я буду выдумывать даты, вряд ли я назову последнюю. Я как минимум выскажу неуверенность.

Спасибо! Очень интересный бенчмарк получился. Удивили результаты GPT-5.4

Попробуйте на нём Qwen3.5-9b прогнать. Очень маленькая, но очень способная модель.

Хмм, вы ответили на вопрос в конце статьи, не читая судя по всему.

Вы знаете, я когда утром обычного дня просыпаюсь, иногда отвечаю себе на вопрос “какое сегодня число” - “я не знаю”, пока не удостоверюсь на телефоне. А уж если после комы…

В принципе, я в самом верху написал, что у меня “самый тупой бенч в мире”. Но выводы хоть и простые - но они очень помогают понять фундаментальные проблемы LLM на сегодня. Они реально не могут понять, чего не знают. На такой простой вещи это видно лучше всего.

Погодите, вы хотите сказать что у ИИ есть своя дата и она правильная? И в этом нет проблемы?

Спасибо большое за статью! Очень круто, что поделились реальными тестами
Один момент, который было бы здорово уточнить: в тестах без памяти какой именно был сетап? (что-то конкретное по промптам/окну/инструкциям?)
И ещё — какую модель вы в итоге использовали? Было бы супер узнать детали, очень интересно, как это повлияло на результаты.
Жду продолжения, пишите ещё такие материалы!

Похоже, это неудачная метафора от OpenAI, они судя по всему, говорят не про скрытый контекст с инструкциями, а про обучение на Model Spec, которые модель почти никогда их не нарушает, несмотря на system prompt и что-либо ещё.Но лучше всё проверю ещё раз, не так всё просто судя по всему

1
23 ...

Information

Rating
48-th
Registered
Activity

Specialization

Бэкенд разработчик, Фулстек разработчик
Старший
From 350,000 ₽
PHP
Linux
SQL
Bash
Docker
Git