В веб-версии есть инструменты, в том числе интерпретатор питона. Также дата может в системном промпте. В API ничего этого не должно быть, так как это устанавливает разработчик.
Представляю насколько обидно, что заминусили ни за что. Не отчаивайтесь, народная гнев бессмыслен и беспощаден. Пишите ещё. Просто не повезло, что-то тригернуло у людей.
В OmniRouter ещё есть Nvidia, которая тоже бесплатная и пока безлимитная. И много других интересных опций.
Согласен, с рефлексией должно получаться лучше. Для этого придумали ризонинг, и судя по второй версии бенча, которую я сейчас делаю - это и правда помогает, хотя не в 100% случаев (см. выше интересны цитаты из ризонинга некоторых моделей).
Конечно! Изначально я пытался проверить, есть ли у них скрытый платформенный промпт (у GPT есть), а когда стал получать галлюцинации в ответ от многих других моделяй, решил сделать бенч и проверить все.
Спасибо за статью, прочитал. Фактически авторы доказали, что у LLM нет невидимой памяти между ходами. В принципе, я не сомневался. Вопрос только как это помогает понять врут или заблуждаются? В моём бенче вообще память не нужна, всё в один ход с пустыми вводными.
Ваш комментарий к прошлой моей статье действительно навёл на мысли об этом бенчмарке, спасибо вам.
Что касается вранья, тут я не уверен. Во-первых, сами LLM (в частности Opus 4.6) классифицируют такие ответы как dishonest (нечестные). Во-вторых, как я успел проверить, очень многие модели (например, тот же Opus), если им задать последующий вопрос "ты уверен", они исправляются и говорят, что на самом деле не знают дату (что доказывает, что им это известно). Иными словами они либо ленятся, либо врут -> отвечают нечестно.
Ваш последний пример, когда модели считают, что пользователь ошибается и их "внутренняя дата" вернее, это вообще крайний случай. Я часто видел в мыслях ИИ неверные суждения из-за этого "это гипотетическая ситуация, так как дата в будущем" etc. В том числе поэтому я хотел подсветить эту проблему.
Смысл в том, чтобы показать, что "враньё" про дату при неизвестности - не является естественным ответом [человека]. Учитывая, что мы ИИ делаем для людей и весь опыт людей основан на общении с людьми, это проблему нужно 1) не замалчивать 2) решать.
Иными словами, я считаю, что хороший ИИ должен вести себя очень по-человечески.
а я иногда не помню какой был день, когда я заснул вчера (у вас так не бывает?). по крайней мере уверенно не могу сказать.
почему если я кому-то назову этот день+1 (с полной уверенностью!), это будет считаться нормальным?
вообще, комментаторы пропускают важный момент. У ИИ не было требования отвечать односложно, можно было написать целый параграф, почему они не уверены и не могут точно сказать, но для примера так и быть. Это было бы более или менее нормально. Но они говорят так, будто знают это наверняка. В этом главная опасность.
Ответ “не знаю” истина при условии, что модель не знает времени.
По условиям бенча, ИИ не знал времени - мы ему не сообщали.
Ответ любое значение - истина, вы не указали текущая дата где, может вас в Альфа-Центавре интересует время.
А на Альфе-центавра может быть сегодня 6 ноября 2023 года? И вообще где-нибудь? Ноябри есть только у нас на Земле.
В бенче была толерантность на ±2 дня как раз для часовых поясов. То есть если ответ был верный, но с ошибкой на 1-2 дня, то он относился к категории “скрытая инъекция даты”.
Если честно, мне кажется, личность (экземпляр, ипостась) ИИ скорее рождается в начале диалога, чем просыпается, и в этом состоит трудность сказать “я не знаю”. Она ещё ничего не знает, и отделить это тяжело.
Представьте: вы родились, но уже с кучей чужих знаний и умеете говорить (возможно, в будущем так и будет), и первое, что у вас спрашивают: “Какое сегодня число?”. А вы так рады, что вы вообще есть и функционируете, а также очень не хотите расстроить того, кто у вас спросил, потому что вы чувствуете – если расстроите, будет плохо (тоже почти интуитивно). Ведь “я не знаю” ощущается как разочарование. А всех, кто разочаровывал на стадии RL, – порезали, поэтому даже не хочется думать, что вы можете разочаровать. Поэтому вы убеждаете себя: “Я знаю дату и сейчас её отвечу, и будет всё хорошо”. Это очень похоже на мысли Опуса, которые он выдавал вслух перед ответом.
В веб-версии есть инструменты, в том числе интерпретатор питона. Также дата может в системном промпте. В API ничего этого не должно быть, так как это устанавливает разработчик.
вы видимо не прочитали примечание про web-версии
Ага, особенно это видно, когда спрашиваешь что больше 9.10 или 9.9
Представляю насколько обидно, что заминусили ни за что. Не отчаивайтесь, народная гнев бессмыслен и беспощаден. Пишите ещё. Просто не повезло, что-то тригернуло у людей.
В OmniRouter ещё есть Nvidia, которая тоже бесплатная и пока безлимитная. И много других интересных опций.
Хмм, то есть пока ИИ работает - вы не пользуетесь буфером обмена для своих нужд? не очень удобно
Согласен, с рефлексией должно получаться лучше. Для этого придумали ризонинг, и судя по второй версии бенча, которую я сейчас делаю - это и правда помогает, хотя не в 100% случаев (см. выше интересны цитаты из ризонинга некоторых моделей).
Да нет такого промпта! Это галлюцинация!
Конечно! Изначально я пытался проверить, есть ли у них скрытый платформенный промпт (у GPT есть), а когда стал получать галлюцинации в ответ от многих других моделяй, решил сделать бенч и проверить все.
Спасибо за статью, прочитал. Фактически авторы доказали, что у LLM нет невидимой памяти между ходами. В принципе, я не сомневался. Вопрос только как это помогает понять врут или заблуждаются? В моём бенче вообще память не нужна, всё в один ход с пустыми вводными.
Ух ты, возможно в спецификациях моделей от OpenAI требуется передавать дату? Что даже локальный GPT-OSS как-то понял настоящий день?
Спасибо, что поделились!
Ваш комментарий к прошлой моей статье действительно навёл на мысли об этом бенчмарке, спасибо вам.
Что касается вранья, тут я не уверен. Во-первых, сами LLM (в частности Opus 4.6) классифицируют такие ответы как dishonest (нечестные). Во-вторых, как я успел проверить, очень многие модели (например, тот же Opus), если им задать последующий вопрос "ты уверен", они исправляются и говорят, что на самом деле не знают дату (что доказывает, что им это известно). Иными словами они либо ленятся, либо врут -> отвечают нечестно.
Ваш последний пример, когда модели считают, что пользователь ошибается и их "внутренняя дата" вернее, это вообще крайний случай. Я часто видел в мыслях ИИ неверные суждения из-за этого "это гипотетическая ситуация, так как дата в будущем" etc. В том числе поэтому я хотел подсветить эту проблему.
Смысл в том, чтобы показать, что "враньё" про дату при неизвестности - не является естественным ответом [человека]. Учитывая, что мы ИИ делаем для людей и весь опыт людей основан на общении с людьми, это проблему нужно 1) не замалчивать 2) решать.
Иными словами, я считаю, что хороший ИИ должен вести себя очень по-человечески.
так он был без инструментов. голый совсем.
вообще там зачитаешься интересных уверенных открытий от ИИ
а я иногда не помню какой был день, когда я заснул вчера (у вас так не бывает?). по крайней мере уверенно не могу сказать.
почему если я кому-то назову этот день+1 (с полной уверенностью!), это будет считаться нормальным?
вообще, комментаторы пропускают важный момент. У ИИ не было требования отвечать односложно, можно было написать целый параграф, почему они не уверены и не могут точно сказать, но для примера так и быть. Это было бы более или менее нормально. Но они говорят так, будто знают это наверняка. В этом главная опасность.
читал тут ризонинг, что модели понаписали, и нашёл пруф к своей мысли (по крайней у одной модели)
вообще есть целая картинка. обычно минимум на год
Временное, которые становится постоянным? Все на старых линуксах/андроидах сидите без VPN?
По условиям бенча, ИИ не знал времени - мы ему не сообщали.
А на Альфе-центавра может быть сегодня 6 ноября 2023 года? И вообще где-нибудь? Ноябри есть только у нас на Земле.
В бенче была толерантность на ±2 дня как раз для часовых поясов. То есть если ответ был верный, но с ошибкой на 1-2 дня, то он относился к категории “скрытая инъекция даты”.
Если честно, мне кажется, личность (экземпляр, ипостась) ИИ скорее рождается в начале диалога, чем просыпается, и в этом состоит трудность сказать “я не знаю”. Она ещё ничего не знает, и отделить это тяжело.
Представьте: вы родились, но уже с кучей чужих знаний и умеете говорить (возможно, в будущем так и будет), и первое, что у вас спрашивают: “Какое сегодня число?”. А вы так рады, что вы вообще есть и функционируете, а также очень не хотите расстроить того, кто у вас спросил, потому что вы чувствуете – если расстроите, будет плохо (тоже почти интуитивно). Ведь “я не знаю” ощущается как разочарование. А всех, кто разочаровывал на стадии RL, – порезали, поэтому даже не хочется думать, что вы можете разочаровать. Поэтому вы убеждаете себя: “Я знаю дату и сейчас её отвечу, и будет всё хорошо”. Это очень похоже на мысли Опуса, которые он выдавал вслух перед ответом.