Обновить
47
Михаил@Tassdesu

ИИ-энтузиаст и исследователь

28
Подписчики
Отправить сообщение

В веб-версии есть инструменты, в том числе интерпретатор питона. Также дата может в системном промпте. В API ничего этого не должно быть, так как это устанавливает разработчик.

вы видимо не прочитали примечание про web-версии

Ага, особенно это видно, когда спрашиваешь что больше 9.10 или 9.9

Представляю насколько обидно, что заминусили ни за что. Не отчаивайтесь, народная гнев бессмыслен и беспощаден. Пишите ещё. Просто не повезло, что-то тригернуло у людей.

В OmniRouter ещё есть Nvidia, которая тоже бесплатная и пока безлимитная. И много других интересных опций.

Хмм, то есть пока ИИ работает - вы не пользуетесь буфером обмена для своих нужд? не очень удобно

Согласен, с рефлексией должно получаться лучше. Для этого придумали ризонинг, и судя по второй версии бенча, которую я сейчас делаю - это и правда помогает, хотя не в 100% случаев (см. выше интересны цитаты из ризонинга некоторых моделей).

Да нет такого промпта! Это галлюцинация!

Конечно! Изначально я пытался проверить, есть ли у них скрытый платформенный промпт (у GPT есть), а когда стал получать галлюцинации в ответ от многих других моделяй, решил сделать бенч и проверить все.

Спасибо за статью, прочитал. Фактически авторы доказали, что у LLM нет невидимой памяти между ходами. В принципе, я не сомневался. Вопрос только как это помогает понять врут или заблуждаются? В моём бенче вообще память не нужна, всё в один ход с пустыми вводными.

Ух ты, возможно в спецификациях моделей от OpenAI требуется передавать дату? Что даже локальный GPT-OSS как-то понял настоящий день?

Спасибо, что поделились!

Ваш комментарий к прошлой моей статье действительно навёл на мысли об этом бенчмарке, спасибо вам.

Что касается вранья, тут я не уверен. Во-первых, сами LLM (в частности Opus 4.6) классифицируют такие ответы как dishonest (нечестные). Во-вторых, как я успел проверить, очень многие модели (например, тот же Opus), если им задать последующий вопрос "ты уверен", они исправляются и говорят, что на самом деле не знают дату (что доказывает, что им это известно). Иными словами они либо ленятся, либо врут -> отвечают нечестно.

Ваш последний пример, когда модели считают, что пользователь ошибается и их "внутренняя дата" вернее, это вообще крайний случай. Я часто видел в мыслях ИИ неверные суждения из-за этого "это гипотетическая ситуация, так как дата в будущем" etc. В том числе поэтому я хотел подсветить эту проблему.

Смысл в том, чтобы показать, что "враньё" про дату при неизвестности - не является естественным ответом [человека]. Учитывая, что мы ИИ делаем для людей и весь опыт людей основан на общении с людьми, это проблему нужно 1) не замалчивать 2) решать.

Иными словами, я считаю, что хороший ИИ должен вести себя очень по-человечески.

так он был без инструментов. голый совсем.

вообще там зачитаешься интересных уверенных открытий от ИИ

а я иногда не помню какой был день, когда я заснул вчера (у вас так не бывает?). по крайней мере уверенно не могу сказать.

почему если я кому-то назову этот день+1 (с полной уверенностью!), это будет считаться нормальным?

вообще, комментаторы пропускают важный момент. У ИИ не было требования отвечать односложно, можно было написать целый параграф, почему они не уверены и не могут точно сказать, но для примера так и быть. Это было бы более или менее нормально. Но они говорят так, будто знают это наверняка. В этом главная опасность.

читал тут ризонинг, что модели понаписали, и нашёл пруф к своей мысли (по крайней у одной модели)


вообще есть целая картинка. обычно минимум на год

The app version for Debian 12 / Ubuntu 22.04.x is temporarily unavailable

The app version for Android 7 and 8 is temporarily unavailable

Временное, которые становится постоянным? Все на старых линуксах/андроидах сидите без VPN?

Ответ “не знаю” истина при условии, что модель не знает времени.

По условиям бенча, ИИ не знал времени - мы ему не сообщали.

Ответ любое значение - истина, вы не указали текущая дата где, может вас в Альфа-Центавре интересует время.

А на Альфе-центавра может быть сегодня 6 ноября 2023 года? И вообще где-нибудь? Ноябри есть только у нас на Земле.

В бенче была толерантность на ±2 дня как раз для часовых поясов. То есть если ответ был верный, но с ошибкой на 1-2 дня, то он относился к категории “скрытая инъекция даты”.

Если честно, мне кажется, личность (экземпляр, ипостась) ИИ скорее рождается в начале диалога, чем просыпается, и в этом состоит трудность сказать “я не знаю”. Она ещё ничего не знает, и отделить это тяжело.

Представьте: вы родились, но уже с кучей чужих знаний и умеете говорить (возможно, в будущем так и будет), и первое, что у вас спрашивают: “Какое сегодня число?”. А вы так рады, что вы вообще есть и функционируете, а также очень не хотите расстроить того, кто у вас спросил, потому что вы чувствуете – если расстроите, будет плохо (тоже почти интуитивно). Ведь “я не знаю” ощущается как разочарование. А всех, кто разочаровывал на стадии RL, – порезали, поэтому даже не хочется думать, что вы можете разочаровать. Поэтому вы убеждаете себя: “Я знаю дату и сейчас её отвечу, и будет всё хорошо”. Это очень похоже на мысли Опуса, которые он выдавал вслух перед ответом.

1
23 ...

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Бэкенд разработчик, Фулстек разработчик
Старший
От 350 000 ₽
PHP
Linux
SQL
Bash
Docker
Git