Поиск жулика: Как понять, что перед вами ChatGPT 4? / Хабр

С момента появления ChatGPT 4, вопрос о том, как отличить ее на практике от старой-доброй 3.5 , волнует многих пользователей, в том числе и пользователей нашего сервиса. Простой запрос «какая версия ChatGPT передо мной?» не всегда даст правильный ответ — модели могут сообщить, что они не те, кем должны быть. И конечно же это насторожит.

В этой статье мы покажем, как отличить ChatGPT 4o от ChatGPT 3.5, используя задачи, с которыми обе модели справляются по-разному. Эти тесты помогут вам быстро определить, с какой версией вы работаете, если вдруг появились сомнения.

Приятного прочтения (:

Небольшая вводная

Хотя OpenAI убрали ChatGPT 3.5 из своего интерфейса и заменили ее на ChatGPT 4o mini, но 3.5 пока также доступна через API. Так как же верить сервисам, которые предоставляют доступ к официальным моделям, используя API? Как убедиться, что вы платите именно за то, за чем пришли? Я здесь, чтобы показать вам парочку задач, которые помогут разобраться, что за модель перед глазами. Многих вводит в заблуждение вопрос, а‑ля, «что ты за модель?», адресованный одной из моделей. Почему же вводит в заблуждение? Все просто: модель может ответить неверно, сказав, что она более устаревшей версии, чем та, за которой вы пришли и за которую могли заплатить. Конечно же это посеет сомнения! Но это явление можно отнести к галлюцинациям, о которых мы когда‑то уже говорили.

Но не будем ходить вокруг да около. Статья написана посредством полученного негативного фидбэка от одного из пользователей Хабра (@progchip666), где как раз таки и столкнулись с сомнениями по поводу модели.

Предлагаю задать пару вопросов моделям 4о и 3.5. Обращаться к 4о будем двумя способами: через оболочку BotHub и через официальное приложение ChatGPT, чтобы сравнить ответы. Сразу отмечу, что ответы через API и официальный UI могут разнится, почему? По причине системного промта, настроек и параметров. В то время как разработчик может сам себе все настроить, как ему угодно, прикупив API, — в официальном UI может быть сделано все за него. Насколько мне известно, то OpenAI не публиковала внутренние инструкции или системные промпты для ChatGPT, но они определенно есть, разве что нам с вами, простым обывателям, не дают в полной мере в этом покопаться, зато я помню одну из статей с Medium со способом вытащить этот самый системный промпт ChatGPT, где, кстати, указана модель, которую модель должна назвать, если ее спросят (сейчас этот способ уже не работает):

Но нужно понимать, что это июльский материал, и команда OpenAI могла обновить системные промпты.

Пример того, как системный промпт может выглядеть в официальном UI, есть в открытом доступе у Anthropic (модели Claude). То есть, например, Claude действует по принципу: чего не писано — того не ведаю, коль пусто в промпте — значит выдумаю.

*С Claude просто хороший пример для восприятия разницы API и оф. UI, больше мы к нему обращаться не будем

Актуальные данные

Начнем с данных. Обучающая выборка 4о модели — до октября 2023 года, а 3.5 до сентября 2021 года.

Наш промт будет таким:

что произошло 6 февраля 2023 года

ChatGPT-4o (BotHub):

ChatGPT-4o (OpenAI):

ChatGPT-3.5:

Итак, перед нашими глазами абсолютно разные ответы, наглядная демонстрация разницы в предоставлении актуальной информации (в условиях выборки, конечно). Чтобы убедиться, что перед вами ChatGPT 4o - просто задайте вопрос по той информации, которая появилась на просторах интернета уже после сентября 2021 года, но до октября 2023 года (это без функции поиска). ChatGPT 3.5 не сможет ответить на такой вопрос, либо ответит неверно, поскольку будет ограничена в своих возможностях.

Логика

Знаем, что версия 4o гораздо лучше 3.5 в логике, предлагаю это проверить на конкретном примере.

Наш промт будет следующим:

Две лодки плывут по реке параллельно друг другу. Каждая движется со скоростью 30 км/ч. С какой скоростью относительно берега движется их общий центр?

ChatGPT-4o:

ChatGPT-4o (OpenAI):

ChatGPT-3.5:

В задаче на логику, сравнивая модели, вы заметите, что ChatGPT 3.5 будет демонстрировать недостаточное понимание условия задачи, что приведет к неправильному выводу, в то время как ChatGPT 4o будет более точен в логических рассуждениях и физических задачах. ChatGPT 3.5, в силу того, что не понимает задачу, будет вдаваться (либо наоборот избегать, об этом далее) в подробности там, где того не требуется и только запутает вас, в то время как версия 4o сможет сразу установить, какие элементы важны для решения и применит правильный подход в решении.

Математика

И давайте, например, возьмем задачу по математике, простую, но которая требует внимательности.

Наш промт:

Кирпич весит 1 кг и полкирпича. Сколько весит кирпич?

ChatGPT-4o (BotHub):

ChatGPT-4o (OpenAI):

ChatGPT-3.5:

Итак, как я указала ранее, ChatGPT 3.5 может наоборот избегать подробностей, как она пришла к такому выводу, и ответ,полученный сейчас — яркая демонстрация этого явления. Вы не увидите логики и рассуждений, а только неправильное интерпретирование задачи, что, как и в предыдущей задаче, только создаст путаницу. Также, и ответ вы получите неверный, поскольку у версии 3.5 большие пробелы в математике в сравн��нии с версией 4o.

Таким образом, прогоняя модели через простые для человека, но порой непонятные для машины задачи, можно легко вычислить, где модель, за которой вы пришли, а где спрятался жулик. GPT 3.5 справляется исключительно с базовыми запросами, если пытаться копать дальше и давать ему задачки, связанные с рассуждениями, логикой и сложными (в сравнении с базовым уровнем) вычислениями — он посыпется и вы сможете понять, что перед вами ChatGPT 3.5. Но в то же время, нужно понимать, что и GPT 4/4o не так хороша, как могло показаться в ходе прочтения этой небольшой статьи. Статья предоставляет примеры задач, как понять, что перед вами ChatGPT 3.5, но не возносит GPT 4/4o к небесам: в нашем блоге есть много сравнений моделей (например, последний релиз API Grok 2), поиска галлюцинаций и когнитивных искажений, которые демонстрируют изъяны моделей, в том числе GPT-4o.

Всем спасибо за внимание! И не верьте моделям, когда они говорят свою версию или размер контекста (:

Поиск жулика: Как понять, что перед вами ChatGPT 4?

Небольшая вводная

Актуальные данные

Логика

Математика

Публикации

Информация