С момента появления ChatGPT 4, вопрос о том, как отличить ее на практике от старой-доброй 3.5 , волнует многих пользователей, в том числе и пользователей нашего сервиса. Простой запрос «какая версия ChatGPT передо мной?» не всегда даст правильный ответ — модели могут сообщить, что они не те, кем должны быть. И конечно же это насторожит.

В этой статье мы покажем, как отличить ChatGPT 4o от ChatGPT 3.5, используя задачи, с которыми обе модели справляются по-разному. Эти тесты помогут вам быстро определить, с какой версией вы работаете, если вдруг появились сомнения.

Приятного прочтения (:

Небольшая вводная

Хотя OpenAI убрали ChatGPT 3.5 из своего интерфейса и заменили ее на ChatGPT 4o mini, но 3.5 пока также доступна через API. Так как же верить сервисам, которые предоставляют доступ к официальным моделям, используя API? Как убедиться, что вы платите именно за то, за чем пришли? Я здесь, чтобы показать вам парочку задач, которые помогут разобраться, что за модель перед глазами. Многих вводит в заблуждение вопрос, а‑ля, «что ты за модель?», адресованный одной из моделей. Почему же вводит в заблуждение? Все просто: модель может ответить неверно, сказав, что она более устаревшей версии, чем та, за которой вы пришли и за которую могли заплатить. Конечно же это посеет сомнения! Но это явление можно отнести к галлюцинациям, о которых мы когда‑то уже говорили.

Но не будем ходить вокруг да около. Статья написана посредством полученного негативного фидбэка от одного из пользователей Хабра (@progchip666), где как раз таки и столкнулись с сомнениями по поводу модели.

Предлагаю задать пару вопросов моделям 4о и 3.5. Обращаться к 4о будем двумя способами: через оболочку BotHub и через официальное приложение ChatGPT, чтобы сравнить ответы. Сразу отмечу, что ответы через API и официальный UI могут разнится, почему? По причине системного промта, настроек и параметров. В то время как разработчик может сам себе все настроить, как ему угодно, прикупив API, — в официальном UI может быть сделано все за него. Насколько мне известно, то OpenAI не публиковала внутренние инструкции или системные промпты для ChatGPT, но они определенно есть, разве что нам с вами, простым обывателям, не дают в полной мере в этом покопаться, зато я помню одну из статей с Medium со способом вытащить этот самый системный промпт ChatGPT, где, кстати, указана модель, которую модель должна назвать, если ее спросят (сейчас этот способ уже не работает):

Автор: Sawradip. Источник.
Автор: Sawradip. Источник.

Но нужно понимать, что это июльский материал, и команда OpenAI могла обновить системные промпты.

Пример того, как системный промпт может выглядеть в официальном UI, есть в открытом доступе у Anthropic (модели Claude). То есть, например, Claude действует по принципу: чего не писано — того не ведаю, коль пусто в промпте — значит выдумаю.

*С Claude просто хороший пример для восприятия разницы API и оф. UI, больше мы к нему обращаться не будем

Актуальные данные

Начнем с данных. Обучающая выборка 4о модели — до октября 2023 года, а 3.5 до сентября 2021 года.

Наш промт будет таким:

что произошло 6 февраля 2023 года

ChatGPT-4o (BotHub):

ChatGPT-4o (OpenAI):

ChatGPT-3.5:

Итак, перед нашими глазами абсолютно разные ответы, наглядная демонстрация разницы в предоставлении актуальной информации (в условиях выборки, конечно). Чтобы убедиться, что перед вами ChatGPT 4o - просто задайте вопрос по той информации, которая появилась на простора�� интернета уже после сентября 2021 года, но до октября 2023 года (это без функции поиска). ChatGPT 3.5 не сможет ответить на такой вопрос, либо ответит неверно, поскольку будет ограничена в своих возможностях.

Логика

Знаем, что версия 4o гораздо лучше 3.5 в логике, предлагаю это проверить на конкретном примере.

Наш промт будет следующим:

Две лодки плывут по реке параллельно друг другу. Каждая движется со скоростью 30 км/ч. С какой скоростью относительно берега движется их общий центр?

ChatGPT-4o:

ChatGPT-4o (OpenAI):

ChatGPT-3.5:

В задаче на логику, сравнивая модели, вы заметите, что ChatGPT 3.5 будет демонстрировать недостаточное понимание условия задачи, что приведет к неправильному выводу, в то время как ChatGPT 4o будет более точен в логических рассуждениях и физических задачах. ChatGPT 3.5, в силу того, что не понимает задачу, будет вдаваться (либо наоборот избегать, об этом далее) в подробности там, где того не требуется и только запутает вас, в то время как версия 4o сможет сразу установить, какие элементы важны для решения и применит правильный подход в решении.

Математика

И давайте, например, возьмем задачу по математике, простую, но которая требует внимательности. 

Наш промт:

Кирпич весит 1 кг и полкирпича. Сколько весит кирпич?

ChatGPT-4o (BotHub):

ChatGPT-4o (OpenAI):

ChatGPT-3.5:

Итак, как я указала ранее, ChatGPT 3.5 может наоборот избегать подробностей, как она пришла к такому выводу, и ответ,полученный сейчас — яркая демонстрация этого явления. Вы не увидите логики и рассуждений, а только неправильное интерпретирование задачи, что, как и в предыдущей задаче, только создаст путаницу. Также, и ответ вы получите неверный, поскольку у версии 3.5 большие пробелы в математике в сравн��нии с версией 4o. 


Таким образом, прогоняя модели через простые для человека, но порой непонятные для машины задачи, можно легко вычислить, где модель, за которой вы пришли, а где спрятался жулик. GPT 3.5 справляется исключительно с базовыми запросами, если пытаться копать дальше и давать ему задачки, связанные с рассуждениями, логикой и сложными (в сравнении с базовым уровнем) вычислениями — он посыпется и вы сможете понять, что перед вами ChatGPT 3.5. Но в то же время, нужно понимать, что и GPT 4/4o не так хороша, как могло показаться в ходе прочтения этой небольшой статьи. Статья предоставляет примеры задач, как понять, что перед вами ChatGPT 3.5, но не возносит GPT 4/4o к небесам: в нашем блоге есть много сравнений моделей (например, последний релиз API Grok 2), поиска галлюцинаций и когнитивных искажений, которые демонстрируют изъяны моделей, в том числе GPT-4o.

Всем спасибо за внимание! И не верьте моделям, когда они говорят свою версию или размер контекста (: