GPT-4o: больше мощи, но меньше цены. Почему так и что на самом деле умеет модель? / Хабр

Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает тон голоса, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.

При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все‑все самые интересные пасхалки Альтмана...

Что умеет GPT-4o?

Перед презентацией CEO OpenAI Сэм Альтман и некоторые из его инженеров активно разжигали интерес аудитории и оставляли в соц.сетях пасхалки на предстоящий релиз. В основном это были всяческие намеки на фильм «Она», в котором главный герой влюблен в ИИ‑систему. И действительно, GPT-4o очень похожа на ту самую Саманту из фильма, которая умела разговаривать с «живыми» интонациями, имела чувство юмора и отвечала со скоростью человека. С GPT-4o действительно можно поверить, что разговариваешь с живым собеседником.

Жутковато? Да, немного.

При этом GPT-4o может выступать не только собеседником, но и переводчиком. Разработчики значительно улучшили способности модели в диалогах на отличных от английского языках, теперь она поддерживает более 50 языков. К тому же, была улучшена память модели: теперь она будет запоминать все беседы с пользователем и знать о вас больше. Опять жутко, да?

Что касается английского языка и кода, в релизном блог‑посте написано, что GPT-4o соответствует производительности GPT-4 Turbo. Но тут они определенно поскромничали. То, что модель будет зверем в программировании, было ясно еще неделю назад. Но не будем забегать вперед. Для начала небольшая историческая справка.

В течение нескольких предыдущих недель на главном LLM‑лидерборде LMSYS одна за одной появлялись загадочные модели «gpt2», «im‑a-good‑gpt2-chatbot» и «im‑also‑a-good‑gpt2-chatbot». Компания‑производитель не была указана, но по отсылкам в Твиттере Сэма Альтмана все было ясно.

Пользователи были шокированы качеством ответов таинственных моделей. Последняя могла без проблем создать полноценную игру: у юзеров получилось за считанные минуты создать полный клон Flappy Birds, 3D-шутер и аркаду.

Конечно, теперь мы понимаем, что все это была замаскированная GPT-4o. Сейчас на Chatbot Arena по сравнению с конкурентами она показывает отрыв в 57 ELO на общих языковых задачах и в 100 ELO на коде. Это поразительный результат. Кроме этого, модель использует для ответов не только свои знания, но и информацию из Интернета.

И, кстати, теперь еще у модели еще будет режим стриминга для MacOS. Подключаете приложение, выделяете прямо на экране код, модель его обрабатывает на месте.

Но и это еще не все! С картинками и видео модель теперь тоже работает намного лучше:

Синтез объектов в 3D
Продвинутый анализ графиков, диаграмм, таблиц и рукописного текста.
Умеет не просто генерировать картинки, а запоминать внешность персонажей. За счет этого можно сгенерировать полноценный комикс!

Получается, у нас в руках новая супер‑мощная GPT-4o, умеющая работать с текстом, голосом, картинками и видео. Но ведь это не первая мультимодальная модель компании? GPT-4 Turbo тоже умел анализировать и генерировать картинки и слушать голос. И все‑таки оказывается, что это совсем «разные» мультимодальности. Давайте разберемся.

Почему GPT-4o - первая настоящая мультимодальная модель?

Буква 'o' в названии GPT-4o означает «omni», то есть «универсальная». До ее появления тоже можно было отсылать боту картинки и использовать голосовой режим. Однако задержка ответа была в районе 3 секунд. Теперь модель отвечает со скоростью человека.

Дело в том, что до этого «мультимодальность» находилась не внутри одной модели, а была рассеяна на три отдельных:

Speech‑to‑Text модель переводила аудио в текст;
Затем GPT-3.5 или GPT-4 обрабатывала уже транскрибированный текст, как если бы вы его напечатали, и генерировала ответ;
Последняя модель переводила текст обратно в аудио.

Таким образом, модель не умела понимать настроение и тон людей, не могла имитировать интонации или другие звуки.

Теперь все изменилось. GPT-4o обучена сразу на трех модальностях одновременно — текст, аудио, изображения. Теперь они все «живут» и работают вместе. Поэтому GPT-4o можно называть первой настоящей мультимодальной моделью компании.

Если она так хороша, почему она такая дешевая?

Для бесплатных юзеров бота модель будет не просто дешевой, а бесплатной. По API обработка токена станет в 2 раза дешевле, чем в GPT-4 Turbo. Получается, новая модель и умнее, и быстрее, и дешевле. Разве так бывает?

Да, бывает. Вообще-то цена и раньше снижалась, это можно увидеть на графике:

В этот раз косты удалось снизить в основном за счет нового мультиязычного токенизатора, который лучше «сжимает» вход. Для некоторых языков теперь требуется в 3–4 раза меньше токенов, соответственно и стоит обработка промпта теперь меньше. Например, для русского языка она будет обходится в среднем в 3.5 раза дешевле.

И все это уже можно попробовать?

Ну, не совсем. OpenAI, как всегда, выкатывают анонсированные обновления постепенно. Модель уже доступна разработчикам по API, доступы для генерации текста с GPT-4o для обычных пользователей тоже начали понемногу выдавать.

В остальном, в боте пока сохраняется подход с тремя разными моделями. Показанный на презентации голосовой режим из фильма «Her» пока не включили. Он будет доступен для подписчиков Plus и раскатится в ближайшие недели. Видео‑возможности пока что вообще дают только ограниченным группам пользователей.

Также OpenAI пообещала выпустить приложение для ПК.

Больше новостей, мемов и пасхалок из мира ML в нашем тг‑канале. Подпишитесь, чтобы ничего не пропустить.