Вчера в 20:00 по московскому времени OpenAI в прямом эфире показали свою революционную модель GPT-4o. Общаться с ней можно голосом и даже по видео, при этом вообще без задержек. А еще GPT-4o понимает тон голоса, может шутить, отвечать с (почти) человеческой интонацией, переводить в режиме реального времени и даже петь.
При всем этом модель дешевле, чем ее предшественница, GPT-4 Turbo, во всем уступающая GPT-4o. Как такое может быть, что прямо сейчас умеет модель и почему GPT-4o на самом деле первая настоящая мультимодальная разработка OpenAI? Со всем этим разберемся в статье, а еще расскажем про все‑все самые интересные пасхалки Альтмана...

Что умеет GPT-4o?
Перед презентацией CEO OpenAI Сэм Альтман и некоторые из его инженеров активно разжигали интерес аудитории и оставляли в соц.сетях пасхалки на предстоящий релиз. В основном это были всяческие намеки на фильм «Она», в котором главный герой влюблен в ИИ‑систему. И действительно, GPT-4o очень похожа на ту самую Саманту из фильма, которая умела разговаривать с «живыми» интонациями, имела чувство юмора и отвечала со скоростью человека. С GPT-4o действительно можно поверить, что разговариваешь с живым собеседником.

Жутковато? Да, немного.
При этом GPT-4o может выступать не только собеседником, но и переводчиком. Разработчики значительно улучшили способности модели в диалогах на отличных от английского языках, теперь она поддерживает более 50 языков. К тому же, была улучшена память модели: теперь она будет запоминать все беседы с пользователем и знать о вас больше. Опять жутко, да?
Что касается английского языка и кода, в релизном блог‑посте написано, что GPT-4o соответствует производительности GPT-4 Turbo. Но тут они определенно поскромничали. То, что модель будет зверем в программировании, было ясно еще неделю назад. Но не будем забегать вперед. Для начала небольшая историческая справка.
В течение нескольких предыдущих недель на главном LLM‑лидерборде LMSYS одна за одной появлялись загадочные модели «gpt2», «im‑a-good‑gpt2-chatbot» и «im‑also‑a-good‑gpt2-chatbot». Компания‑производитель не была указана, но по отсылкам в Твиттере Сэма Альтмана все было ясно.

Пользователи были шокированы качеством ответов таинственных моделей. Последняя могла без проблем создать полноценную игру: у юзеров получилось за считанные минуты создать полный клон Flappy Birds, 3D-шутер и аркаду.
Конечно, теперь мы понимаем, что все это была замаскированная GPT-4o. Сейчас на Chatbot Arena по сравнению с конкурентами она показывает отрыв в 57 ELO на общих языковых задачах и в 100 ELO на коде. Это поразительный результат. Кроме этого, модель использует для ответов не только свои знания, но и информацию из Интернета.

И, кстати, теперь еще у модели еще будет режим стриминга для MacOS. Подключаете приложение, выделяете прямо на экране код, модель его обрабатывает на месте.

Но и это еще не все! С картинками и видео модель теперь тоже работает намного лучше:
Синтез объектов в 3D
Продвинутый анализ графиков, диаграмм, таблиц и рукописного текста.
Умеет не просто генерировать картинки, а запоминать внешность персонажей. За счет этого можно сгенерировать полноценный комикс!
Получается, у нас в руках новая супер‑мощная GPT-4o, умеющая работать с текстом, голосом, картинками и видео. Но ведь это не первая мультимодальная модель компании? GPT-4 Turbo тоже умел анализировать и генерировать картинки и слушать голос. И все‑таки оказывается, что это совсем «разные» мультимодальности. Давайте разберемся.
Почему GPT-4o - первая настоящая мультимодальная модель?
Буква 'o' в названии GPT-4o означает «omni», то есть «универсальная». До ее появления тоже можно было отсылать боту картинки и использовать голосовой режим. Однако задержка ответа была в районе 3 секунд. Теперь модель отвечает со скоростью человека.
Дело в том, что до этого «мультимодальность» находилась не внутри одной модели, а была рассеяна на три отдельных:
Speech‑to‑Text модель переводила аудио в текст;
Затем GPT-3.5 или GPT-4 обрабатывала уже транскрибированный текст, как если бы вы его напечатали, и генерировала ответ;
Последняя модель переводила текст обратно в аудио.
Таким образом, модель не умела понимать настроение и тон людей, не могла имитировать интонации или другие звуки.
Теперь все изменилось. GPT-4o обучена сразу на трех модальностях одновременно — текст, аудио, изображения. Теперь они все «живут» и работают вместе. Поэтому GPT-4o можно называть первой настоящей мультимодальной моделью компании.
Если она так хороша, почему она такая дешевая?
Для бесплатных юзеров бота модель будет не просто дешевой, а бесплатной. По API обработка токена станет в 2 раза дешевле, чем в GPT-4 Turbo. Получается, новая модель и умнее, и быстрее, и дешевле. Разве так бывает?
Да, бывает. Вообще-то цена и раньше снижалась, это можно увидеть на графике:

В этот раз косты удалось снизить в основном за счет нового мультиязычного токенизатора, который лучше «сжимает» вход. Для некоторых языков теперь требуется в 3–4 раза меньше токенов, соответственно и стоит обработка промпта теперь меньше. Например, для русского языка она будет обходится в среднем в 3.5 раза дешевле.
И все это уже можно попробовать?
Ну, не совсем. OpenAI, как всегда, выкатывают анонсированные обновления постепенно. Модель уже доступна разработчикам по API, доступы для генерации текста с GPT-4o для обычных пользователей тоже начали понемногу выдавать.
В остальном, в боте пока сохраняется подход с тремя разными моделями. Показанный на презентации голосовой режим из фильма «Her» пока не включили. Он будет доступен для подписчиков Plus и раскатится в ближайшие недели. Видео‑возможности пока что вообще дают только ограниченным группам пользователей.
Также OpenAI пообещала выпустить приложение для ПК.
Больше новостей, мемов и пасхалок из мира ML в нашем тг‑канале. Подпишитесь, чтобы ничего не пропустить.