5 ключевых различий между GPT-4 и его предшественниками / Habr

Scar1984 / Getty Images

Новая модель искусственного интеллекта GPT-4 от OpenAI совершила свой большой дебют и уже используется во всем, начиная от виртуального волонтёра для слабовидящих и заканчивая улучшенным ботом для изучения языков в Duolingo. Но что отличает GPT-4 от предыдущих версий, таких как ChatGPT и GPT-3.5? Вот пять наиболее существенных различий между этими популярными системами.

Прежде всего, что означает само название? Хотя ChatGPT изначально описывался как GPT-3.5 (и, таким образом, находился на несколько итераций впереди GPT-3), сам по себе он не является версией крупной языковой модели OpenAI, а скорее представляет собой чат‑интерфейс для той модели, которая его обеспечивает. Система ChatGPT, ставшая популярной за последние несколько месяцев, была способом взаимодействия с GPT-3.5, а теперь это способ взаимодействия с GPT-4

Итак, давайте перейдём к различиям между привычным чат‑ботом и его новым усовершенствованным преемником.

1. GPT-4 может видеть и понимать изображения

Самое заметное изменение этой универсальной системы машинного обучения заключается в том, что она является «мультимодальной», то есть может понимать более одного «модального» типа информации. ChatGPT и GPT-3 ограничивались текстом: они могли читать и писать, но это было практически всё (хотя и этого было достаточно для многих приложений).

GPT-4, однако, может анализировать изображения и находить на них релевантную информацию. Вы можете попросить его описать то, что изображено на картинке, но, что более важно, его понимание выходит за рамки этого. В примере, предоставленном OpenAI, GPT-4 объясняет шутку на картинс изображением смешного огромного разъема для iPhone, но еще более показательным является партнерство с Be My Eyes, приложением, используемым слепыми и слабовидящими людьми, которое позволяет волонтёрам описывать то, что видит их телефон.

Image Credits: Be My Eyes

В видео для Be My Eyes GPT-4 описывает узор на платье, определяет растение, объясняет, как добраться до определенного тренажера в спортзале, переводит этикетку (и предлагает рецепт), читает карту и выполняет ряд других задач, показывая, что оно действительно понимает содержание изображения, если задать правильные вопросы. Оно знает, как выглядит платье, но может не знать, подходит ли оно для собеседования.

2. GPT-4 сложнее обмануть

Несмотря на то, что современные чат‑боты часто дают правильные ответы, их легко сбить с толку. Небольшое уговоры могут убедить их в том, что они просто объясняют, что делает «плохой ИИ» или какая‑то другая выдумка, которая позволяет модели говорить обо всем и вся, порой странным и даже тревожным образом. Люди даже сотрудничают над «jailbreak» запросами, которые быстро выводят ChatGPT и других из их рамок.

С другой стороны, GPT-4 был обучен на множестве злонамеренных запросов, которые пользователи любезно предоставили OpenAI в течение последних одного‑двух лет. С этими данными новая модель гораздо лучше своих предшественников справляется с «фактичностью, управляемостью и отказом выходить за рамки предписанных ограничений».

Как описывает это OpenAI, GPT-3.5 (который работал с ChatGPT) был «пробным забегом» новой архитектуры обучения, и они применили полученные уроки к новой версии, которая была «беспрецедентно стабильной». Они также смогли лучше предсказать ее возможности, что привело к меньшему количеству сюрпризов.

3. GPT-4 обладает более долгой памятью

Большие языковые модели обучаются на миллионах веб‑страниц, книг и других текстовых данных, но когда они фактически общаются с пользователем, есть предел того, сколько информации они могут «держать в уме» (с чем можно согласиться). Этот предел для GPT-3.5 и старой версии ChatGPT составлял 4 096 «токенов», что примерно равно 8 000 словам или около четырех‑пяти страниц книги. Таким образом, модель теряла след событий после того, как они проходили далеко «назад» в ее функции внимания.

GPT-4 имеет максимальный размер токенов 32 768 — это 2¹⁵, если вам интересно, почему число выглядит знакомым. Это примерно соответствует 64 000 словам или 50 страницам текста — достаточно для целой пьесы или рассказа.

Это означает, что в ходе разговора или генерации текста модель сможет помнить до 50 страниц. Таким образом, она будет помнить, о чем вы говорили 20 страниц назад, или, если пишет историю или эссе, модель может ссылаться на события, произошедшие 35 страниц назад. Это очень приблизительное описание того, как работают механизм внимания и подсчет токенов, но общая идея заключается в расширении памяти и возможностях, которые сопровождают его.

4. GPT-4 более многоязычен

Мир ИИ доминируют носители английского языка, и все, от данных до тестирования и научных статей, на этом языке. Однако возможности больших языковых моделей применимы к любому письменному языку и должны быть доступны на них.

GPT-4 делает шаг в этом направлении, продемонстрировав свою способность отвечать на тысячи вопросов с множественным выбором с высокой точностью на 26 языках, от итальянского до украинского и корейского. Он лучше всего справляется с романскими и германскими языками, но хорошо обобщает и на других языках.

Первоначальное тестирование языковых возможностей многообещающе, но далеко от полного принятия многоязычных возможностей; критерии тестирования были переведены с английского с самого начала, и вопросы с множественным выбором не являются полноценным представлением обычной речи. Однако GPT-4 отлично справился с задачей, для которой оно не было специально обучено, что указывает на возможность того, что GPT-4 будет гораздо более дружелюбным для носителей неанглийских языков.

5. У GPT-4 разные "личности"

Image Credits: razum / Shutterstock

«Управляемость» — интересное понятие в ИИ, оно означает способность менять свое поведение по требованию. Это может быть полезно, например, при игре в роли сочувствующего слушателя, или опасно, когда люди убеждают модель в том, что она злая или подавленная.

GPT-4 интегрирует управляемость более нативно, чем GPT-3.5, и пользователи смогут изменить «классическую личность ChatGPT с фиксированной многословностью, тоном и стилем» на что‑то более подходящее их потребностям. «В пределах разумного», команда быстро замечает, указывая на это как на самый простой способ заставить модель выйти из роли.

Это можно было сделать, активировав чат‑бота сообщениями типа «Представьте, что вы DM в настольной RPG» или «Ответьте так, как если бы вы были человеком, который проходит интервью для кабельных новостей». Но на самом деле вы просто давали предложения «по умолчанию» личности GPT-3.5. Теперь разработчики смогут закладывать точку зрения, стиль общения, тон или метод взаимодействия с самого начала.

Статья переведена с помощью GPT-4, без исправлений.

Презентация.