ChatGPT повсюду. Но откуда он взялся? / Хабр

Комментарий переводчика.

Я AI энтузиаст, плотно занимаюсь нейросетевыми языковыми моделями с ноября 2022 года, за это время прочитал десятки публикаций об истории их создания, статья Дугласа Хевена (редактор в журнале New Scientist) лучшая из тех что я видел.

Прорывной хит OpenAI стал сенсацией в одночасье, но основан он на десятилетиях исследований

Все вокруг говорят о ChatGPT. Чат-бот, выпущенный компанией OpenAI в декабре в виде веб-приложения, практически мгновенно стал мейнстримом. По некоторым оценкам, это самый быстрорастущий интернет-сервис в истории, достигший 100 миллионов пользователей всего через два месяца после запуска. Благодаря сделке OpenAI с Microsoft стоимостью 10 миллиардов долларов, технология теперь встроена в программное обеспечение Office и поисковую систему Bing. Вдохновленный пробудившимся бывшим конкурентом в борьбе за системы поиска, Google ускоряет разработку собственного чат-бота, LaMDA. Все вокруг говорят о ChatGPT. Даже мой семейный чат в WhatsApp забит разговорами о ChatGPT.

Но успех OpenAI не появился из ниоткуда. ChatGPT - это самая совершенная на сегодняшний день итерация в ряду крупных языковых моделей, созданных много лет назад. Вот как мы к этому пришли.

1980-е - 90-е годы: Рекуррентные нейронные сети

ChatGPT - это одна из версий GPT-3, большой языковой модели, также разработанной OpenAI. Нейронные сети - это программное обеспечение, вдохновленное процессом передачи сигналов между нейронами в человеческом мозге, а языковая модель - тип нейронной сети, которая обучается на большом количестве текстов. Поскольку любой текст состоит из последовательностей букв и слов разной длины, для языковых моделей требуется тип нейронной сети, способной воспринимать такие данные. Рекуррентные нейронные сети, изобретенные в 1980-х годах, могут обрабатывать последовательности слов, но медленно обучаются и могут забывать ранее выученные слова.

В 1997 году компьютерные ученые Сепп Хохрайтер и Юрген Шмидхубер исправили это, изобретя сети LSTM (Long Short-Term Memory) - рекуррентные нейронные сети со специальными компонентами, которые позволяли дольше сохранять прошлые данные во входной последовательности. LSTM могли обрабатывать строки текста длиной в несколько сотен слов, но их языковые способности были ограничены.

2017: Трансформеры

Прорыв в создании сегодняшнего поколения больших языковых моделей произошел, когда команда исследователей Google изобрела “трансформеров” - вид нейронных сетей, которые могут отслеживать, где каждое слово или фраза появляется в определенной последовательности. Значение слов часто зависит от контекста - значения других слов, которые появляются до или после них. Отслеживая эту контекстную информацию, трансформеры могут обрабатывать длинные строки текста и более точно передавать значение слов. Например, слово "хот-дог" означает совершенно разные вещи в предложениях "Хот-догам нужно давать много воды" и "Хот-доги нужно есть с горчицей" (“Hot dogs should be given plenty of water” and “Hot dogs should be eaten with mustard.”).

2018-2019: GPT и GPT-2

Первые две большие языковые модели OpenAI появились с разницей в несколько месяцев. Компания стремится разработать многофункциональный ИИ общего назначения и считает, что большие языковые модели являются ключевым шагом на пути к этой цели. GPT (сокращение от Generative Pre-trained Transformer - генеративный предварительно обученный трансформер) установил эталон, опередив другие способы обработки естественного языка своего времени.

GPT объединил трансформеры со способом развития моделей машинного обучения на данных (на большом количестве текстов), которые не были предварительно размечены. Это позволило программному обеспечению самостоятельно выявлять закономерности в данных без необходимости объяснять, на что оно смотрит. Многие предыдущие успехи в машинном обучении основывались на контроле процесса и ручной разметке данных, но маркировка их вручную - это медленная работа, что ограничивает объем данных для обучения.

GPT-2 вызвал больший ажиотаж. OpenAI заявила, что настолько обеспокоена возможностью использования GPT-2 "для создания обманчивых, предвзятых или оскорбительных высказываний", что не собирается выпускать полную версию модели. Времена меняются.

2020: GPT-3

GPT-2 был впечатляющим, но последующая разработка OpenAI, GPT-3, просто шокировала. Его способность генерировать человекоподобный текст - огромный скачок вперед. GPT-3 может отвечать на вопросы, резюмировать документы, создавать истории в разных стилях, переводить с английского, французского, испанского и японского языков и многое другое. Мимикрия просто поразительна!

Один из самых примечательных выводов - GPT-3 достиг успехов благодаря расширению существующих методов, а не изобретению новых. GPT-3 имеет 175 миллиардов параметров (значений в сети, которые корректируются в процессе обучения), в то время как GPT-2 - 1,5 миллиарда. Он также был обучен на гораздо большем количестве данных.

Но обучение на тексте, взятом из Интернета, создает новые проблемы. GPT-3 впитал большую часть дезинформации и предрассудков, найденных им в Интернете, и воспроизводил их. Как признали в OpenAI, "обученные в Интернете модели имеют предвзятость в масштабах Интернета".

Декабрь 2020 года: Токсичный текст и другие проблемы

Пока OpenAI боролся с предвзятостью GPT-3, остальной технологический мир столкнулся с громким осуждением неспособности разработчиков обуздать токсичные тенденции ИИ. Не секрет, что большие языковые модели могут создавать тексты с содержанием лжи или ненависти. Журналисты обнаружили, что решение этой проблемы, по всей видимости, не входит в список первоочередных дел большинства технологических корпораций. Когда Тимнит Гебру, содиректор группы по этике ИИ в Google, поучаствовала в написании статьи, где говорилось о потенциальном ущербе от больших языковых моделей (включая высокие вычислительные затраты), это не встретило одобрения со стороны высшего руководства компании. В декабре 2020 года Гебру была уволена со своей должности.

Январь 2022 года: InstructGPT

OpenAI попыталась уменьшить количество дезинформации и оскорбительных текстов, которые выдавал GPT-3, используя обучение с подкреплением предпочтениями людей-тестеров. Результат, InstructGPT, лучше следовал инструкциям людей, которые его использовали (на жаргоне ИИ это называется "выравниванием") и выдавал меньше оскорбительных высказываний, меньше дезинформации и меньше ошибок в целом. Короче, InstructGPT - не засранец (или засранец в меньшей степени), если его не просят им быть.

Май-июль 2022 года: OPT, BLOOM

Распространенная критика больших языковых моделей заключается в том, что стоимость их обучения позволяет создать подобную только самым богатым лабораторий. Мощнейший ИИ создается небольшими корпоративными командами, за закрытыми дверями, без надлежащего контроля и без участия широкого исследовательского сообщества - это не может не вызывать опасений. Поэтому несколько организаций в ответ совместно разработали свои большие языковые модели и предоставили их бесплатно любому исследователю, желающему изучить и улучшить технологию. Meta, например, создала и выпустила OPT, реконструкцию GPT-3. А Hugging Face возглавил консорциум из примерно 1 000 исследователей-добровольцев для создания и выпуска BLOOM.

Декабрь 2022 года: ChatGPT

Даже OpenAI потрясен тем, как был принят ChatGPT. В первой демонстрации, которую компания предоставила журналистам за день до запуска ChatGPT в сети, ChatGPT был представлен как постепенное обновление InstructGPT. Как и та модель, ChatGPT был обучен технологией с подкреплением на обратной связи от людей-тестеров, которые оценили его как естественного, честного и вежливого собеседника. По сути, OpenAI обучил GPT-3 мастерству ведения беседы и пригласил всех желающих принять участие в игре. С тех пор миллионы из нас уже играют.