В июне OpenAI презентовала модель машинного обучения GPT-3, обученную на 175 млрд параметров. Эта модель является одной из самых сложных. В отличие от предшественников GPT-2 и GPT-1 ее исходный код или обучающий набор данных решили не открывать. Теперь создатели проекта GPT-Neo от EleutherAI решили воссоздать аналог GPT-3.
Коммерческая лицензия на GPT-3 доступна только для Microsoft, которая инвестировала $1 млрд в OpenAI и построила суперкомпьютер на базе Azure, предназначенный для дальнейших исследований компании.
Было предпринято уже несколько попыток воссоздать GPT-3 с открытым исходным кодом. Однако нынешнюю можно назвать самой серьезной. Создатели GPT-Neo Коннор Лихи, Лео Гао и Сид Блэк собирают рядовых исследователей в области машинного обучения с открытым исходным кодом, чтобы начать проект не позднее августа.
GPT-Neo — это кодовое название серии языковых моделей, основанных на преобразователях в стиле архитектуры GPT с открытым исходным кодом. У проекта есть кодовая база, построенная на Tensorflow-mesh (для обучения на TPU) и на Deepspeed (для обучения на GPU). Обе могут масштабироваться до размеров GPT-3, но проекту пока не хватает TPU для полного обучения модели со 175 млрд параметров.
Большую часть модели уже построили и обучили модели размера GPT-2, а также реализовали несколько экспериментальных архитектур. В настоящее время ведется работа над завершением репликации модели размера GPT-2.
Как отметили исследователи, самая большая модель, которую им приходилось тренировать для одного шага, включала 200 млрд параметров.
В октябре команда ученых из Мюнхенского университета Людвига-Максимилиана разработала методику глубокого обучения для моделей обработки естественного языка. Она обучила модель Transformer NLP с 223 млн параметров, которая превзошла GPT-3 более чем на 3% в тесте SuperGLUE.
А на днях в Google представили метод, который, по утверждению компании, позволил обучить языковую модель, содержащую более триллиона параметров. Исследователи заявили, что новая модель с 1,6 трлн параметров, по-видимому, является крупнейшей в своем классе на сегодняшний день.
О том, как разработчики пытались применять GPT-3 в обычной жизни, можно почитать здесь (1, 2, 3).