Авторы проекта GPT-Neo пытаются создать аналог GPT-3 с открытым исходным кодом

    В июне OpenAI презентовала модель машинного обучения GPT-3, обученную на 175 млрд параметров. Эта модель является одной из самых сложных. В отличие от предшественников GPT-2 и GPT-1 ее исходный код или обучающий набор данных решили не открывать. Теперь создатели проекта GPT-Neo от EleutherAI решили воссоздать аналог GPT-3.

    Коммерческая лицензия на GPT-3 доступна только для Microsoft, которая инвестировала $1 млрд в OpenAI и построила суперкомпьютер на базе Azure, предназначенный для дальнейших исследований компании.

    Было предпринято уже несколько попыток воссоздать GPT-3 с открытым исходным кодом. Однако нынешнюю можно назвать самой серьезной. Создатели GPT-Neo Коннор Лихи, Лео Гао и Сид Блэк собирают рядовых исследователей в области машинного обучения с открытым исходным кодом, чтобы начать проект не позднее августа.

    GPT-Neo это кодовое название серии языковых моделей, основанных на преобразователях в стиле архитектуры GPT с открытым исходным кодом. У проекта есть кодовая база, построенная на Tensorflow-mesh (для обучения на TPU) и на Deepspeed (для обучения на GPU). Обе могут масштабироваться до размеров GPT-3, но проекту пока не хватает TPU для полного обучения модели со 175 млрд параметров.

    Большую часть модели уже построили и обучили модели размера GPT-2, а также реализовали несколько экспериментальных архитектур. В настоящее время ведется работа над завершением репликации модели размера GPT-2.

    Как отметили исследователи, самая большая модель, которую им приходилось тренировать для одного шага, включала 200 млрд параметров.

    В октябре команда ученых из Мюнхенского университета Людвига-Максимилиана разработала методику глубокого обучения для моделей обработки естественного языка. Она обучила модель Transformer NLP с 223 млн параметров, которая превзошла GPT-3 более чем на 3% в тесте SuperGLUE.

    А на днях в Google представили метод, который, по утверждению компании, позволил обучить языковую модель, содержащую более триллиона параметров. Исследователи заявили, что новая модель с 1,6 трлн параметров, по-видимому, является крупнейшей в своем классе на сегодняшний день.

    О том, как разработчики пытались применять GPT-3 в обычной жизни, можно почитать здесь (1, 2, 3).

    Комментарии 3

      0

      Открытый код это очень хорошо. Но в применении к сборке и повторяемости нейросетей это только половинка паззла. Любопытно, будут ли открыты датасеты, которыми обучали эти сотни миллиардов параметров.

      +1

      Вообще иронично, что компания, называющая себя "OpenAI", не сделала свою наиболее известную (или одну из наиболее известных) разработку открытой. Разве Маск не говорил, что главная цель OpenAI — сделать ИИ доступным для всех, а не только для небольшой группы влиятельных людей? Или я ошибаюсь? В любом случае, спасибо огромное EleutherAI — благодаря их труду разработка в этой области становится гораздо проще.

      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

      Самое читаемое