OpenAI представила алгоритм для текстов GPT-3, который обучили на 175 млрд параметров

    image

    Исследователи из OpenAI показали алгоритм GPT-3, предназначенный для написания текстов на основе всего нескольких примеров. Его архитектура Transformer аналогична GPT-2, но модель обучали на 175 миллиардов параметров или 570 гигабайтах текста.

    Теперь GPT-3 может отвечать на вопросы по прочитанному тексту, а также писать стихи, разгадывать анаграммы и осуществлять перевод. Алгоритму достаточно от 10 до 100 примеров того, как выполнить действие.

    Основная задача, которую удалось решить авторам — сделать предобученный NLP-алгоритм универсальным. То есть, GPT-3 для каждой новой задачи требуется минимум обучающих данных. Предшествующий алгоритм GPT-2 обучали на 40 гигабайтах текста.

    В новый датасет для обучения GPT-3 вошли данные проекта Common Crawl, а также Википедия, два датасета с книгами и вторая версия датасета WebText, с текстами веб-страниц. Первый WebText использовали для обучения GPT-2.

    Всего было обучено восемь разных моделей GPT-3. Все они отличались количеством параметров для обучения. Самую простую модель обучали на 125 миллионах параметров.

    GPT-3 нужно было выполнять 42 разных задания. Это мог быть и простой ответ на вопрос, и написание стихотворения, и разбор анаграммы. Помимо самого задания, алгоритм получал один или несколько примеров его выполнения. В итоге средняя точность самой продвинутой модели, которую обучали на 175 млрд параметров, составила по всем заданиям 60%.

    К примеру, при обучении на 64 примерах из датасета TriviaQA (учит понимать текст и отвечать на вопросы по прочитанному), GPT-3 продемонстрировала точность в 71,2% случаев. Этот результат лучше, чем у модели SOTA, которую учили отвечать только на вопросы по TriviaQA.

    Поскольку около 7% всего датасета представлено на иностранных языках, GPT-3 может переводить на несколько языков.

    Авторы разработки провели эксперимент с людьми, которым предложили определить, были тексты и заголовки сгенерированы системой или написаны человеком. Выяснилось, что уровень доверия к текстам GPT-3 выше, чем к продукту предыдущих моделей. То есть, пользователям становится все сложнее отличать такие тексты.

    image

    Исследователи пока не представили саму модель, так как опасаются, что ее навыки могут быть использованы во вред. На GitHub есть пока только часть датасета и примеры использованных заданий.

    image

    На Reddit подсчитали, что для обучения модели могла потребоваться работа 1536 GPU в течение 60 дней.

    В ноябре OpenAI показала GPT-2. Модель выпускали также частями. Самую продвинутую обучали на 1,5 млрд параметров. По результатам опроса сотрудников Корнеллского университета генератору дали «оценку достоверности 6,91 из 10».

    В феврале OpenAI объявила, что при реализации будущих проектов перейдет на платформу машинного обучения PyTorch от Facebook и откажется от гугловской TensorFlow. В качестве причины компания сослалась на эффективность, масштабы и адаптивность PyTorch.
    См. также:

    Реклама
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее

    Комментарии 19

      +2
      PyTorch всех победил
        +2

        Ждём триллион параметров в 2021, а выкладывать не хотят опять ради хайпа

          +4
          Что за название статьи? Почему оно не отражает суть совершенно? Ведь в оригинальной публикации сразу в названии отражена суть достижения «Language Models are Few-Shot Learners». То что там сколько то параметров итп — вторично. Если бы параметров было бы в 10 раз больше, это было бы более впечатляющее достижение? А если бы такой результат был бы получен для модели в которой 100 раз меньше параметров, то наверное он не стоил бы публикации?
            +2

            Для вас вторично, может потому, что вам тема не особо интересна?


            Количество параметров косвенно показывает перспективы. Если бы было в сто раз меньше параметров, это было бы огромное достижение. Сейчас люди склоняются к тому, что это нереально (как минимум с имеющимися проходами).


            А если бы параметров было бы в 10 раз больше, то это было бы важное достижение в деле обучения таких огромных моделей (это сложнее, чем маленькие), но именно результат обучения в этом случае выглядел бы совсем грустно.

              +1
              Тема мне интересна, и препринт я видел раньше чем эту заметку, но мне не понравилось что название этой заметки, мягко говоря, искажает суть главного достижения. Я не утверждаю что трейн настолько больших моделей сам по себе не является значимым достижением. Но куда более важным является что с ростом числа параметров произошли качественные улучшения. Но названия заметки склоняет к мысли что достижения именно в числе параметров «OpenAI представила алгоритм для текстов GPT-3, который обучили на 175 млрд параметров». Т.е. в духе — «советские роботы — самые большие роботы в мире».
              С таким же успехом можно было бы вынести в название размер батча, количество видеокарт/TPU задействованных в трейне или потраченного электричества:
              «OpenAI представила алгоритм для текстов GPT-3, который обучили на 1536 GPU»
              И представьте ситуацию, что эти исследователи натрейнили настолько большую модель, но она мало чем бы отличалась от предыдущих, давала прирост доли процентов в бенчмарках и все. Судя по всему, названия заметки относится скорее к такой ситуации.
              Вот например неплохое видео с разбором этой статьи. Там автор тоже отмечает масштаб модели, но намного больше акцентирует внимание на качественных отличиях
                0

                Имхо, в качестве новости все достаточно хорошо описано. Число параметров о многом говорит для тех, кто следит за этой эпопеей. Ваше замечание тоже справедливо, например о попытках обучения моделей с миллиардом параметров на китайских мощностях заявлялось еще несколько лет назад (но без продолжения, видимо ничего толком не вышло).


                Работа с few-shot это не основное достижение GPT-3. Это скорее предмет обсуждения, что-то неожиданное, что появилось в этой большой модели. Не факт, что со временем значение этого достижения не будет пересмотрено в меньшую сторону. Это как с GPT/GPT-2 — на момент появления казалось большим прорывом, но сейчас качество генерации ими текста уже не воспринимается таким уж "интеллектуальным".


                Но сам по себе качественный рост у 175 B модели при работе с Few-Shot примерами очень любопытен. Я еще на первых GPT заметил, что они иногда выдавали редко используемые факты. Какие-то имена, события, редко используемые словесные обороты. Как будто модель запомнила их, что для нейросетей, в общем-то нехарактерно. Маленькие сети работают скорее как статистические модели, лишь изредка проявляя что-то большее.


                Это как если бы вы запомнили что-то из прочитанной книги, а потом применили это полученное знание в разговоре к месту. Тут ключевой момент, что это единичный выделенный факт/знание, и что он применен к месту. Признак сильного интеллекта.


                GPT-3 развила эту способность. И теперь способна выделяет эти факты из нескольких показанных ей примеров. Это очень воодушевляет. Судя по всему, эта нейросетевая архитектура постепенно движется в сторону сильного интеллекта. Но, повторюсь, это лишь предмет обсуждения, догадки, надежды. Главное достижение GPT-3 все же обучение (качественное) 175 млрд модели. У которой именно благодаря размеру, что доказывается графиками в статье, проявились новые любопытные свойства.


                Так что с заголовком новости все ок, не придирайтесь )

            +2
            Исследователи пока не представили саму модель, так как опасаются, что ее навыки могут быть использованы во вред.


            Второй раз один и тот же трюк не работает. Ждем где-нибудь через полгода полную модель.
              +1
              Дорвеи выйдут на новый уровень.
                –1
                Я всё жду когда нормальный переводчик появится, качеством получше чем гуглтранслейт, а они вместо этого спамбота делают, который окончательно замусорит интернет публикациями на страницах сайтов. Другого достойного применения подобной новинки я как то не вижу.
                  –1
                  > Я всё жду когда нормальный переводчик появится

                  www.deepl.com/translator
                    +1

                    этот тоже не так чтобы идеальный. А иногда просто шокирует :) И постоянно путает "вы" и "ты" иногда в одном предложении

                      0
                      А жалко, я бы готов был, думаю как и многие другие, даже на платную версию, чтобы нормальный текст читать или скажем автоматом получить англоязычную версию сайта без ляпов «алиэкспресса»
                    0
                    Другого достойного применения подобной новинки я как то не вижу.

                    aidungeon.io — имхо вполне годное применение.
                    И не всегда надо, чтобы было практическое, ориентированное на зашибание бабок, применение. Иногда достаточно того, что это весело или может применяться в искусстве. Те же нейро-тексты для нейро-музыки из jukebox создать.
                    +1
                    175 млрд параметров или в 2 раза больше — осмысленности тексту не прибавят.
                    … пользователям становится все сложнее отличать такие тексты.
                    Текст может быть со статистически верно расставленными словами и при этом быть бесполезным. Да и сами люди тоже иногда пишут всякий бред или «воду», но это другая проблема.
                      0

                      Кроме "сложнее отличать" улучшилась точность на задачах без примеров, с одним примером и несколькими примерами (тюнинг весов сети под задачу не использовался).


                      Без примеров: "3432+2121=". С одним примером. "2+2=4 9837+2340=" и так далее

                      +2

                      Такс, он сможет дать краткое описание всех художественных книг? Когда-то мечтал такое сам написать

                        +1
                        Ага :). Часто с этим не справляются даже авторы попурри-книг.
                          0
                          Скорее краткий пересказ со спойлерами.
                          0
                          Я как читаю статьи про достижения OpenAI и стоимости обучения их моделей, у меня всегда возникает один и тот же вопрос. А кто их финансирует? Может кто подскажет, как эти разработки окупаются?

                          Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                          Самое читаемое