Как стать автором
Обновить

Комментарии 32

Ну всё, гонка на маркетинговые называния объявляются открытой! Сегодня GPT-4, завтра gpt-4G, gpt-4G+ , через год Apple выпустит новую сири GPT-5G , а Samsung решить скипнуть все эти циферки и сразу перейти к двузначным: GPT-10...

И конечно-же никакой конкретики, какая была база, сколько ресурсов и времени ушло на обучение сети, насколько в ней больше входных параметров, итд.

Очевидно побольше GPT-3, учитывая мультимодальность. Это как к мозгу с одним каналом связи с внешним миром - текстовым, приделали ещё глаза чтобы видеть, уши чтобы слышать, и рот чтобы говорить. Тут имеет смысл говорить о целом наборе нейросетей, объединённых под общим названием GPT-4.

Очевидно побольше GPT-3

С каждым новым поколением GPT увеличивалось количество входящих параметров. Порою в сотни раз. Каждое следующее увеличение такой базы занимает не просто на 10% больше ресурсов, а раз в 10 больше ресурсов. Как Microsoft сделала это так быстро , учитывая, что ажиотаж chatgpt3 начался всего 3 месяца назад, а даже GPT3 обучали полгода? Вывод #1: под капотом там всё тот же же gpt3.

учитывая мультимодальность

Но постойте. Chatgpt3 прикрутили к обычному gpt3 текстовый интерфейс (заменили api на окно чата). Плюс немного дообучили базу Они же не стали себя называть gpt4?

Тут имеет смысл говорить о целом наборе нейросетей, объединённых под общим названием GPT-4

Значит ничего общего с тем, что раньше для того, чтобы назвать себя gpt2 или gpt3 тебе нужно было вкинуть кучу ресурсов в обучение и железо, и увеличить количество входных параметров до 175 миллиардов. Ведь под капотом gpt4 все тот же gpt3, но добавили новые интерфейсы. Могли бы скромно назваться Microsoft GPT3

Это как к мозгу с одним каналом связи с внешним миром - текстовым, приделали ещё глаза чтобы видеть, уши чтобы слышать

А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ? То есть gpt это умел и раньше, удобного интерфейса просто не было.

Итог - реально качественного скачка в количестве выходных параметров не произошло (по крайней мере в анонсе про это ни слова, и слабо верится в такой объем работы за такой короткий срок). А напомню, в gpt2 было 1.5 миллиарда выходных параметров, а в gpt3 их стало уже 175 миллиардов. Следующий gpt4 должен быть не менее 1 трлн. То, что сейчас Microsoft назвали gpt4 похоже не имеет ничего общего к этому, а просто маркетинговая стратегия "быть лучше , у всех gpt3 а у нас уже gpt4!".

GPT-4 Опен АИ разрабатывали уже давно.
Ну, а ресурсов у Микрософт просто море.

GPT 4 – 170 триллионов параметров против 175 миллиардов. GPT 3 вышла в 2020 году (то, что ажиотаж вокруг ChatGPT стоит последние 3 месяца – не релевантно). Про работы над GPT 4 и о некоторых её характеристиках известно уже давно.

Автор статьи, конечно, зря не включил эту информацию, но вы-то на основе чего сделали кучу выводов? Я на сбор этой информации потратил 15 секунд в Гугле с телефона.

Лучше дождёмся выхода. А то на разных сайтах по разному пишут.

OpenAI CEO says the rumor that GPT-4 has 100 Trillion parameters is false.

А потом будет как Киберпанк - до релиза много шума а релиз провал

Боюсь что надеяться на такое даже не стоит.

Я на сбор этой информации потратил 15 секунд в Гугле с телефона.

А где вы ее нашли? точнее, по каким запросам? я вот даже не знаю какие запросы в гугл вводить на такое...

Я находил по запросу "GPT4"

Там были рассуждения про то, что модели с роутингом (кажется switch transformer, но не помню) дают хороший результат, а значит можно достигать тех же результатов с меньшис числом параметров

Ну и так же писали, что увлечение числа параметров не даёт значительного превосходства

Сейчас возможно оно перестанет гуглиться из-за релиза, но общие тезисы тупике, что пытаются архитектуру поменять в первую очередь

GPT-4, предположительно.

А)) ну я имел в виду, если ты даже не знаешь о существовании GPT-4 - может не так сформулировал. Так-то да.

Следующая версия GPT определенно не будет иметь 170 триллионов параметров. Она будет немного больше, чем GPT-3, но меньше, чем PaLM, поскольку нет смысла делать такие огромные параметры.

под капотом там всё тот же же gpt3.

Вполне возможно сеть из серии GPT-3, дообученная за последние месяцы, является ядром в GPT-4. Подождём выхода и подробностей.

Они же не стали себя называть gpt4?

ChatGPT is fine-tuned from a model in the GPT-3.5 series. Не 4, но и не 3.

увеличить количество входных параметров до 175 миллиардов.

Рост может быть не только экстенсивным, но и интенсивным, за счёт совершенствования топологии сети и дообучения - обратной связи от пользователей. К примеру пишут, что вторая по размеру версия модели LLaMA, LLaMA-13B, «в большинстве тестов» работает лучше популярной модели OpenAI GPT-3, в то время как самая большая модель LLaMA-65B, «конкурирует с лучшими моделями», такими как Chinchilla70B от DeepMind и PaLM 540B от Google.

А Сбер на днях анонсировал выход FRED-T5 - "лучшей в мире по пониманию текста на русском языке". И в ней всего 1.7 млрд параметров и 24 слоя!

устройство трансформера описываете, который положил дорогу всему gpt ?

Как бы все вышеописанные сети - это трансформеры.

Следующий gpt4 должен быть не менее 1 трлн.

Отнюдь не факт. Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.

Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.

В случае GPT фишка именно в переходе количества в качество. Простое увеличение модели в 10 раз даёт фантастические результаты. Ну а уже потом можно и подтюнить.

НЛО прилетело и опубликовало эту надпись здесь

Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.

Ну вообще те примеры скорее говорят о том, что качество можно получить не только количеством. В целом для сеток как раз количество обычно перетекает в качество при правильном обучении.

А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ?

Как-бы GPT расшифровывается как Generative Pretrained Transformers. И обычный трансформер это символьная модель у которой нету "разных каналов и модальностей данных". Есть довольно хитрые хаки как заставить трансформер работать с картинками (VisTransformer) но там надо хитро энкодить позицию в картинке (вы-же в курсе что трансформер не обращает внимания на место токена в потоке токенов) который не очень сочитается с энкодингом позиции токена в тексте.

Так что , считаю что если в чисто символьную модель GPT3 получилось добавить работу с картинками и видео это реально можно назвать GPT4. Да и вопрос вообще вот не в колличестве параметров сети.

Как Microsoft сделала это так быстро , учитывая, что ажиотаж chatgpt3 начался всего 3 месяца назад, а даже GPT3 обучали полгода

Хайп и реальная работа это все-таки разные вещи. Первый доступный какой-никакой общественности релиз GPT3 был еще в 20-м году. В 21-м OpenAI уже вовсю продавали доступ к API с энтерпрайзными контрактами и кучей плюшек, продолжая постоянно улучшать сервис, представляя новые модели и т.д.

Вполне вероятно работа над условной GPT4 началась уже тогда.

А напомню, в gpt2 было 1.5 миллиарда выходных параметров, а в gpt3 их стало уже 175 миллиардов. Следующий gpt4 должен быть не менее 1 трлн.

Уже есть Wudao с 1.75 трлн параметров, так что одним количеством параметров уже не вывезешь, если только там скачок не до 100+ триллионов как в слухах, конечно.

А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ?

То что он описывает это мультимодальные сетки, а не трансформер, ванилла трансформер только с текстом и другими sequential данными умеет работать. Сам GPT-3 это эволюция трансформера, да.

Тут имеет смысл говорить о целом наборе нейросетей

Разные отделы биологического мозга тоже как будто являются отдельными нейросетями - мозжечок - координация. Зрительная кора - обработка изображений, что-то вроде DALL-E. Неокортекс - GPT-4 - логика и мышление и т.д. Теперь всё это нужно объединить в одну систему и настоящий разум наконец-то проснется.

Мне тоже кажется, что товарищи идут верным путём. Надо ещё научиться регулярно и быстро дообучать сеть на полученном опыте коммуникации с пользователями. В идеале раз в день, также как мозг человека во время сна "пережёвывает" полученную в течение дня информацию.

На основе коммуникации с пользователями лучше не стоит, Microsoft на этом уже обжигалась :)

У меня chatGPT в лабиринте повис:

"Starting from the S, follow the path marked with asterisks (*) until you reach the end point marked with E. The path goes as follows:

1 Move right

2 Move down

3 Move right

4 Move down

5 Move left

6 Move down
..
79. Move"

Когда ответ слишком большой и ChatGPT "виснет" на середине ответа, и если это не проблема сети, то просто отвечаешь ему "продолжай" и он продолжает ответ. Правда, если оборвался на выводе кода, то потом форматирование может испортиться, но это мелочи.

Hidden text

Теперь всё это нужно объединить в одну систему и настоящий разум наконец-то проснется.

Уже объединяли KOSMOS-1, Gato . Разум… пока не проснулся. Может шамана позвать нужно)

сразу перейти к двузначным: GPT-10...

GPTX же...

и конечно же - GPTXXX !

Ну тогда и LGPT…

И тариф попроще GPT SE…

Похоже для постройки новой версии gpt используют сам gpt, только это может объяснит такую скорость обновления

Будем ждать!

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Другие новости

Изменить настройки темы

Истории