AnnieBronson 10 мар 2023 в 19:08

Microsoft заявила, что GPT-4 выйдет на следующей неделе

2 мин

24K

Поисковые технологии*Работа с видео*Машинное обучение*Искусственный интеллект

+15

Комментарии 32

TimsTims 10 мар 2023 в 19:31

Ну всё, гонка на маркетинговые называния объявляются открытой! Сегодня GPT-4, завтра gpt-4G, gpt-4G+ , через год Apple выпустит новую сири GPT-5G , а Samsung решить скипнуть все эти циферки и сразу перейти к двузначным: GPT-10...

И конечно-же никакой конкретики, какая была база, сколько ресурсов и времени ушло на обучение сети, насколько в ней больше входных параметров, итд.

+26

kryvichh 10 мар 2023 в 19:57

Очевидно побольше GPT-3, учитывая мультимодальность. Это как к мозгу с одним каналом связи с внешним миром - текстовым, приделали ещё глаза чтобы видеть, уши чтобы слышать, и рот чтобы говорить. Тут имеет смысл говорить о целом наборе нейросетей, объединённых под общим названием GPT-4.

TimsTims 10 мар 2023 в 20:23

Очевидно побольше GPT-3

С каждым новым поколением GPT увеличивалось количество входящих параметров. Порою в сотни раз. Каждое следующее увеличение такой базы занимает не просто на 10% больше ресурсов, а раз в 10 больше ресурсов. Как Microsoft сделала это так быстро , учитывая, что ажиотаж chatgpt3 начался всего 3 месяца назад, а даже GPT3 обучали полгода? Вывод #1: под капотом там всё тот же же gpt3.

учитывая мультимодальность

Но постойте. Chatgpt3 прикрутили к обычному gpt3 текстовый интерфейс (заменили api на окно чата). Плюс немного дообучили базу Они же не стали себя называть gpt4?

Тут имеет смысл говорить о целом наборе нейросетей, объединённых под общим названием GPT-4

Значит ничего общего с тем, что раньше для того, чтобы назвать себя gpt2 или gpt3 тебе нужно было вкинуть кучу ресурсов в обучение и железо, и увеличить количество входных параметров до 175 миллиардов. Ведь под капотом gpt4 все тот же gpt3, но добавили новые интерфейсы. Могли бы скромно назваться Microsoft GPT3

Это как к мозгу с одним каналом связи с внешним миром - текстовым, приделали ещё глаза чтобы видеть, уши чтобы слышать

А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ? То есть gpt это умел и раньше, удобного интерфейса просто не было.

Итог - реально качественного скачка в количестве выходных параметров не произошло (по крайней мере в анонсе про это ни слова, и слабо верится в такой объем работы за такой короткий срок). А напомню, в gpt2 было 1.5 миллиарда выходных параметров, а в gpt3 их стало уже 175 миллиардов. Следующий gpt4 должен быть не менее 1 трлн. То, что сейчас Microsoft назвали gpt4 похоже не имеет ничего общего к этому, а просто маркетинговая стратегия "быть лучше , у всех gpt3 а у нас уже gpt4!".

BlackMokona 10 мар 2023 в 21:09

GPT-4 Опен АИ разрабатывали уже давно.
Ну, а ресурсов у Микрософт просто море.

+11

FreeNickname 10 мар 2023 в 21:09

GPT 4 – 170 триллионов параметров против 175 миллиардов. GPT 3 вышла в 2020 году (то, что ажиотаж вокруг ChatGPT стоит последние 3 месяца – не релевантно). Про работы над GPT 4 и о некоторых её характеристиках известно уже давно.

Автор статьи, конечно, зря не включил эту информацию, но вы-то на основе чего сделали кучу выводов? Я на сбор этой информации потратил 15 секунд в Гугле с телефона.

+32

kryvichh 10 мар 2023 в 21:28

Лучше дождёмся выхода. А то на разных сайтах по разному пишут.

OpenAI CEO says the rumor that GPT-4 has 100 Trillion parameters is false.

ssj100 10 мар 2023 в 22:51

А потом будет как Киберпанк - до релиза много шума а релиз провал

cijic 12 мар 2023 в 01:26

Боюсь что надеяться на такое даже не стоит.

mapron 11 мар 2023 в 03:57

Я на сбор этой информации потратил 15 секунд в Гугле с телефона.

А где вы ее нашли? точнее, по каким запросам? я вот даже не знаю какие запросы в гугл вводить на такое...

suns 11 мар 2023 в 10:20

Я находил по запросу "GPT4"

Там были рассуждения про то, что модели с роутингом (кажется switch transformer, но не помню) дают хороший результат, а значит можно достигать тех же результатов с меньшис числом параметров

Ну и так же писали, что увлечение числа параметров не даёт значительного превосходства

Сейчас возможно оно перестанет гуглиться из-за релиза, но общие тезисы тупике, что пытаются архитектуру поменять в первую очередь

phenik 11 мар 2023 в 10:38

GPT-4, предположительно.

mapron 11 мар 2023 в 12:37

А)) ну я имел в виду, если ты даже не знаешь о существовании GPT-4 - может не так сформулировал. Так-то да.

0x7o 13 мар 2023 в 05:00

Следующая версия GPT определенно не будет иметь 170 триллионов параметров. Она будет немного больше, чем GPT-3, но меньше, чем PaLM, поскольку нет смысла делать такие огромные параметры.

kryvichh 10 мар 2023 в 21:19

под капотом там всё тот же же gpt3.

Вполне возможно сеть из серии GPT-3, дообученная за последние месяцы, является ядром в GPT-4. Подождём выхода и подробностей.

Они же не стали себя называть gpt4?

ChatGPT is fine-tuned from a model in the GPT-3.5 series. Не 4, но и не 3.

увеличить количество входных параметров до 175 миллиардов.

Рост может быть не только экстенсивным, но и интенсивным, за счёт совершенствования топологии сети и дообучения - обратной связи от пользователей. К примеру пишут, что вторая по размеру версия модели LLaMA, LLaMA-13B, «в большинстве тестов» работает лучше популярной модели OpenAI GPT-3, в то время как самая большая модель LLaMA-65B, «конкурирует с лучшими моделями», такими как Chinchilla70B от DeepMind и PaLM 540B от Google.

А Сбер на днях анонсировал выход FRED-T5 - "лучшей в мире по пониманию текста на русском языке". И в ней всего 1.7 млрд параметров и 24 слоя!

устройство трансформера описываете, который положил дорогу всему gpt ?

Как бы все вышеописанные сети - это трансформеры.

Следующий gpt4 должен быть не менее 1 трлн.

Отнюдь не факт. Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.

DistortNeo 11 мар 2023 в 00:38

Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.

В случае GPT фишка именно в переходе количества в качество. Простое увеличение модели в 10 раз даёт фантастические результаты. Ну а уже потом можно и подтюнить.

НЛО прилетело и опубликовало эту надпись здесь

mithdradates 11 мар 2023 в 13:05

Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.

Ну вообще те примеры скорее говорят о том, что качество можно получить не только количеством. В целом для сеток как раз количество обычно перетекает в качество при правильном обучении.

FruTb 10 мар 2023 в 22:01

А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ?

Как-бы GPT расшифровывается как Generative Pretrained Transformers. И обычный трансформер это символьная модель у которой нету "разных каналов и модальностей данных". Есть довольно хитрые хаки как заставить трансформер работать с картинками (VisTransformer) но там надо хитро энкодить позицию в картинке (вы-же в курсе что трансформер не обращает внимания на место токена в потоке токенов) который не очень сочитается с энкодингом позиции токена в тексте.

Так что , считаю что если в чисто символьную модель GPT3 получилось добавить работу с картинками и видео это реально можно назвать GPT4. Да и вопрос вообще вот не в колличестве параметров сети.

Gugic 10 мар 2023 в 22:52

Как Microsoft сделала это так быстро , учитывая, что ажиотаж chatgpt3 начался всего 3 месяца назад, а даже GPT3 обучали полгода

Хайп и реальная работа это все-таки разные вещи. Первый доступный какой-никакой общественности релиз GPT3 был еще в 20-м году. В 21-м OpenAI уже вовсю продавали доступ к API с энтерпрайзными контрактами и кучей плюшек, продолжая постоянно улучшать сервис, представляя новые модели и т.д.

Вполне вероятно работа над условной GPT4 началась уже тогда.

mithdradates 11 мар 2023 в 13:00

А напомню, в gpt2 было 1.5 миллиарда выходных параметров, а в gpt3 их стало уже 175 миллиардов. Следующий gpt4 должен быть не менее 1 трлн.

Уже есть Wudao с 1.75 трлн параметров, так что одним количеством параметров уже не вывезешь, если только там скачок не до 100+ триллионов как в слухах, конечно.

А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ?

То что он описывает это мультимодальные сетки, а не трансформер, ванилла трансформер только с текстом и другими sequential данными умеет работать. Сам GPT-3 это эволюция трансформера, да.

bbs12 10 мар 2023 в 21:19

Тут имеет смысл говорить о целом наборе нейросетей

Разные отделы биологического мозга тоже как будто являются отдельными нейросетями - мозжечок - координация. Зрительная кора - обработка изображений, что-то вроде DALL-E. Неокортекс - GPT-4 - логика и мышление и т.д. Теперь всё это нужно объединить в одну систему и настоящий разум наконец-то проснется.

kryvichh 10 мар 2023 в 21:39

Мне тоже кажется, что товарищи идут верным путём. Надо ещё научиться регулярно и быстро дообучать сеть на полученном опыте коммуникации с пользователями. В идеале раз в день, также как мозг человека во время сна "пережёвывает" полученную в течение дня информацию.

FreeNickname 10 мар 2023 в 22:57

На основе коммуникации с пользователями лучше не стоит, Microsoft на этом уже обжигалась :)

stt_s 11 мар 2023 в 08:30

У меня chatGPT в лабиринте повис:

"Starting from the S, follow the path marked with asterisks (*) until you reach the end point marked with E. The path goes as follows:

1 Move right

2 Move down

3 Move right

4 Move down

5 Move left

6 Move down
..
79. Move"

GennPen 11 мар 2023 в 09:31

Когда ответ слишком большой и ChatGPT "виснет" на середине ответа, и если это не проблема сети, то просто отвечаешь ему "продолжай" и он продолжает ответ. Правда, если оборвался на выводе кода, то потом форматирование может испортиться, но это мелочи.

Hidden text