Comments 32
Ну всё, гонка на маркетинговые называния объявляются открытой! Сегодня GPT-4, завтра gpt-4G, gpt-4G+ , через год Apple выпустит новую сири GPT-5G , а Samsung решить скипнуть все эти циферки и сразу перейти к двузначным: GPT-10...
И конечно-же никакой конкретики, какая была база, сколько ресурсов и времени ушло на обучение сети, насколько в ней больше входных параметров, итд.
Очевидно побольше GPT-3, учитывая мультимодальность. Это как к мозгу с одним каналом связи с внешним миром - текстовым, приделали ещё глаза чтобы видеть, уши чтобы слышать, и рот чтобы говорить. Тут имеет смысл говорить о целом наборе нейросетей, объединённых под общим названием GPT-4.
Очевидно побольше GPT-3
С каждым новым поколением GPT увеличивалось количество входящих параметров. Порою в сотни раз. Каждое следующее увеличение такой базы занимает не просто на 10% больше ресурсов, а раз в 10 больше ресурсов. Как Microsoft сделала это так быстро , учитывая, что ажиотаж chatgpt3 начался всего 3 месяца назад, а даже GPT3 обучали полгода? Вывод #1: под капотом там всё тот же же gpt3.
учитывая мультимодальность
Но постойте. Chatgpt3 прикрутили к обычному gpt3 текстовый интерфейс (заменили api на окно чата). Плюс немного дообучили базу Они же не стали себя называть gpt4?
Тут имеет смысл говорить о целом наборе нейросетей, объединённых под общим названием GPT-4
Значит ничего общего с тем, что раньше для того, чтобы назвать себя gpt2 или gpt3 тебе нужно было вкинуть кучу ресурсов в обучение и железо, и увеличить количество входных параметров до 175 миллиардов. Ведь под капотом gpt4 все тот же gpt3, но добавили новые интерфейсы. Могли бы скромно назваться Microsoft GPT3
Это как к мозгу с одним каналом связи с внешним миром - текстовым, приделали ещё глаза чтобы видеть, уши чтобы слышать
А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ? То есть gpt это умел и раньше, удобного интерфейса просто не было.
Итог - реально качественного скачка в количестве выходных параметров не произошло (по крайней мере в анонсе про это ни слова, и слабо верится в такой объем работы за такой короткий срок). А напомню, в gpt2 было 1.5 миллиарда выходных параметров, а в gpt3 их стало уже 175 миллиардов. Следующий gpt4 должен быть не менее 1 трлн. То, что сейчас Microsoft назвали gpt4 похоже не имеет ничего общего к этому, а просто маркетинговая стратегия "быть лучше , у всех gpt3 а у нас уже gpt4!".
GPT-4 Опен АИ разрабатывали уже давно.
Ну, а ресурсов у Микрософт просто море.
GPT 4 – 170 триллионов параметров против 175 миллиардов. GPT 3 вышла в 2020 году (то, что ажиотаж вокруг ChatGPT стоит последние 3 месяца – не релевантно). Про работы над GPT 4 и о некоторых её характеристиках известно уже давно.
Автор статьи, конечно, зря не включил эту информацию, но вы-то на основе чего сделали кучу выводов? Я на сбор этой информации потратил 15 секунд в Гугле с телефона.
Лучше дождёмся выхода. А то на разных сайтах по разному пишут.
OpenAI CEO says the rumor that GPT-4 has 100 Trillion parameters is false.
А потом будет как Киберпанк - до релиза много шума а релиз провал
Я на сбор этой информации потратил 15 секунд в Гугле с телефона.
А где вы ее нашли? точнее, по каким запросам? я вот даже не знаю какие запросы в гугл вводить на такое...
Я находил по запросу "GPT4"
Там были рассуждения про то, что модели с роутингом (кажется switch transformer, но не помню) дают хороший результат, а значит можно достигать тех же результатов с меньшис числом параметров
Ну и так же писали, что увлечение числа параметров не даёт значительного превосходства
Сейчас возможно оно перестанет гуглиться из-за релиза, но общие тезисы тупике, что пытаются архитектуру поменять в первую очередь
Следующая версия GPT определенно не будет иметь 170 триллионов параметров. Она будет немного больше, чем GPT-3, но меньше, чем PaLM, поскольку нет смысла делать такие огромные параметры.
под капотом там всё тот же же gpt3.
Вполне возможно сеть из серии GPT-3, дообученная за последние месяцы, является ядром в GPT-4. Подождём выхода и подробностей.
Они же не стали себя называть gpt4?
ChatGPT is fine-tuned from a model in the GPT-3.5 series. Не 4, но и не 3.
увеличить количество входных параметров до 175 миллиардов.
Рост может быть не только экстенсивным, но и интенсивным, за счёт совершенствования топологии сети и дообучения - обратной связи от пользователей. К примеру пишут, что вторая по размеру версия модели LLaMA, LLaMA-13B, «в большинстве тестов» работает лучше популярной модели OpenAI GPT-3, в то время как самая большая модель LLaMA-65B, «конкурирует с лучшими моделями», такими как Chinchilla70B от DeepMind и PaLM 540B от Google.
А Сбер на днях анонсировал выход FRED-T5 - "лучшей в мире по пониманию текста на русском языке". И в ней всего 1.7 млрд параметров и 24 слоя!
устройство трансформера описываете, который положил дорогу всему gpt ?
Как бы все вышеописанные сети - это трансформеры.
Следующий gpt4 должен быть не менее 1 трлн.
Отнюдь не факт. Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.
Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.
В случае GPT фишка именно в переходе количества в качество. Простое увеличение модели в 10 раз даёт фантастические результаты. Ну а уже потом можно и подтюнить.
Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.
Ну вообще те примеры скорее говорят о том, что качество можно получить не только количеством. В целом для сеток как раз количество обычно перетекает в качество при правильном обучении.
А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ?
Как-бы GPT расшифровывается как Generative Pretrained Transformers. И обычный трансформер это символьная модель у которой нету "разных каналов и модальностей данных". Есть довольно хитрые хаки как заставить трансформер работать с картинками (VisTransformer) но там надо хитро энкодить позицию в картинке (вы-же в курсе что трансформер не обращает внимания на место токена в потоке токенов) который не очень сочитается с энкодингом позиции токена в тексте.
Так что , считаю что если в чисто символьную модель GPT3 получилось добавить работу с картинками и видео это реально можно назвать GPT4. Да и вопрос вообще вот не в колличестве параметров сети.
Как Microsoft сделала это так быстро , учитывая, что ажиотаж chatgpt3 начался всего 3 месяца назад, а даже GPT3 обучали полгода
Хайп и реальная работа это все-таки разные вещи. Первый доступный какой-никакой общественности релиз GPT3 был еще в 20-м году. В 21-м OpenAI уже вовсю продавали доступ к API с энтерпрайзными контрактами и кучей плюшек, продолжая постоянно улучшать сервис, представляя новые модели и т.д.
Вполне вероятно работа над условной GPT4 началась уже тогда.
А напомню, в gpt2 было 1.5 миллиарда выходных параметров, а в gpt3 их стало уже 175 миллиардов. Следующий gpt4 должен быть не менее 1 трлн.
Уже есть Wudao с 1.75 трлн параметров, так что одним количеством параметров уже не вывезешь, если только там скачок не до 100+ триллионов как в слухах, конечно.
А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ?
То что он описывает это мультимодальные сетки, а не трансформер, ванилла трансформер только с текстом и другими sequential данными умеет работать. Сам GPT-3 это эволюция трансформера, да.
Тут имеет смысл говорить о целом наборе нейросетей
Разные отделы биологического мозга тоже как будто являются отдельными нейросетями - мозжечок - координация. Зрительная кора - обработка изображений, что-то вроде DALL-E. Неокортекс - GPT-4 - логика и мышление и т.д. Теперь всё это нужно объединить в одну систему и настоящий разум наконец-то проснется.
Мне тоже кажется, что товарищи идут верным путём. Надо ещё научиться регулярно и быстро дообучать сеть на полученном опыте коммуникации с пользователями. В идеале раз в день, также как мозг человека во время сна "пережёвывает" полученную в течение дня информацию.
На основе коммуникации с пользователями лучше не стоит, Microsoft на этом уже обжигалась :)
У меня chatGPT в лабиринте повис:
"Starting from the S, follow the path marked with asterisks (*) until you reach the end point marked with E. The path goes as follows:
1 Move right
2 Move down
3 Move right
4 Move down
5 Move left
6 Move down
..
79. Move"
сразу перейти к двузначным: GPT-10...
GPTX же...
Похоже для постройки новой версии gpt используют сам gpt, только это может объяснит такую скорость обновления
Будем ждать!
Microsoft заявила, что GPT-4 выйдет на следующей неделе