Pull to refresh

Comments 32

Ну всё, гонка на маркетинговые называния объявляются открытой! Сегодня GPT-4, завтра gpt-4G, gpt-4G+ , через год Apple выпустит новую сири GPT-5G , а Samsung решить скипнуть все эти циферки и сразу перейти к двузначным: GPT-10...

И конечно-же никакой конкретики, какая была база, сколько ресурсов и времени ушло на обучение сети, насколько в ней больше входных параметров, итд.

Очевидно побольше GPT-3, учитывая мультимодальность. Это как к мозгу с одним каналом связи с внешним миром - текстовым, приделали ещё глаза чтобы видеть, уши чтобы слышать, и рот чтобы говорить. Тут имеет смысл говорить о целом наборе нейросетей, объединённых под общим названием GPT-4.

Очевидно побольше GPT-3

С каждым новым поколением GPT увеличивалось количество входящих параметров. Порою в сотни раз. Каждое следующее увеличение такой базы занимает не просто на 10% больше ресурсов, а раз в 10 больше ресурсов. Как Microsoft сделала это так быстро , учитывая, что ажиотаж chatgpt3 начался всего 3 месяца назад, а даже GPT3 обучали полгода? Вывод #1: под капотом там всё тот же же gpt3.

учитывая мультимодальность

Но постойте. Chatgpt3 прикрутили к обычному gpt3 текстовый интерфейс (заменили api на окно чата). Плюс немного дообучили базу Они же не стали себя называть gpt4?

Тут имеет смысл говорить о целом наборе нейросетей, объединённых под общим названием GPT-4

Значит ничего общего с тем, что раньше для того, чтобы назвать себя gpt2 или gpt3 тебе нужно было вкинуть кучу ресурсов в обучение и железо, и увеличить количество входных параметров до 175 миллиардов. Ведь под капотом gpt4 все тот же gpt3, но добавили новые интерфейсы. Могли бы скромно назваться Microsoft GPT3

Это как к мозгу с одним каналом связи с внешним миром - текстовым, приделали ещё глаза чтобы видеть, уши чтобы слышать

А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ? То есть gpt это умел и раньше, удобного интерфейса просто не было.

Итог - реально качественного скачка в количестве выходных параметров не произошло (по крайней мере в анонсе про это ни слова, и слабо верится в такой объем работы за такой короткий срок). А напомню, в gpt2 было 1.5 миллиарда выходных параметров, а в gpt3 их стало уже 175 миллиардов. Следующий gpt4 должен быть не менее 1 трлн. То, что сейчас Microsoft назвали gpt4 похоже не имеет ничего общего к этому, а просто маркетинговая стратегия "быть лучше , у всех gpt3 а у нас уже gpt4!".

GPT-4 Опен АИ разрабатывали уже давно.
Ну, а ресурсов у Микрософт просто море.

GPT 4 – 170 триллионов параметров против 175 миллиардов. GPT 3 вышла в 2020 году (то, что ажиотаж вокруг ChatGPT стоит последние 3 месяца – не релевантно). Про работы над GPT 4 и о некоторых её характеристиках известно уже давно.

Автор статьи, конечно, зря не включил эту информацию, но вы-то на основе чего сделали кучу выводов? Я на сбор этой информации потратил 15 секунд в Гугле с телефона.

Лучше дождёмся выхода. А то на разных сайтах по разному пишут.

OpenAI CEO says the rumor that GPT-4 has 100 Trillion parameters is false.

А потом будет как Киберпанк - до релиза много шума а релиз провал

Боюсь что надеяться на такое даже не стоит.

Я на сбор этой информации потратил 15 секунд в Гугле с телефона.

А где вы ее нашли? точнее, по каким запросам? я вот даже не знаю какие запросы в гугл вводить на такое...

Я находил по запросу "GPT4"

Там были рассуждения про то, что модели с роутингом (кажется switch transformer, но не помню) дают хороший результат, а значит можно достигать тех же результатов с меньшис числом параметров

Ну и так же писали, что увлечение числа параметров не даёт значительного превосходства

Сейчас возможно оно перестанет гуглиться из-за релиза, но общие тезисы тупике, что пытаются архитектуру поменять в первую очередь

А)) ну я имел в виду, если ты даже не знаешь о существовании GPT-4 - может не так сформулировал. Так-то да.

Следующая версия GPT определенно не будет иметь 170 триллионов параметров. Она будет немного больше, чем GPT-3, но меньше, чем PaLM, поскольку нет смысла делать такие огромные параметры.

под капотом там всё тот же же gpt3.

Вполне возможно сеть из серии GPT-3, дообученная за последние месяцы, является ядром в GPT-4. Подождём выхода и подробностей.

Они же не стали себя называть gpt4?

ChatGPT is fine-tuned from a model in the GPT-3.5 series. Не 4, но и не 3.

увеличить количество входных параметров до 175 миллиардов.

Рост может быть не только экстенсивным, но и интенсивным, за счёт совершенствования топологии сети и дообучения - обратной связи от пользователей. К примеру пишут, что вторая по размеру версия модели LLaMA, LLaMA-13B, «в большинстве тестов» работает лучше популярной модели OpenAI GPT-3, в то время как самая большая модель LLaMA-65B, «конкурирует с лучшими моделями», такими как Chinchilla70B от DeepMind и PaLM 540B от Google.

А Сбер на днях анонсировал выход FRED-T5 - "лучшей в мире по пониманию текста на русском языке". И в ней всего 1.7 млрд параметров и 24 слоя!

устройство трансформера описываете, который положил дорогу всему gpt ?

Как бы все вышеописанные сети - это трансформеры.

Следующий gpt4 должен быть не менее 1 трлн.

Отнюдь не факт. Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.

Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.

В случае GPT фишка именно в переходе количества в качество. Простое увеличение модели в 10 раз даёт фантастические результаты. Ну а уже потом можно и подтюнить.

UFO just landed and posted this here

Не всегда количество даёт качество, как я процитировал чуть выше на примере других сетей.

Ну вообще те примеры скорее говорят о том, что качество можно получить не только количеством. В целом для сеток как раз количество обычно перетекает в качество при правильном обучении.

А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ?

Как-бы GPT расшифровывается как Generative Pretrained Transformers. И обычный трансформер это символьная модель у которой нету "разных каналов и модальностей данных". Есть довольно хитрые хаки как заставить трансформер работать с картинками (VisTransformer) но там надо хитро энкодить позицию в картинке (вы-же в курсе что трансформер не обращает внимания на место токена в потоке токенов) который не очень сочитается с энкодингом позиции токена в тексте.

Так что , считаю что если в чисто символьную модель GPT3 получилось добавить работу с картинками и видео это реально можно назвать GPT4. Да и вопрос вообще вот не в колличестве параметров сети.

Как Microsoft сделала это так быстро , учитывая, что ажиотаж chatgpt3 начался всего 3 месяца назад, а даже GPT3 обучали полгода

Хайп и реальная работа это все-таки разные вещи. Первый доступный какой-никакой общественности релиз GPT3 был еще в 20-м году. В 21-м OpenAI уже вовсю продавали доступ к API с энтерпрайзными контрактами и кучей плюшек, продолжая постоянно улучшать сервис, представляя новые модели и т.д.

Вполне вероятно работа над условной GPT4 началась уже тогда.

А напомню, в gpt2 было 1.5 миллиарда выходных параметров, а в gpt3 их стало уже 175 миллиардов. Следующий gpt4 должен быть не менее 1 трлн.

Уже есть Wudao с 1.75 трлн параметров, так что одним количеством параметров уже не вывезешь, если только там скачок не до 100+ триллионов как в слухах, конечно.

А разве это вы сейчас не устройство трансформера описываете, который положил дорогу всему gpt ?

То что он описывает это мультимодальные сетки, а не трансформер, ванилла трансформер только с текстом и другими sequential данными умеет работать. Сам GPT-3 это эволюция трансформера, да.

Тут имеет смысл говорить о целом наборе нейросетей

Разные отделы биологического мозга тоже как будто являются отдельными нейросетями - мозжечок - координация. Зрительная кора - обработка изображений, что-то вроде DALL-E. Неокортекс - GPT-4 - логика и мышление и т.д. Теперь всё это нужно объединить в одну систему и настоящий разум наконец-то проснется.

Мне тоже кажется, что товарищи идут верным путём. Надо ещё научиться регулярно и быстро дообучать сеть на полученном опыте коммуникации с пользователями. В идеале раз в день, также как мозг человека во время сна "пережёвывает" полученную в течение дня информацию.

У меня chatGPT в лабиринте повис:

"Starting from the S, follow the path marked with asterisks (*) until you reach the end point marked with E. The path goes as follows:

1 Move right

2 Move down

3 Move right

4 Move down

5 Move left

6 Move down
..
79. Move"

Когда ответ слишком большой и ChatGPT "виснет" на середине ответа, и если это не проблема сети, то просто отвечаешь ему "продолжай" и он продолжает ответ. Правда, если оборвался на выводе кода, то потом форматирование может испортиться, но это мелочи.

Hidden text

Теперь всё это нужно объединить в одну систему и настоящий разум наконец-то проснется.

Уже объединяли KOSMOS-1, Gato . Разум… пока не проснулся. Может шамана позвать нужно)

сразу перейти к двузначным: GPT-10...

GPTX же...

Похоже для постройки новой версии gpt используют сам gpt, только это может объяснит такую скорость обновления

Sign up to leave a comment.

Other news