Razant May 22 at 12:47

Большие языковые модели гораздо линейнее, чем мы думали

Hard

4 min

18K

AIRI corporate blogAlgorithms*Machine learning*Artificial IntelligenceNatural Language Processing*

Case

+68

Comments 13

slavb18 May 22 at 14:09

Добрый день!

Может ли помочь замена слоёв на линейные регрессии при запуске на более слабом железе?

Можно ли получить доступ к такой модели?

ValeriyPushkarev May 22 at 14:11

Мы предполагаем, что это связано с уменьшением обобщающей способности, то есть рост линейности – это то, что приводит к катастрофическому забыванию. Грубо говоря, модель постепенно откидывает старые знания, которые не пригодились во время файнтюнинга (RLHF не исключение).

Ого, да все DeepLearning было придумано чтобы 100+ слоев хотя-бы обучить (пусть и на манер хеш-таблицы) :).

И тут оказывается у нас не сверхоптимальное сжатие всего интернета в 2b параметрах (и вся нелинейная магия только в 70M моделях? )))

ACL - могёте xD

ValeriyPushkarev May 23 at 07:24

И, да, ACL! пропустил Word2Vec, SQUAD, Transformer.

(Т.е. почти все, что используется людьми в настоящее время)

Внимательнее выбирайте конференции ).

-2

Dzhimsher May 22 at 16:43

" Грубо говоря, модель постепенно откидывает старые знания, которые не пригодились во время файнтюнинга (RLHF не исключение)."

Ну собственно это логично. Модель старается максимизировать функцию и оптимизировать трудозатраты-результат. Если при донастройке выявляется все более простая зависимость, то зачем тратить ресурсы? Ведь цель этих моделей дать то, что Вы хотите услышать.

Это очень похоже на то, с чем столкнулись OpenAI и ChatGPT. В конце прошлого года были жалобы, что ИИ стал лениться и просто выкидывать ссылки и выдержки с той же вики. То есть модель начинает оптимизироваться под пользователей и их запросы, искать наиболее легкий вариант ответа

yafice May 22 at 18:19

Очень интересное поведение. Как вы думаете, есть ли у данного эффекта зависимость от n-мерности пространства модели?

Razant May 22 at 18:26

Как минимум это зависит от количества параметров. Видим, что совсем крошечные модели остаются нелинейными.

VPryadchenko May 23 at 00:46

Не указывает ли это на то, что модели в большинстве своём априори имеют избыточную ёмкость?

С другой стороны не очень понял, как замена блока на линейный слой работает, ведь в блоках есть умножение...

Karington May 23 at 11:22

Не указывает ли это на то, что модели в большинстве своём априори имеют избыточную ёмкость?

А что есть избыточность?

С точки зрения меня как индивида, моё умение бросать баскетбольный мяч в кольцо -- избыточно, ведь из 280к часов жизни, я бросал мяч в кольцо, примерно, 600 часов. Это, примерно, 0.2% времени. Но именно набор этих умений приобретённых за десятые доли жизни делает меня тем, кто я есть.

VPryadchenko May 23 at 11:33

Речь про избыточную параметризацию аппроксимации - берете, например, полином третьей степени или выше, и подгоняете им квадратичную функцию. То же может быть и в нейнонках, и это, кстати, не обязательно приводит к оверфиту.

MihailMirza May 23 at 09:28

На счет влияния "положительной" регуляризации действительно интересно. Чисто с точки зрения математики штраф за линейность должен приводить к усложнению "ландшафта" функции потерь толкая ее в локальные оптимумы, что не есть гуд. Оптимизация же на линейность наоборот заставляет модель оптимизировать траектории, заставляя ее сразу формировать генерализованные представления везде где только возможно (мб она таким образом как раз немного проскакивает этап формирования слишком больших внутренних размерностей и сразу учиться "думать" широкими абстракциями, по крайней мере во внутренних слоях), чтобы ее на выходе не сильно функция потерь дубиной по башке била :)

А вообще круто конечно, огромный респект за движение в сторону XAI в целом и ковыряние в таких монстрах как современные LLM в частности.

Question_man May 23 at 10:54

А что с перформансом при замене ~15% слоев? Вырастает ли он, если да, то на сколько? А при увеличении нелинейности что будет с перфом (чисто интуитивно: чем выше нелинейность, тем сложнее считать производную, т.е. перформанс должен замедлиться)?

lgorSL May 24 at 12:14

А что если не заменять слой трансформера целиком на линейный, а вместо этого использовать сумму выходов двух слоёв - линейного и маленького трансформерного (как раз для описания нелинейностей, доля которых небольшая?)

JerryI May 25 at 12:54

Возможно нелинейность все равно возникнет из за неточностей и округления float чисел. На основе этого можно тоже нейросети делать

https://youtu.be/Ae9EKCyI1xU?si=JdfxVKFSSCJu02Ry

-1