Comments 6
Интересный эксперимент, и выводы интересные.
Вообще радуют хоть какие-то шаги в сторону от "да какая разница, как оно там внутри работает, главное работает". Все так увлеклись прогрессом, что времени толком исследовать "что же получилось", нет.
"хакрактреистики"?
А открытие — это интерпретация этих наблюдений. Авторы делают такой вывод: умение обобщать происходит от “голода” модели. Ей нужно найти общие, универсальные представления из ограниченного набора весов.
Эм, а в чем открытие? Сетка сжимает данные, это общеизвестный факт еще эдак с 80х.
Статья как раз пришлась во время. Я только на этой неделе закончил исследование на эту тему. Сначала через закон Ципфа показал как система сама учиться выделять признаки через обучение числа признаков на каждом уровне и на сколько это важно.

А затем, через метод Лагранжа вывел полную формулу , где Ципфа частный случай.

Суть в том, что любая модель обучаясь на сигналах просто строит иерархию асимметрий на основе Zipf подобного распределения. Где сама иерархия подчиняется этому закону.

На примере трансформеров показал как это происходит (как частный пример). Сейчас у меня построен более полный конечный автомат асимметрии, где изначально в основе лежала шестислойная модель неокортексе. Но в итоге это привело к обобщению и получению модели асимметрии сигнала.
Данная статья замечательно подтверждает это наглядно.
https://t.me/greenruff/2400?single
То что авторы называют голодом , на самом деле доказывается через два параметра N и beta. То есть модель не может бесконечно развиваться, так как тогда теряет способность к деталям и это приводит к обобщению (ухудшается). Это точка бифуркации, когда для развития системы она должна перейти к новому уровня иерархии, где будет снова через новые N и beta улавливать асимметрию нового уровня.
Поэтому то что авторы описывают через вольную интерпретацию имеет теперь твердую математическую и физическую базу.
Закон Ципфа степенной, тут экспоненциальная "полная формула", это вообще разные семейства функций и я бы так смело не кидал такие заявления в кругу математиков
1) тут тоже самое. Причина одна и та же

2) Закон Ципфа это эмпирический не точный закон. Вы по моему упустили самое главное, а то, что формула выведена не из пустоты а имеет доказательную базу. Изначально она была выведена из Ципфа (ее упрощенная версия https://t.me/greenruff/2346). Была показана, как это работает и ведет себя.

3) при определённых значений N и beta она подобна закону Ципфа. Речь про поведение на ограниченном участке N (а Ципфа имеет сильные отклонения при увеличении N от наблюдаемых эмпирических данных)
Не горе от ума, а ум от голода — откуда LLM такие умные