Комментарии 6
После прочтения осталась интрига- как же всё-таки связаны между собой обучение моделей в ML и вписывание гипершара в гиперкуб?
И тот факт, что соотношение объёмов стремится к нулю "противоречит" тому, что LLM с большим количеством параметров умудряются показывать лучшие результаты даже на одной и той же обучающей выборке...
Это просто жуткие по аналогии личные ощущения, что мы ни шиша не знаем, что происходит в многомерных пространствах, поэтому для меня эффект гиперапельсина, проблемы формирования выборки тестовых данных для глубоких сетей и поразительно разное поведение задачи об упаковке шаров в пространствах разной, даже не фантастически большой, размерности, все в одном ряду, не говоря уже о похождениях одномерного протона, описанных Лю ЦыСинем. )) Завтра-послезавтра я выложу лонгрид с обзором монографии по глубокому обучению, в котором я продолжаю приседать от ужаса от черной магии LLM.
LLM с большим количеством параметров умудряются показывать лучшие результаты даже на одной и той же обучающей выборке...
Подозреваю, что для этого просто свой аналог теоремы Колмогорова пока не написан, а может даже уже написан, но я не знаю. В смысле, N примеров обучающего датасета должно соответствовать xN параметров модели. Пока до xN не дошли, эффективность на датасете будет расти, а потом резко упираться в потолок.
Вы имеете в виду теорему Колмогорова-Арнольда? В монографиях по теоретическим основам нейронных сетей они очень радостно пляшут вокруг нее, но в связи с универсальными теоремами аппроксимации, в частности утверждают, что некоторые семейства нейронных сетей могу применять теорему Колмогорова-Арнолльда напрямую, чтобы породить универсальную теорему аппроксимации. Я не очень понимаю, как это связано с относительными размерами датасета и количеством параметров. Там же есть такое явление как двойной спуск, когда в области перепараметризации модели качество модели продолжает улучшаться (тоже почти необъяснимо). Или вы совсем о другом?
я бы сказал N/x
Размер обучающей выборки должен быть кратно больше размера параметров, которые мы хотим настроить (обучить). Если число параметров будет слишком большим, мы слишком легко уйдем в переобучение. [понятие "размер обучающей выборки" довольно сложен -- это не число картинок, скорее общее число пикселей в картинках + еще аугментации]
Всё упирается в эффективность обучения нейросетей. При детерменированном подходе мы уверенно проводим прямую через две точки. В случае мягких вычислений надо хорошо потрудиться, чтобы нейросеть наткнулась на более-менее правильный вариант. К тому же ей, вероятно, проще опираться на несколько точек и проводит она не прямую, а, более сложную фигуру.
О кожуре гиперапельсина