Pull to refresh

Comments 5

С одной стороны согласен с данной гипотезой и одновременно нет. В свое время, часто писал, что последовательность обучения играет роль. То есть скормив одни и те же данные при обучении, но идущие в разном порядке приводят к разному качеству обучения. Проводили эксперименты.

Это можно привести на примере развития и обучения ребенка. Если мы скормим ему сразу кучу данных, но они будут менее структурированные и противоречивые. И эффективность будем маленькой. А затраты большие. Поэтому обучение делится на этапы, где сначала обучаем более обобщённым данным. Затем постепенно усложняем их на каждом шаге. Второй важный момент, это не просто скармливание данных, а скармливание обучающих данных, как это происходит в образовании. Где мы не изучаем все возможные тексты, а изучаем связи, объясняющие закономерности. Простой пример, временная шкала (у нейронок с ней были проблемы). То есть обучение работать с ней и понимать ее (завтра, послезавтра, сегодня, вчера и так далее).

Таким образом, новые данные мы вводим постепенно, а не сразу скармливаем все подряд. Собственно, то что описано в статье, частный случай, описывающий каждый этап обучения. Который в реальности должен повторяться, добавляя новые более сложные данные и усложнятся. По принципу как это происходит в образовании.

В чём то я с вами согласен. Есть разница в том, как обучать базовую модель. Если взять например проект из репозитория github, и скармливать каждый файл отдельно, мы по сути не даем модели высокоуровнего понимания всего проекта в целом. Получается выпускник школы с клиповым мышлением, с багажом разрозненных знаний, которые не стыкуются в его голове в цельную картину. А если подавать документы из проекта даже хотя бы в порядке их компиляции компилятором и стараться объединить их в один документ, будет совершенно иное, целостное восприятие со всеми взаимосвязями.

Так что думаю следующим открытием учёных будет понимание того, что важно не только собрать качественные обучающие данные, но и грамотно их представить для обучения.

В свое время, мы обсуждали эту проблему. Я тогда описал, почему разный порядок данных влияет на процесс обучение, особенно в начале и набольших моделях (думаю и на крупных тоже будет разброс). Поэтому был проведен эксперимент, когда было проведено небольшое обучение GPT на одних и те же данные в чистой модели (не помню основа 2 или 3 версии бралась). Сначала порядок данных был от 1 до N, а затем сделали обучение когда скормили эти же данные но в порядке от N до 1. И оказалось что Loss и вообще качество обученной модели сильно отличаются друг от друга.

Я тогда описал на примере почему из одной и тоже логике получается разный результат. Так как в одном случае в начале обучения будет "Природа это добро. Природа важна.... Пауки важная часть природы и они ловят мух. Лягушки едят Пауков. " - что сделает связи в модели что Пауки это добро.

А при другом порядке данных будет "Природа это добро. Природа важна.... Лягушки едят Пауков. .... Люди хорошие.... Не люди плохие...Люди не любят пауков. ....Пауки важная часть природы и они ловят мух". Так вот во втором случае вывод сетки будет уже другой. Так как первичные связи более сильные и маршрут по ним уже проложен. Поэтому тут Пауки будет уже плохими. Хотя два одинаковых датасета.

Это можно сравнить с живым обучением. Если сказать, что кратчайший путь до магазина через ул. Маршала. Эти связи первичны для новой информации и будут наиболее сильные. Поэтому сказать человеку, что кратчайший пусть до магазина через ул. Кирова он запомнит, но все равно связь ул. Маршала будет сильнее, так как через нее уже много раз другие связи усилили этот маршрут. И чтобы теперь это изменилось на ул. Кирова, нужно чтобы условно это сказали 1000 раз.

Поэтому в итоге получаем кучу зашумленной информации. Обучение при этом усложняется, так как надо чтобы правильные ответы преобладали и вытеснили не правильные. На практике такого не будет. Если изначально в сетку ушло что 20*5 это 17, то она это запомнит (мы же в случайном порядке подаем данные). И вряд ли окажется, что будет огромное кол-во записей где будет описано что 20*5 = 100. Пример условный.

Поэтом порядок датасета играет первостепенную роль. А так же правило подачи данных. Вот LIMO - это про то что сейчас большие модели кишат такими не соответствиями. И если мы теперь скормим им правильные связи данных на основе длинных цепочке, позволяющие правильно связать эти разрозненные куски, то получаем отличный результат. И не нужно для этого обучать на новых и скармливать тонны информации. То что они делают, это как раз описывают правильные цепочки сразу "Природа это добро. Природа важна. Лягушки едят Пауков. Люди хорошие. Не люди плохие. Люди не любят пауков. Пауки важная часть природы и они ловят мух". Но делают это просто через длинные рассуждения, которые позволяют сразу охватить более длинные цепочки и правильно усилить эти связи.

Согласен, и даже больше скажу. По примеру того, как DeepSeek придумали автоматическую систему финального тюнинга, до кого-то в отделе R&D скоро дойдёт, что было бы не плохо, весь обучающий корпус прогнать через LLM чтобы переработать его в наиболее качественный вид и структуру. Может быть уже занимаются...

Ну так это же логично, если подумать. Если мы убираем для стадии SFT слабые примеры рассуждений, то общее качество рассуждений модели в итоге повышается, потому что слабые примеры учат модель использовать более простые подходы к решению задач. А в данной статье модель применяет высококачественный подход к рассуждению даже для простых задач, т.е она будет везде стараться, а не срезать углы.

А что дальше? Может например найдут такие примеры для SFT, которых будет всего пару десятков, но которые будут настолько гениальными и в которых будут использованы не тривиальные мыслительные приёмы, что модель будет еще умнее ? Хотя с другой стороны мне лично не всегда нравится, когда модель на простой вопрос начинает городить размышления смахивающие на докторскую диссертацию.

Думаю пока что не в ту сторону копают исследователи, надо не отдельные задачи решать, а учить правильно работать с обьемным контекстом, например большими кодовыми базами. А то у ChatGPT в этом плане сильное отставание от Claude. А у DeepSeek-R1 я недавно проверил на нескольких больших кодовых модулях, так он мне в цепочке размышлений не просто бредовый текст начал писать, это даже был не текст а набор всех символов пропущенный через генератор случайных чисел. Таким был и сам ответ - полнейшей тарабащиной/заклинанием, написанным котом, попрыгавшим на клавиатуре. Короче он как будто вообще поломался от большого контекста.

Sign up to leave a comment.

Articles