Comments 5
Какого цвета стоп-кран в самолете?
Нет такого предмета как стоп-кран в самолете.
<reflection> Остановился на этой мысли, поскольку действительно, в самолетах нет таких конструкций, которые называются стоп-краниками.
Спасибо за материал, мне понравилось. Добавлю, что на мой взгляд проблема из-за которой вы на прямом SFT без Lora получали локальный рост, с последующим падением находится в области катастрофического забывания. Тк вы при sft прямом перезаписываете веса. Поэтому когда мы берем lora и фризим тушку модели, мы ее знания в весах основных фризим и сходимость по lora к вашему поведению ожидаемому становится прогнозируемым. Чтобы при прямом sft такое забывание избегать или child tuning юзают или регуляризацию на базовый чекпойнт как это делается в схеме с PPO Rlhf в части kld штрафа к учителю. По простому мы можем self distillation использовать к зафриженной копии базовой модели с некоторым коэффициентом.
Спасибо! Да, очень согласна с вашими рекомендациями, однако мы не использовали полный SFT как раз по причинам катастрафического забывания + это очень дорого было для нас по ресурсам - приходилось бы страдать по длине контекста на обучении. Мы начали свои эксперименты сразу с LoRA, а затем перебирали различные похожие подходы из PEFT.
.
Поиск данных, прокачанная тренировка и судейская оценка. Как с минимальными ресурсами улучшить качество дообучения LLM