Pull to refresh

Comments 5

Какого цвета стоп-кран в самолете?

Нет такого предмета как стоп-кран в самолете.

<reflection> Остановился на этой мысли, поскольку действительно, в самолетах нет таких конструкций, которые называются стоп-краниками.

Спасибо за материал, мне понравилось. Добавлю, что на мой взгляд проблема из-за которой вы на прямом SFT без Lora получали локальный рост, с последующим падением находится в области катастрофического забывания. Тк вы при sft прямом перезаписываете веса. Поэтому когда мы берем lora и фризим тушку модели, мы ее знания в весах основных фризим и сходимость по lora к вашему поведению ожидаемому становится прогнозируемым. Чтобы при прямом sft такое забывание избегать или child tuning юзают или регуляризацию на базовый чекпойнт как это делается в схеме с PPO Rlhf в части kld штрафа к учителю. По простому мы можем self distillation использовать к зафриженной копии базовой модели с некоторым коэффициентом.

Спасибо! Да, очень согласна с вашими рекомендациями, однако мы не использовали полный SFT как раз по причинам катастрафического забывания + это очень дорого было для нас по ресурсам - приходилось бы страдать по длине контекста на обучении. Мы начали свои эксперименты сразу с LoRA, а затем перебирали различные похожие подходы из PEFT.

Понял, но даже с частичным sft будет забывание (пару блоков трансформера расфризить). В целом понял.

Sign up to leave a comment.