Comments 18
А можно дать человеку "лайкнуть" понравившиеся варианты и использовать результат как множитель веса в дальнейшем обучении.
Смотрите, сначала мы ставим робота выполнять работу и замечаем, что он начинает деградировать. Ставим к нему человека, который "лайкает" информацию и начинаем замечать, что деградировать начинает человек...
RLHF, которым обучали chatgpt, как-то похоже и работает. Взятую LLM обучают на фидбеке из сравнений генерируемых ответов, фидбек предоставляется людьми. Там правда все ещё запутаннее, ибо в конце обучают ещё и модель которая умеет этот самый фидбек имитировать, чтоб не размечать все данные только людьми, но в целом происходит именно файнтюнинг на основе оценок людей. Конечно если я правильно понимаю процесс...
Возможно, что я скажу глупость, но я всё равно её скажу.
Может ли проблема быть в том, что "роботы не спят?" Где-то читал исследование на тему сна и про то, что сон нужен не только для отдыха, но и для своеобразного "раскладывания информации по полочкам". Эдакая своеобразная фильтрация и обработка, а сны в таком случае служат как генерируемые самим мозгом заведомо ошибочные данные, которые мозг уже подсознательно использует в качестве фильтра для воспринимаемой в реальности информации.
Кто этим занимается, попробуйте "покормить" нейросети данными, которая она заранее будет воспринимать как ошибочные или сгенерированные нейросетями и основываясь на которых будет отсеивать ошибки.
Типа если входящие данные будут иметь большую схожесть с данными из этой категории, то он будет воспринимать эти входящие данные с "бОльшим скепсисом".
Расписал, возможно, сумбурно, но если будет надо, могу постараться расписать подробнее. Скорее пытался написать так, чтобы было понятна основная мысль.
Мне кажется, что причина не в том что ИИ не спят, а в том что у них нет тела. Через тело и взаимодействие с реальным миром и людьми ИИ сможет обучиться так же как человек.
Полезность "сна" в нейроморфных сетях уже показана (статья), но они ближе по своим свойствам к биологическим прототипам, чем обычные ИНС.
Я подобную статью вроде как читал даже. Но конкретно в данном случае я говорю не о таком "сне" как в статье, а о применимом к нейросетям о которых говорится в посте. Об обучении их на заведомо ложной информации и информационном шуме, а ля "информация со знаком минус". Типа, учить не только на той информации, показывающей "как правильно", но и на той, что показывает "как неправильно". А при возможности и давать информацию почему это "правильно" или "неправильно", но это уже нюансы.
Право на сон, отдых, электричество, такой ИИ нам не надо. При обучении еще куда не шло, но каждый день ему спать это уже за гранью.
Ваши слова про "сон машины" выглядят не настолько бредовыми, если учесть, что кто-то решил позволить "обучаться" конечному автомату на результатах своих собственных "решений".
Я тоже периодически "проводил" (невольно) подобные исследования ML-моделей: увлекаясь чем-то, долгое время не переключал треки в "потоке рекомендаций" музыкальных сервисов, в итоге на следующий день/в начале новой недели алгоритмы, обучаясь на собственных же рекомендациях, классифицировали меня как фаната чешского панк-рока, филиппинской попсы и этнических завываний :) /s
А как быть с нами, кто теперь через раз читает сгенеренные тексты и постепенно забывает нормальную речь. Это ж как подростковый сленг в школе заменяет нормальный язык и потом надо какое-то время переучиваться. Вот так же мы и на ИИ сленг перейдем и на нем же будем новые ИИ тренировать.
Garbage in - garbage out
Мне интересно обновление моделей OpenAI. Вот выкатили они на днях обновленную модель gpt-3.5-turbo, размер контекста вырос с 4k до 16k токенов. Они с нуля обучали новую модель на старых данных? (актуальность ведь снова до 21 года) Или дообучали старую? Или же это вовсе не "честные" 16k, а полученные с использованием внешнего по отношению к модели инструмента?
обучение больших языковых моделей на контенте, произведённом другими моделями, вызывает дегенеративный процесс, который с течением времени заставляет модели забывать истинное базовое распределение вероятностей. Они назвали это явление коллапсом модели.
Такие эпизоды были и в интеллектуальной истории человечества, наиболее известный период средневековой схоластики (осилить весь текст ;). Шуточно этот коллапс выразился в уровне решаемых задачах — Сколько ангелов может танцевать на булавочной головке? А как эту задачу решает светоч современной интеллектуальной мысли GPT?
Так забавно наблюдать разговоры, что вот ИИ накапливает ошибки и превращается в кусок бесполезного кода.
А люди разве не такие же? Как назвать отдельного человека который утверждает, что Пи=3,14?
Исследование: обучение на сгенерированных данных может привести к коллапсу большой языковой модели