Комментарии 8
Схлопывание или коллапс модели
Вы бы могли привести примеры таких деградаций?
Если брать примеры, которые мы сразу заметим, то это снижение разнообразия и оригинальности ответов.
При обучении LLM на данных, сгенерированных другой моделью, она может начать воспроизводить одни и те же шаблонные фразы или конструкции. Все происходит, потому что модели при генерации ответа склонны формировать наиболее вероятные или часто встречающиеся последовательности слов из своих обучающих данных. В результате новая модель теряет способность создавать уникальные или нестандартные ответы.
Пример: если модель обучается на текстах, где часто встречается фраза “ как говорится…”, она может начать слишком часто использовать эту фразу в своих ответах, даже когда это неуместно.
Еще один хороший пример, увеличение и последующее искажение природной информации
Ошибки или искажения, присутствующие в данных исходной модели, могут передаваться и усиливаться при обучении новой модели. Это приводит к тому, что искажение становится более выраженным, а модель начинает генерировать контент с большим количеством ошибок.
Пример: если исходная модель ошибочно связывает определенные исторические факты или даты, которые по факту не имеет связи, новая модель будет повторять эти ошибки и может даже начать распространять их на другие связанные или нет, темы прямо как в старой доброй игре сломанный телефон)
Спасибо за интересный вопрос!
Вообще темы близкие к классическим проблемам "недообучения" и "переобучения", но только всё это ещё и в динамике. Ну и ещё и на входе данные от других моделей когда, а не "из природы". Плюс "дрифт данных". В общем, все те же проблемы, что у обычных моделей машинного обучения, не нейросетевых, только на максималках. )
Да, вы правы, эти проблемы действительно схожи с классическими вопросами недообучения, переобучения и дрифта данных. Разница в масштабах и подходах к их обучению.
Разбирая на статье, когда большие модели, обучаясь на больших массивах данных, сгенерированных другими моделями, накапливали все большее количество ошибок и искажений, все приводило к тому, что модели начинали улавливать и усиливать неточности предыдущих поколений, что схоже с эффектом переобучения, но все усложняется с динамичностью данных и масштабностью моделей и тех же данных.
Дрифт также играет существенную роль, особенно когда данные постоянно обновляются и изменяются. В обычных моделях эти проблемы более широко изучены, говоря про большие модели, тут требуется уже новые подходы и методы для эффективного решения, опять же из-за уникальных особенностей и масштабах.
Спасибо за интересный комментарий!
Можно попробовать преодолеть данное ограничение с помощью "гибридных" моделей, микса из обычного обучения и обучения с подкреплением. В штатном режиме - работает как обычная LLM, как только пошла расти доля глюков, галлюцинаций, ошибок и т.п. - в режим RL до восстановления метрик. И да, все таки без "тренера", а точнее "ментора" нейросетей, то есть человека пока не обойтись. Как более усложненный вариант - порезать одну LLM на несколько малых и обучать/дообучать и RL-лить каждую из них по мере появления ошибок определенного типа. И неплохой, но дорогой вариант - создать "библиотеку гарантированных эталонов" - данных, не подвергнутых обработке или сгенерированных нейросетями.
Спасибо за ваш комментарий! Предложения действительно интересные.
Думаю интересно было бы попробовать комбинирование этих методов с другими стратегиями, например использования ассемблирование моделей (похоже на разрезать модели, только там идет не однотипная модель, а несколько разных , обученных на разных наборах данных или с разными архитектурами) + обучение с подкреплением (RL) + мониторинг ментора. В сумме получаем многоуровневую систему, где разные методы дополняют друг друга.
Я думаю, эта "болячка" и не только, легко лечиться с помощью PANN/PANC технологии. Там принцип обучения конечно другой, но более быстрый, эффективный, надежный и более доступный.
Спасибо за ваш комментарий! Технология PANN и в правду звучит перспективно на фоне современных проблем больших моделей.
Интересно было бы посмотреть на готовые решения с этой технологией. Насколько меньше требуется массивов обучающих данных, как она решает проблему накопления ошибок, как будет выглядеть архитектура у такой модели.
Спасибо за интересную тему для размышления!
Деменция LLM: как языковые модели забывают, зачем учились, и что из этого следует