Оптимизация пластичности ИИ: техники и инструменты для разработчиков / Хабр

Привет, на связи Юля Рогозина, аналитик бизнес-процессов Шерпа Роботикс. Сегодня я перевела для вас статью, тема которой очень важна, во-первых, при создании моделей ИИ, и, как следствие, при разработке нейросотрудников. Речь пойдет о пластичности - способности модели ИИ адаптироваться к новой информации. В статье вы найдете несколько методов повышения пластичности, которые будут полезны разработчикам ИИ.

Модели глубокого обучения, включая крупные языковые модели вроде ChatGPT, Gemini и Claude, кажутся мощными инструментами, обученными на обширных объемах данных. Однако у них есть свои ограничения. Одним из таких ограничений является момент "обрезки" обучающих данных — это означает, что модели не знают актуальной информации после определенной даты. Эти ограничения являются результатом компромисса между необходимостью сохранять стабильность (способность модели сохранять ранее усвоенные знания) и так называемой пластичностью, то есть способностью модели адаптироваться и обучаться на новых данных.

Этот компромисс можно выразить так: модели ИИ, ориентированные на стабильность, не могут усваивать новую информацию, в то время как эксперты отмечают, что постоянное включение новых данных обычно приводит к значительному снижению производительности и утрате пластичности модели.

"Потеря пластичности — это феномен, когда модели ИИ теряют способность усваивать новые знания", — объясняет Шибханш Дохаре, исследователь Университета Альберты и один из авторов недавнего исследования, посвященного снижению потери пластичности у ИИ. — "Любая система, которая не может учить новые вещи, по определению не является системой непрерывного обучения. Непрерывное обучение невозможно без сохранения пластичности".

Для того чтобы обеспечить стабильность и точность, большинство моделей глубокого обучения специализируются на решении конкретной задачи, обучаясь на одном наборе данных, после чего обновления больше не происходят. Это, конечно, может вызвать проблемы.

"Пластичность жизненно важна, потому что во многих приложениях всегда появляются новые данные, и система должна учиться на этих данных и адаптироваться к изменениям в потоке данных."– Шибханш Дохаре, исследователь Университета Альберты

С точки зрения применения, пластичность критична, потому что во многих областях всегда появляются новые данные - система должна учиться и адаптироваться к изменениям. Если ИИ-система теряет способность усваивать новую информацию, она со временем устаревает.

Техники оптимизации пластичности

Для минимизации потери пластичности существуют несколько проверенных инструментов и техник, которые могут быть полезны разработчикам ИИ. Рассмотрим наиболее распространенные подходы и некоторые перспективные решения.

Регуляризация параметров

Одним из эффективных методов является регуляризация, которая помогает сохранить веса модели близкими к начальным значениям. Особенно популярной является регуляризация L2, которая добавляет штрафной член в функцию потерь (loss function), отслеживающую ошибку предсказания модели. Когда предсказания модели точны, ошибка мала, а когда они неточные, штраф пропорционален отклонению весов, влияющих на предыдущие задачи.

Shrink-and-Perturb

Этот метод был предложен в статье 2020 года. Суть подхода заключается в том, чтобы сначала уменьшить все веса модели, стремя их к нулю, а затем добавить случайный шум. Веса уменьшаются умножением на значение между 0 и 1, после чего добавляется небольшое случайное значение, распределенное по Гауссу. Этот метод помогает сохранить способность модели адаптироваться, несмотря на смещение весов.

Dropout

Dropout — это техника, направленная на предотвращение зависимости скрытых единиц нейронной сети друг от друга при генерации точных предсказаний. Суть в том, что случайным образом с некоторой вероятностью скрытые нейроны "выключаются" (их значение становится нулевым). Это делает модель более устойчивой к шуму и новым данным, так как нейроны не могут полагаться на другие нейроны, чтобы достичь высоких результатов.

Batch Normalization

Этот метод улучшает оптимизацию и ускоряет обучение нейронных сетей, а также решает проблему "мертвых нейронов" (нейронов, которые всегда выдают один и тот же результат, обычно ноль, независимо от входных данных). Нормализация по батчам внедряется между двумя скрытыми слоями, где данные из первого слоя обрабатываются пакета��и, нормализуются и рескалируются перед передачей на следующий слой. Это позволяет улучшить сходимость сети и повысить её способность к обучению на новых данных.

Оптимизатор ADAM

Оптимизатор ADAM (от англ. Adaptive Moment Estimation) — это итеративный алгоритм оптимизации, предназначенный для минимизации функции потерь в процессе обучения. Он является разновидностью стохастического градиентного спуска, но действует как своего рода «умный помощник», который постоянно корректирует параметры нейронной сети, стимулируя её к улучшению производительности. Основная идея ADAM заключается в адаптивной настройке шагов обучения для каждого параметра, что помогает ускорить процесс сходимости и добиться более стабильного обучения, особенно при сложных задачах с большим количеством параметров.

Непрерывное обратное распространение

«Непрерывное обратное распространение» или continual backprop — это новая техника, являющаяся расширением классического алгоритма обратного распространения ошибки. В отличие от традиционного подхода, она включает избирательную переинициализацию скрытых нейронов с низкой полезностью, что напоминает стохастический градиентный спуск. Важно, что данный метод решает проблему потери пластичности нейронной сети, что часто является препятствием для длительного и непрерывного обучения. Как утверждает один из авторов алгоритма, Доар (Dohare), «непрерывное обратное распространение преодолевает потерю пластичности во всех тестируемых случаях». Недавние результаты показывают, что данный метод может стать одним из самых эффективных способов борьбы с потерей пластичности, возможно, позволяя ИИ-моделям обучаться бесконечно долго без необходимости в переобучении.

Градиентный спуск с возмущениями, основанный на полезности (UPGD)

Еще одна недавняя разработка — это метод Utility-Based Perturbed Gradient Descent (UPGD), который сочетает обновления градиентов с небольшими возмущениями. Основная идея заключается в том, чтобы применять минимальные изменения к более «полезным» нейронам сети, чтобы защитить их от катастрофического забывания, и наоборот, вносить изменения в менее полезные нейроны, таким образом восстанавливая их пластичность.

Хотя катастрофическое забывание и потеря пластичности обычно рассматриваются как отдельные, но взаимосвязанные проблемы, UPGD решает обе из них одновременно. Как объясняет автор алгоритма, Мухаммед Эльсайед, исследователь Университета Альберты: «Мы взяли на себя задачу решения проблемы потери пластичности и катастрофического забывания с помощью одного алгоритма. Мы используем простую механику для идентификации полезных параметров и защиты их от резких изменений, чтобы предотвратить забывание важной информации и, таким образом, бороться с катастрофическим забыванием. С другой стороны, мы определяем наименее полезные параметры и изменяем их немного, что способствует улучшению пластичности, поскольку может быть сложно изменить эти параметры, если система испытывает потерю пластичности». Исследования показали, что такой подход может эффективно решать обе проблемы непрерывного обучения.

Проблема потери пластичности в моделях ИИ является важным вызовом, поскольку для непрерывного обучения и адаптации машин к изменениям в среде необходимо, чтобы они могли продолжать учиться без необходимости постоянного и дорогостоящего переобучения. Разработка методов, которые способны эффективно решать эту задачу, — это ключ к созданию гибких и долгосрочно обучающихся моделей ИИ.

Комментарий

При создании нашей платформы для создания копилотов в закрытом контуре Sherpa AI Server мы пробовали дообучать множество различных моделей ИИ: Mistral, Mixtral, OpenChat, Llama2, Llama3 и др. При этом наши специалисты сталкивались с проблемой деградации моделей.

Для нас, как для компании, специализирующейся на разработке умных чат-ботов по конфиденциальным данным компаний, пластичность моделей очень важна.

В будущем копилоты появятся в каждой компании. И встанет вопрос их развития внутри бизнес-процессов. И вот тут, скорее всего, потребуется много времени и ресурсов на дообучение, если их способность усваивать новые знания не будет усовершенствована.

Оптимизация пластичности ИИ: техники и инструменты для разработчиков

Публикации

Информация