Pull to refresh

Comments 5

Очень крутой и, главное, своевременный подход. Поразительно, как чисто архитектурное решение — Tucker-факторизация и заморозка ядра — позволяет добиться забывания < 1 % при добавлении всего пары десятков параметров.
Этот материал отлично ложится в канву глобального тренда на Lean Engineering. Сегодня вопрос уже не в том, как бесконечно наращивать мощности, а в том — на каких условиях и какой ценой для планеты это делается. ИИ перестал быть просто кодом — это новая форма тяжёлой индустрии. Исследования VU Amsterdam показывают, что по энергопотреблению отрасль уже обгоняет майнинг и даже целые страны.
Бездумно внедряя избыточные модели и тратя ресурсы на бесконечные переобучения там, где может сработать элегантная заморозка ядра (FCD), мы напрямую вносим вклад в те самые гигаватт-часы и миллиарды литров воды на охлаждение.
Подходы вроде Frozen Core Decomposition хорошо демонстрируют, что технологии могут и должны усиливать интеллект, а не только нагрузку на экологию. Эффективность архитектуры сегодня — это уже не просто экономия памяти ради быстродействия, а вопрос нового социального договора и ответственности инженеров за ресурсы планеты.

Да энергии потребляет не мало, за время тестирования не на самых больших моделях можно было несколько яишниц пожарить ) примерно 4 дня тестов чтобы все проверить, сравнить улучшить и выложить в удобном для понимания виде

🙂 С яичницей отличный бенчмарк, наглядный и честный.

И как раз хорошо показывает, что даже «не самые большие модели» уже имеют вполне осязаемую цену по ресурсам и времени.

Мне кажется, в этом и ценность вашего подхода: FCD — это не попытка сделать «бесплатно», а способ осознанно работать с ценой изменений. Когда ты заранее знаешь, что добавление новой задачи — это не полный цикл переобучения, а контролируемое вмешательство, меняется сама инженерная культура.

Интересно было бы дальше посмотреть, где у такого подхода появляется естественный предел:

— по росту reasoning-нагрузки,

— по накоплению «частных» адаптаций,

— по времени жизни замороженного ядра.

Возможно, как раз на этих границах и начнётся следующий виток архитектур — уже не как оптимизация, а как переосмысление.

по логике, часть проблем вытекающих из метода фиксится увеличением датасета? если очень упрощать - замораживаются признаки, выявленные при первой задаче, из-за чего приходит неизбежная необходимость стремить набор решений задачи в датасете к максимально полному набору допустимых значений решения в целом

интересно, где такое на практике используете - неужто в пхп панели для амнезии?)

Да, богатый датасет первой задачи создаёт более универсальный "базис признаков", что улучшает ёмкость для последующих задач, в php панели не используется ) , это для моего другого проекта - облачного AI аватара стартует как обученный базовый персонаж, можно натянуть свои скины (консультант/психолог/секретарь) доучивается на месте, кроме этого учится в реальном времени через микрофон и камеру (video/audio feedback) Персонализируется для каждой компании под их специфику.

Sign up to leave a comment.

Articles