Эта работа описывает методику отслеживания непреднамеренного наследования паттернов между последовательными версиями языковых моделей.
Проверяем гипотезу, что при обучении новых моделей на предыдущих версиях (распространённая практика ради эффективности) они наследуют не только явные знания, но и «способы мышления», которые ускользают от привычных фильтров и процедур оценки.
Основные элементы:
Двухконтурный анализ
• Внутренний: сравнение геометрии представлений по cosine similarity и Centered Kernel Alignment (CKA) в выровненных пространствах признаков.
• Внешний: оценка переноса фиксированной классификационной «головы» (логистическая регрессия), обученной на одной версии и применённой к другой без дообучения.
Обнаружение событий
• O-TRACE: многомасштабное EMA + ζ-ядро для фиксации согласованных колебаний метрик.
• Импульсы: пороговая детекция резких падений в Δcos и ΔCKA.
Эксперименты на реальных моделях
• Эволюция семейства GPT-2: distilgpt2 → gpt2 → gpt2-medium.
• Переход между архитектурами: GPT-2 → DeepSeek-Coder-1.3B.
• Датасет: SST-2 (анализ тональности).
Ключевые выводы
• Геометрические сдвиги (падения CKA) могут быть значительными, даже когда cosine similarity остаётся высокой.
• Перенос фиксированных «голов» часто сохраняется при смене архитектуры.
• Самые сильные импульсы наблюдаются на межархитектурных переходах.
• «Стиль» и «смысл» могут расходиться независимо в процессе эволюции.
Эволюция моделей включает не только плановые улучшения, но и неконтролируемый перенос паттернов. Это важно для безопасности ИИ: модели могут наследовать и усиливать нежелательные предвзятости и формы поведения, обходящие стандартные фильтры.
Структура (3 папки):
• docs/ — два PDF с полным текстом на русском и английском.
• code/ — code_real_GPT2family.txt: одна ячейка для Colab. Загружает SST-2, извлекает признаки (mean-pool last_hidden_state), выравнивает размерности методом Procrustes, считает cosine/CKA и перенос логистической «головы», сохраняет отчёты (CSV, JSON, TXT).
Код и полный файл с объяснением методологии (на русском) доступны по
ссылке: https://zenodo.org/records/17926666

