Привет, Habr! Я хочу поделиться своим исследовательским проектом - репозиторием memory-is-all-you-need. Это не просто код, а попытка переосмыслить роль памяти в нейронных сетях, вдохновлённая знаменитой статьёй "Attention Is All You Need". Если трансформеры сделали революцию в обработке последовательностей, то почему бы не сделать то же самое с памятью? Я реализовал архитектуру, где память не пассивный буфер, а активная, самоорганизующаяся система, способная к "сновидениям" и ассоциативному извлечению из памяти. В этой статье я расскажу о сути проекта, его реализации и экспериментах. Если вам интересен когнитивный ИИ, непрерывное обучение или альтернативы scaling'у LLM - читайте дальше!


Я не претендую на то, что мой проект - 100% панацея, надеюсь на адекватную критику и фидбэк. Статья ориентирована на то, чтобы привлечь внимание исследователей к этой теме, найти единомышленников, которым тоже будет интересно исследовать память в трансформерах :)


Мотивация: Почему память - это всё, что нужно?

В современных моделях память - это всего лишь контекстное окно: пассивный буфер токенов, который быстро забывается при длинных последовательностях. Проблемы очевидны:

  • Забывание: Долгосрочные зависимости теряются.

  • Масштабирование: Увеличение контекста (до миллионов токенов) требует огромных ресурсов, но не решает проблему абстракции.

  • Пассивность: Модели не "размышляют" над воспоминаниями, не консолидируют их, как мозг во сне.

Мой подход: "Memory Is All You Need" - память как активная инфраструктура. Вдохновлено нейронаукой (правило Хебба: "neurons that fire together, wire together", STDP - Spike-Timing-Dependent Plasticity) и непрерывным обучением. Цель - создать автономные системы, которые учатся непрерывно, без катастрофического забывания (проблема, когда нейросеть после обучения на новой задаче полностью теряет знания по предыдущим).

Философия проекта: "Intelligence is not defined by how much you can remember, but by what you choose not to forget."

Архитектура: Как работает активная память

Ключ - MemNet: комбинация трансформера-контроллера и многослойного банка памяти (MultiHeadMemoryBank).

Основные компоненты

  1. Hebbian Graph Memory:

    1. Память как дифференцируемый граф: слоты (vectors) связаны матрицей смежности (adjacency matrix).

    2. Обновление связей по STDP: если слоты активируются последовательно, связь усиливается.

    3. Spreading activation: активация "распространяется" по графу для ассоциативного recall (как в мозге).

  2. Neural Memory Synthesis ("Dreaming"):

    1. Периодические фазы "сновидений": self-attention над слотами памяти без внешнего ввода.

    2. Это консолидирует знания, обнаруживает скрытые связи и абстрагирует представления.

    3. Реализовано как маленький трансформер (MemorySynthesizer).

  3. Meta-Cognitive Addressing:

    1. Динамическая политика чтения: смешивает top-K (точность), uniform (контекст) и random (эксплорация).

    2. Meta-gate (MLP) решает, какую стратегию использовать на основе запроса.

  4. Hallucination-based Learning:

    1. Модель "галлюцинирует" реконструкцию входа из памяти для верификации.

    2. Композитная loss функция: task_loss + hallucination_MSE + sparsity_entropy + utilization_entropy.

  5. Цикл работы:

    1. Perception: Энкодер обрабатывает вход.

    2. Associative Recall: Чтение с spreading activation.

    3. Consolidation: Запись + обновление графа + decay.

    4. Dreaming: Периодический синтез.

Это позволяет модели "выбирать, что не забыть" - фокус на релевантных воспоминаниях.

Реализация: Что внутри репозитория

Репозиторий - это Python-проект на PyTorch, с MIT-лицензией. Структура простая, но модульная для экспериментов.

  • config.py: Гиперпараметры (slots=128, heads=8, decay_rate=0.99 и т.д.).

  • model/:

    • memnet.py: Основной класс MemNet.

    • memory_bank.py: MultiHeadMemoryBank с read/write, synthesize, update_hebbian_graph.

    • controller.py: TransformerController для интеграции с памятью.

  • data/: Синтетические датасеты (CopyDataset, AssociativeRecall, Omniglot).

  • train.py: Обучение с композитной loss, mixed precision, визуализацией.

  • utils/visualize.py: Heatmaps внимания, кривые выживания слотов.

  • demo_comparison.ipynb: Интерактивный ноутбук для сравнения с baseline (см. ниже эксперименты).

Эксперименты: Доказательства в деле

Я протестировал на Copy Task: модель видит последовательность из 10 токенов, задержку в 100 токенов и должна скопировать исходную. Это классический тест на долгосрочные зависимости.

  • Baseline (стандартный трансформер): Достигает ~22% точности - плато с первых эпох. Контекст размывается.

  • MemNet: Достигает 100% точности после 17-20 эпох. Колебания - из-за aux losses и графа, но в итоге идеально.

Сравнение точности Baseline-трансформера и MemNet на Copy Task
Сравнение точности Baseline-трансформера и MemNet на Copy Task

Типа заключение

Этот проект - шаг к cognitive AI: от scaling'а к интеллектуальной памяти. Он экспериментальный, но модульный - легко расширять (добавьте задачи, улучшите граф).

Призыв к действию: Если вам интересно - поставьте ⭐ на GitHub, форкните, внесите вклад (тесты, датасеты, бенчмарки), запустите demo_comparison.ipynb в Colab для тестов.

Что думаете, Habr? Готовы к новой эре памяти в AI? Комментарии приветствуются! 🚀

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.
Стоит ли дальше развивать эту тему и писать публикации?
85.71%Да, тема интересная и актуальная6
14.29%Нет, всё фигня, переделывай1
Проголосовали 7 пользователей. Воздержались 2 пользователя.