Comments 3
После отрубания головы модель компенсировала потерю ростом в нижней чакре. Дамы были в восторге!
Безумно крутой эксперимент
Вы получили аналог Reservoir Computing моделей (точнее семейства Attention-Enhanced RC и Liquid State Machine (LSM) и Physical Reservoir Computing и Echo State Network (ESN) ). Это, то о чем пишет в статье ниже
https://habr.com/ru/articles/1028548/
Фактически вы получил тоже самое (только через веса attention). У этих моделей интересный подход, но свои ограничения.

Что конкретно? Это фиксированная нелинейная динамическая система, где обучается только outputs. В ней есть некоторый фиксированный резервуар, который инициализирован случайным способом. Обучается только выход (линейный слой или MLP).
Есть разновидности с Attention. Система после обучения выдает осмысленный текст.
Проблема этих систем в не оптимальности, что-то вроде "мы хотим обучаемую динамику, но не хотим её обучать". Они плохо прогнозируют при наличии шума, разной температуре, плохая стабильность, и так далее.
Проклятие адаптивности: почему живучесть нейросетей ваш главный враг (и как я случайно ампутировал трансформер)