Бывший разработчик Microsoft Дэйв Пламмер показал выполнение базовых принципов обучения современных языковых моделей на ЭВМ PDP-11, выпущенной 47 лет назад. Центральный процессор работает на тактовой частоте 6 МГц, а объем доступной оперативной памяти ограничен 64 КБ, но несмотря на эти рамки, на ПК была запущена модель, полностью написанная на ассемблере для архитектуры столь старой машины.
Суть эксперимента заключалась не в решении сложной когнитивной задачи, а в демонстрации «анатомии обучения». Перед моделью стояла цель — научиться выстраивать обратную последовательность из восьми цифр, алгоритм должен выявить структурное правило зависимости позиции выходного токена от входного, что является упрощенной иллюстрацией работы механизма внимания в больших языковых моделях (LLM).
Для адаптации алгоритма к столь ограниченным ресурсам потребовался ряд инженерных компромиссов. Итоговая модель содержит всего 1 216 параметров, а вычисления производятся с фиксированной точностью. Каждый такт процессора был оптимизирован для выполнения матричных операций без использования библиотек вроде PyTorch или CUDA. По данным видеозаписи эксперимента, процесс обучения занял примерно 350 итераций. На компьютере PDP-11/44, оснащённом платой кэш‑памяти, достижение 100% точности выполнения задачи по реверсированию последовательности потребовало около 3,5 минут. Для сравнения, более ранние версии кода на на аналогичном «железе» требовали для полного цикла обучения более шести часов.
Пламмер отдельно подчёркивает, что демонстрация не является попыткой принизить современные достижения в области ИИ. Напротив, она призвана показать, что принципиальная схема работы нейросети остаётся прежней и воспроизводимой даже на архаичном оборудовании. «Эта старая машина не мыслит в каком‑то мистическом смысле. Она просто выполняет арифметические действия, чтобы обновить несколько тысяч тщательно сохранённых чисел. В этом вся суть», — комментирует разработчик. По его мнению, ключевое различие между такой моделью и современными моделями уровня GPT заключается исключительно в масштабе: количестве параметров, объёме данных и доступной вычислительной мощности.