
Исследователь и ютубер Джефф Гирлинг получил от Apple на тестирование кластер из четырёх компьютеров Mac Studio на чипе M3 Ultra, чтобы опробовать эту технологию в деле. Цель — запустить несколько Mac с одной гигантской связкой памяти, что критически важно для работы с огромными AI‑моделями.

Общая стоимость стенда, объединяющего 1,5 ТБ «объединённой памяти» (Unified Memory), приближается к 40 000 $. Два нижних компьютера в стойке обладают 512 ГБ RAM и 32 процессорными ядрами (по 11 699 $ каждый), а два верхних — 256 ГБ (по 8 099 $ каждый).
Для размещения кластера Джефф использовал 4-местную мини‑стойку DeskPi, которую ему прислали как раз вовремя. Готовых решений для монтажа Mac Studio в 10-дюймовые стойки практически нет, поэтому компьютеры он просто разместил на полках.
Сетевые возможности вызвали вопросы: хотя высокоскоростное соединение 50–60 Гбит/с обеспечивается через Thunderbolt, кабели за 70 $ плохо фиксируются в разъёмах, а Thunderbolt‑коммутаторов не существует в природе. Это означает, что для создания кластера каждый Mac должен быть соединён с каждым, что приводит к паутине проводов. Технически сейчас можно объединить только до четырёх Mac.

После настройки кластера последовали тесты. При запуске собственного бенчмарка HPL на четырёх узлах удалось достичь 3,7 терафлопса, что меньше 4-кратного ускорения, но, учитывая разный объём RAM у верхних и нижних машин, результат предсказуем.

Главным инструментом для тестирования RDMA стало открытое ПО Exo 1.0. После активации в режиме восстановления на каждом Mac (rdma_ctl enable) появилась возможность запускать модели, которые не помещаются в память одного компьютера, например Kimi K2 Thinking — объёмом более 600 ГБ.

Ключевое отличие Exo от текущей реализации распределённых вычислений в llama.cpp (использующей RPC‑метод) — в эффективности: в то время как производительность llama.cpp падает с добавлением узлов, Exo, используя RDMA, — растёт. Например, для модели Qwen3 235B A22B кластер из четырёх Mac Studio с Exo выдавал 31,9 токена в секунду.

На DeepSeek v3.1 671B скорость генерации составила примерно столько же: 32,5 токена/с.

Модель Kimi K2 Thinking 1T A32B показала 28,3 токена/с.

В итоге 4-кластерный Mac Studio, запущенный со средой Exo и памятью в режиме RDMA, показал в среднем удвоенную скорость генерации по сравнению с llama.cpp.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
