Комментарии 9
отличный выбор, но скоро уже должны выйти новые устройства на м5, в том числе и мак студии, единственное рекомендовал бы как минимум следить за температурой, а лучше свои кривые настроить для вентиляторов, бывали у людей случаи отвала чипов, а маки любят тишину хоть и горячую
Спасибо!
Думаю, на год-два мне хватит. А там посмотрим, куда выведет тренд с мини AI станциями.
Сама по себе студия это очень мощная рабочая станция под широкий спектр задач. Плюс, в статье я убрал это как перегруз информацией, но она очень удобна в бытовом плане: компактная; выглядит красиво; экономична.
В общем, если она морально устареет для AI, то для других задач ее хватит еще очень на долго.
На вторичном рынке, кстати, до сих пор M2 продают. И я бы не назвал цену бросовой.
Поздравляю с покупкой!
с учетом того, что цены на любую RAM (в том числе ту, что в SSD) только растут, покупка возможно даже инвестиционная :)
Интересно будет почитать про практический опыт применимости
Модель для сложных задач и длинных ответов: mlx-community/Qwen2.5-72B-Instruct-4bit (~12 токен/с).
Qwen2.5 устарела на ~1.5 года, даже Qwen3 уже не особо актуальна. Переходите на новые более качественные модели, ваша машина легко потянет современные хорошие MoE-модели, которые в разы быстрее чем Qwen2.5-72B и, что важнее, намного качественнее.
Из современных моделей к 128Гб подойдут: OpenAI GPT-OSS-120B, GLM-4.5-Air 110B, Minimax M2.1 229B (в динамическом квантовании UD gguf, mlx не влезет в 128гб). Малые версии тоже есть, например, Qwen3-30B-A3B-2507 и остальные из современного списка, при этом с того момента успели выйти хорошие новинки.
Динамическое квантование от Unsloth позволяет опустится ниже 4-бит квантования, при этом сохраняя достаточно хорошее качество, так что можно запустить и Qwen3-235B-A22B, и свежий Minimax M2.1 229B.
Бенчмарк программирования Aider Polyglot для 1, 2, 3-битного динамического квантования UD:

Ноутбук у меня вполне бодрый (i9, 64 GB RAM, RTX 4070)
Идея была простая: докупить eGPU (а лучше - несколько) и получить относительно мощный сетап без покупки отдельной рабочей станции
Вообще, этот ноутбук позволяет запускать на хорошей скорости GPT-OSS-120B или GLM-4.5-Air и без eGPU, 64Гб RAM хватит, а через 4070 будет приличное ускорение для MoE.
Подробнее как запускать такое на ноутбуке или ПК где достаточно RAM и есть немного VRAM:
Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM.
Интересная новогодняя история!..
Пара вопросов:
1) зачем такая большая модель? А если модель меньших размеров (30b) + файнтюнинг + RAG?
2) это всё же проект по работе или личный? Изначально речь шла о том, что нельзя доверять данные третьим лицам, среди которых ещё и агрегаторы...
Прям рождественская история :-)
Спасибо за интересный рассказ, читается на одном дыхании :-)
Согласен со многими выводами, локальный инференс - крутая вещь! Мне лично очень нравится пробовать его для разных личных задач и без всяких месячных подписок со скачущими ценами и пр. Если понадобится что-то тяжёлое то да, можно обратиться к провайдерам, а вот поизучать - самое то

Ну, LLM, погоди…