Обновить

Комментарии 9

отличный выбор, но скоро уже должны выйти новые устройства на м5, в том числе и мак студии, единственное рекомендовал бы как минимум следить за температурой, а лучше свои кривые настроить для вентиляторов, бывали у людей случаи отвала чипов, а маки любят тишину хоть и горячую

Спасибо!

Думаю, на год-два мне хватит. А там посмотрим, куда выведет тренд с мини AI станциями.

Сама по себе студия это очень мощная рабочая станция под широкий спектр задач. Плюс, в статье я убрал это как перегруз информацией, но она очень удобна в бытовом плане: компактная; выглядит красиво; экономична.

В общем, если она морально устареет для AI, то для других задач ее хватит еще очень на долго.

На вторичном рынке, кстати, до сих пор M2 продают. И я бы не назвал цену бросовой.

Поздравляю с покупкой!

с учетом того, что цены на любую RAM (в том числе ту, что в SSD) только растут, покупка возможно даже инвестиционная :)

Интересно будет почитать про практический опыт применимости

Модель для сложных задач и длинных ответов: mlx-community/Qwen2.5-72B-Instruct-4bit (~12 токен/с).

Qwen2.5 устарела на ~1.5 года, даже Qwen3 уже не особо актуальна. Переходите на новые более качественные модели, ваша машина легко потянет современные хорошие MoE-модели, которые в разы быстрее чем Qwen2.5-72B и, что важнее, намного качественнее.

Из современных моделей к 128Гб подойдут: OpenAI GPT-OSS-120B, GLM-4.5-Air 110B, Minimax M2.1 229B (в динамическом квантовании UD gguf, mlx не влезет в 128гб). Малые версии тоже есть, например, Qwen3-30B-A3B-2507 и остальные из современного списка, при этом с того момента успели выйти хорошие новинки.

Динамическое квантование от Unsloth позволяет опустится ниже 4-бит квантования, при этом сохраняя достаточно хорошее качество, так что можно запустить и Qwen3-235B-A22B, и свежий Minimax M2.1 229B.

Бенчмарк программирования Aider Polyglot для 1, 2, 3-битного динамического квантования UD:

UD-Q3_K_XL почти не отличается от оригинала, UD-Q2_K_XL хуже на 13%, UD-Q1_K_XL хуже на 30%
UD-Q3_K_XL почти не отличается от оригинала, UD-Q2_K_XL хуже на 13%, UD-Q1_K_XL хуже на 30%

Ноутбук у меня вполне бодрый (i9, 64 GB RAM, RTX 4070)
Идея была простая: докупить eGPU (а лучше - несколько) и получить относительно мощный сетап без покупки отдельной рабочей станции

Вообще, этот ноутбук позволяет запускать на хорошей скорости GPT-OSS-120B или GLM-4.5-Air и без eGPU, 64Гб RAM хватит, а через 4070 будет приличное ускорение для MoE.

Подробнее как запускать такое на ноутбуке или ПК где достаточно RAM и есть немного VRAM:
Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t/s. Вам нужна RAM, а не VRAM.

Спасибо! Прислушаюсь.

Да, у Unsloth очень хорошие модели получаются, мне нравятся их GGUF которые загружаю в llama.cpp. Там всё довольно сурово оптимизировано по памяти, можно даже комбинированный инференс CPU+GPU делать. Сейчас хочу себе вторую GPU купить пока они совсем не подорожали...

Интересная новогодняя история!..

Пара вопросов:

1) зачем такая большая модель? А если модель меньших размеров (30b) + файнтюнинг + RAG?

2) это всё же проект по работе или личный? Изначально речь шла о том, что нельзя доверять данные третьим лицам, среди которых ещё и агрегаторы...

Прям рождественская история :-)

Спасибо за интересный рассказ, читается на одном дыхании :-)

Согласен со многими выводами, локальный инференс - крутая вещь! Мне лично очень нравится пробовать его для разных личных задач и без всяких месячных подписок со скачущими ценами и пр. Если понадобится что-то тяжёлое то да, можно обратиться к провайдерам, а вот поизучать - самое то

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации