Comments 39
Каких только оправданий не придумаешь, чтобы объяснить жене, зачем потратил столько денег на покупку дорогой видеокарты.
Я правильно понимаю, что локальные LLM должны постоянно дообучаться, в этом вопросе у облачных, видимо, преимущество? Или я что-то недопонимаю?
И те и другие могут добучаться только в том случае, если их кто-то дообучает )
Это я и имею ввиду )
Облачные дообучает вендор. Стало быть они будут всегда впереди?
Ну если в общем, то да. Облачная LLM это не только собственно LLM, но и сопутствующие сервисы (поиск в интернет, преобразование документов и автомтическое помещение их в промт, оптимизация системного промта, как минимум). В награду за всё это удобство пользователь шлёт информацию, которую ранее не доверял даже поисковикам.
Смотря чему. Облачные в общем случае обучают "всему", а локальную Вы можете обучить на тех знаниях, которые актуальны Вам. И, скажем, Шекспира или Толстого она в качестве текстов не обгонит, зато, например, в узких задачах вроде написания ответа на вопросы юзеров согласно знаниям в вашей внутренней базе знаний в компании - может всех за пояс заткнуть.
Вот и задача: сначала найти проблему, которую решаете, а потом решать, чем ее решать (в т.ч. хватит ли локальной модели). Локальная, с другой стороны, не засвечивает ваши данные облачному провайдеру - и хорошо если просто провайдеру, а не условным ЦРУ с АНБ.
Локальному провайдеру интернета при этом можно всё светить? И хорошо если просто провайдеру, а не...
Спасибо за проделанную работу, интересно было почитать, я не очень силен в теме , но что если разбивать задачу на несколько ПК у меня например есть пара лишних ноутов без дела
Есть грубое эмпирическое правило (не помню откуда оно взялось), что размер модели в миллиардах параметров примерно соответствует количеству гигабайт оперативной памяти машины, на которой ты хочешь эту модель запустить. То есть модель на 120 миллиардов параметров можно запустить на железе со 128 Гб оперативки.
Число параметров надо умножить на формат параметра.
Если модель имеет 120 миллиардов параметров, то запустить ее на железе со 128 ГБ оперативки возможно при формате FP8.
Для запуска с форматом FP32 (полная точность) требуемый объем оперативки составит 512 ГБ.
Ну... Nvidia 5090 32гб сейчас стоит 325тр в среднем. Может быть мак студио и дешевле получится. Интересно бы их сравнить - мак студио и PC, за те же деньги.
Просто прикрути 3090, а лучше 4090 48ГБ к своему мини пк и удвоишь производительность. Можно даже через м. 2 псие. Там будет 4х 4.0 псие, что вполне хватит. В видюху влезет контент и будет там шевелиться очень шустро, намного шустрее чем на маке. Если память останется на видео, то и для активных слоев, если модель МоЕ.
4090 это 300 тыс руб. Есть ли смысл связываться, если можно купить готовый комп под инференс моделей вплоть до 120 млрд. параметров за 200?
цены на 4090 на местной барахолке в переводе на ваши рубли:
60тыс
157тыс
174тыс
...
Mac Studio на M3 и M4 там нет.
Собственно поэтому и интересует сравнение со стандартным пк на видеокартах. Пусть даже это будет одна конфигурация для примера.
А если модель не влезает в видюху? Вот здесь есть тест gpt-oss-120b на компе RTX 5090 (32 GB VRAM) + Ryzen 9 9950X3D + 96 GB RAM. В три раза медленнее, чем получается на моём Strix Halo. На днях дополню пост, пожалуй.
Интересная статья. Сохранил. Пока только начинаю всем этим интересоваться.
Сейчас как раз ищу решение вопроса с видеопамятью.
Можете, пожалуйста, подсказать с одним вопросом?
Задача - запустить локально open source видео генераторы Wan и Huynyan, дообучить на своих наборах фото или мини-роликах.
И потом начать генерировать ролики. В максимально возможном качестве (720р)
Вопрос с памятью мне не совсем ясен.
Оба генератора в оригинале требуют 80 Гб видеопамяти (или около того).
Первые же форки на гитхабе у них (больше всего звезд Wan2GP) - это возможность запустить их на картах с небольшим объемом памяти.
За счет чего сделано такое резкое снижение требований? Более примитивные ролики будут?
Есть Nvidia 4070 с 12 GB.
Этого хватит для задачи?
На указанные в данной статье варианты денег, конечно, не хватит...
Посматриваю в сторону БУ карт. Например, старая Tesla P40 8-летней давность имеет 24 гб, но старая версия CUDA и нет тензорных ядер.
Имеет ли смысл для видео?
И можно ли смотреть в сторону AMD как более дешевый вариант? Или Intel B60 на 24 ГБ?
Бюджет не более 100 - 120 тыс.
Спасибо за оценку. Про генеративные модели не подскажу, к сожалению, не работал с ними.
GGUF. Сам запускаю в ComfyUI на 16 GB VRam (5060Ti) Вы не написали какой Wan. Wan 2.2 использует 2 модели, поэтому либо еще больше врам памяти, либо ждать. Использую 2.1, мне хватает, не для коммерческого использования.
На "Strix Halo" можно Линукс поставить? LLM и Windows ... не понимаю.
ЗЫ. Перечитал "Ваш выбор", у него unified ram, как у Mac? Т.е. до 64 Гб VRAM?
VRAM до 96 Гб. Судя по ссылке с тестами LLM на Strix Halo, Linux можно на него поставить. Приведенные тесты делались на Linux.
windows точно станет, потому что есть gpd win 5 на том же проце и с windows 11 на борту.
Кстати как-то подозрительно - портативка на проце, который в этой статье заявлен как "проц для ИИ вычислений"
На "Strix Halo" желательно Linux ставить, т.к. производительность при запуске LLM выше. Ну и конечно можно, та же Ubuntu 24 ставится без проблем.
VRAM от 512MB до 96GB при 128GB RAM, unified
В ROCm недавно добавили официально поддержку этого чипа, но только GPU, поддержки NPU пока нет, впрочем GPU выдает нормальные результаты, у меня даже немножко больше чем на графиках в статье.
Здравствуйте! тоже хочу приобрести себе Мини ПК на основе RYZEN AI. Выбираю из тех же моделей, что и Вы. Как понял, они в принципе одинаковые, почему остановились именно на GMKtec EV0-X2?
У этих трёх моделей должны отличаться системы охлаждения, поделитесь своим мнением по этому поводу?
У GMKtec EV0-X2 три вентилятора для охлаждения. Плюс эта модель в принципе наиболее покупаемая была на тот момент времени судя по количеству заказов. Поэтому решил остановиться на нем. Сейчас немного напрягает внешний источник питания. Возможно, стоило по этой причине приглядеться к Beelink GTR 9 Pro AI. Но я не изучал, насколько эффективно у него работает система охлаждения.
Наверно месяц любуюсь на озоне EVO-x2 128gb+2tb ssd, он то 165, то 190, то 170... Плюс пошлина. Откопал на али за 163 где то с доставкой вариант на 128+2, плюс где то 20 пошлина будет. Надеюсь не кирпич приедет...
Спасибо вам за обзор, до этого только отзывы на озоне видел, можете протестировать Qwen 3 coder q4 30b?
У меня сейчас комп с 5060ti 16gb, но модельки типа Mistral 3.2 Q4 24B весят 14.7GB, им порой мешает запуститься запущенный браузер который откусывает 1.1 гиг, товарищ на линуксе вообще иксы вырубает и с другого компа гоняет нейронки, вот сделали бы бюджетнеые типа 5060 видяшки но гигов на 100+, как будто не упирается в камень, а упирается в память, когда не может всю модель на видеокарту загрузить то сразу скорость такая что при ответе каждой буквы ждешь по 10 секунд.
Китайцы сделали. Видела где-то обзор одного чуда, на которое добавили 48 гигабайт памяти вдобавок к чипу сороковой серии)

Для qwen3-coder-30b примерно такая картина. Единственное, квантизация здесь q8_0. И параметры настройки нейросети в LM Studio были ещё не оптимальные, скорее всего. И кнопка мощности в среднем положении (80 Вт на графическом ускорителе). Так что в реальности побыстрее должно быть. На коротком контексте быстродействие qwen30-coder-30b можно посмотреть в обзоре, который в статье последним приведён. Там простая qwen3-30, думаю, они примерно одинаково себя ведут. Мне больше понравилась gpt-oss-120b, надо сказать.
Если процессор с интегрированной видеокартой, то можно на него выносить затраты Windows на рабочий стол, браузер и подобное - так и сделал. Но всё равно 300-500 MB резервируются системой с дискретной карты.
Домашний супер-компьютер для ИИ: какой выбрать в 2025?