Комментарии / Профиль punzik / Хабр

@punzik

Пользователь

0,1

Рейтинг

Подписчики

ПрофильСтатьиПостыНовостиКомментарии306

Локальный запуск LLM для SOC: сколько GPU действительно нужно?

punzik 18 июл в 06:34

Автор, расшифруйте, пожалуйста, аббревиатуру SOC.

Альтман предложил создать «МАГАТЭ для ИИ» под руководством США

punzik 2 июл в 09:30

Не более трёх мегатюрингов!

Дело на вечер: собираем домашний ИИ-сервер

punzik 30 июн в 09:58

Такое было, но не из-за MTP. Лечится опцией --chat-template-kwargs '{"preserve_thinking": "True"}'. В новой версии llama.cpp появилась опция --reasoning-preserve, но я ещё не проверял.

Дело на вечер: собираем домашний ИИ-сервер

punzik 30 июн в 07:46

Таких цифр не видел на таком количестве слоёв

Вчера обновил llama.cpp до версии 9837, стало ещё быстрее. Вот параметры запуска модели:

CUDA_VISIBLE_DEVICES=0,1 llama-server --host 0.0.0.0 --port 8081 -m Qwen3.6-35B-A3B-UD-Q6_K_XL.gguf -fitt 1024 -c 262144 -ngl 999 --temp 0.6 --top-p 0.95 --top-k 20 --min-p 0.00 --no-mmap --spec-type draft-mtp --spec-draft-n-max 4

Вот лог со скоростью вывода (в основном это генерация кода, она на MTP немного быстрее, чем просто текст):

0.57.525.739 I slot print_timing: id  3 | task 0 | n_decoded =    464, tg = 154.33 t/s, tg_3s = 154.31 t/s
1.00.547.542 I slot print_timing: id  3 | task 0 | n_decoded =    945, tg = 156.76 t/s, tg_3s = 159.18 t/s
1.03.564.859 I slot print_timing: id  3 | task 0 | n_decoded =   1469, tg = 162.40 t/s, tg_3s = 173.66 t/s
1.06.568.765 I slot print_timing: id  3 | task 0 | n_decoded =   2013, tg = 167.06 t/s, tg_3s = 181.10 t/s
1.09.573.904 I slot print_timing: id  3 | task 0 | n_decoded =   2425, tg = 161.08 t/s, tg_3s = 137.10 t/s
1.12.586.396 I slot print_timing: id  3 | task 0 | n_decoded =   2817, tg = 155.92 t/s, tg_3s = 130.12 t/s
1.15.589.639 I slot print_timing: id  3 | task 0 | n_decoded =   3262, tg = 154.81 t/s, tg_3s = 148.17 t/s
1.18.591.986 I slot print_timing: id  3 | task 0 | n_decoded =   3639, tg = 151.17 t/s, tg_3s = 125.57 t/s

Карты - обычные 3090 с максимальной мощностью 350Вт, включены в плату MACHINIST X99 MR9S с процессором Xeon E5-2697 v4 и 64Г оперативы.

Дело на вечер: собираем домашний ИИ-сервер

punzik 29 июн в 20:21

Qwen3.6-35B-A3B - это MoE модель (3B активных параметра), а Qwen3.6-27b - плотная (27B активных), потому разница в скорости. Но плотная заметно умнее. Автору рекомендую обновить llama.cpp до самой свежей версии, не исключено что скорость генерации повысится. У меня на 2х3090 плотный Квен (Q6) даёт до 60 ток/с, а MoE - до 140.

Язык, который придумали для ИИ в 1958-м

punzik 14 июн в 13:28

Грубо - среда, в которой выполняется программа, имеет REPL. Заходите в него, и на ходу правите код. Или, например, крутится у вас web-сервер. Вдруг один из потоков выбрасывает исключение. Вы можете зайти в REPL, поправить код и продолжить выполнение с того места, где возникла ошибка. В других потоках код тоже исправится. Как-то так (грубо).

Язык, который придумали для ИИ в 1958-м

punzik 13 июн в 18:19

но получается не принципиально лучше REPL в других языках.

Таки репл в коммонлиспе - это совсем не репл в питоне (и в других языках). Это совершенно разные реплы. Репл в питоне - это интерактивный интерпретатор. Репл в лиспе - это переписывание работающей программы.

Язык, который придумали для ИИ в 1958-м

punzik 13 июн в 18:10

Интерполяция строк, блоки, метки, декораторы - всё это позволяет увеличить ёмкость информации и упрощает оперирование.

Скобки лиспа находятся у другой крайности - слишком мало ёмкости.

Категорически нет! Всё ровно противоположно. Лисповые скобки дают бесконечную ёмкость, поскольку позволяют выразить любую глубину абстракции единым и понятным способом. Как раз те костыли, в виде декораторов, меток и пр. - это попытка поднять уровень абстракции средствами, которые для этого не годятся.

Кроме того, в лиспе свободно и нативно реализуются все эти декораторы и строковые интерполяции. Но большинство этих вещей там не нужно, потому что есть способы лучше, и выражаются они через скобки.

Язык, который придумали для ИИ в 1958-м

punzik 13 июн в 12:58

А как насчёт обилия скобок

Скобки - это наверное лучшее, что есть в лиспе. Трудночитаемость - это миф, да и избыточное количество скобок - тоже (достаточно посмотреть на синтаксис современных языков, типа Rust и C++ - там кроме скобок разного вида ещё и куча закорючек). Этот миф распространяют те, кто никогда на лиспе не писал.

Лаборатория ИИ за 200 000 ₽: как мы собрали локальный ИИ-сервер на 2× Tesla V100

punzik 31 мая в 16:47

У меня самое дешманское открытое шасси с Али, мать Machinist X99 и три видеокарты, одна из которых стоит над другими на напечатанном креплении, и подключается к PCIe удлиннителем 20см. Отлично работает. Я бы мог подключить ещё одну, но смысла в этом не очень много.

IBM PC/XT своими руками

punzik 21 мая в 04:52

Очень круто! Автор просто красавчик, что не бросил затею на пол пути. Теперь можно было бы сделать печатную плату. Но если автор откажется, я его всецело пойму :)

Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация

punzik 19 мая в 12:49

Ну вот я видел результаты тестов разного квантования, например, у Unsloth. По ним можно сделать вывод, что Q4 совсем незначительно уступает Q8. Но автор говорит, что это всё лоботомия, и кодить скрипты на питоне на Q4 категорически нельзя. Вот хотелось бы доказательств.

Культ квантования: почему 3 битные LLM это диагноз, а не оптимизация

punzik 19 мая в 12:25

На словах красиво, а есть цифры? Хочется осязаемых метрик, а не размышлений на тему. И результатов тестов тоже хочется. Какие ваши доказательства? (С)

+13

Вайб‑кодинг для ПЛИС: как я собрал I2S FIFO‑реклокер без знания Verilog

punzik 13 мая в 20:36

А исходники будут?

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

punzik 12 мая в 09:13

Это старые данные. Модель в таком виде была на HF несколько дней после публикации 3.5. Она действительно была глючной. Потом поправили, и размер её стал на 2Г больше.

Сравнительный анализ RISC-V микропроцессоров picorv32 и scr1 при использовании в FPGA

punzik 28 апр в 07:47

Сравните с VexRiscv. По моим тестам у него лучшее отношение производительности к площади.

Поднимаем сеть на коаксиальном кабеле в 2026 году

punzik 20 апр в 04:47

Для использования 75-омного кабеля можно попробовать поставить терминаторы на 75 Ом (можно просто резистор в разъём воткнуть).

Alibaba перевела Qwen Code на платную модель с 15 апреля

punzik 16 апр в 18:49

Qwen3.5-397B UD-IQ3_S

На такой квантизации уже сильно падает качество. UD-Q4_K_XL - ещё норм, но если ниже, то очень заметна разница.

И по поводу скорости. 10-20 токенов на генерации терпимо, но низкая скорость на промпте - это прям грустно, особенно когда делается сжатие контекста. А на 80к это часто надо делать.

Всё ж надо пару, а лучше тройку 3090, чтобы cpu разгрузить. И контекст побольше. Но это моё ИМХО, не настаиваю.

Alibaba перевела Qwen Code на платную модель с 15 апреля

punzik 16 апр в 18:34

Выложили https://huggingface.co/collections/Qwen/qwen36

Alibaba перевела Qwen Code на платную модель с 15 апреля

punzik 15 апр в 18:38

Какой сетап?

2 3 ...

15 16