Comments / Profile of SabMakc / Habr

How to become an author

Максим @SabMakc

User

ProfileArticles1PostsNewsComments1.1K

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

SabMakc 10 hours ago

Ага. Только 32 линии PCIe не у каждого процессора есть (актуальные потребительские процессоры по 24 линии имеют).
Так что старый AMD EPYC, с его 8 каналами DDR4 все равно впереди. А у современных AMD EPYC 12 каналов DDR5, что еще примерно в 2-3 раза быстрее получается.

А уж если добавить двухпроцессорные материнки, где по 8/12 каналов паяти на каждый процессор...

Ну а объем... Сколько там его надо? Самая большая модель сейчас - Deepseek-R1 весит 700GB с чем-то (неквантованная), что с лихвой перекрывается подобными монстрами.

Хотя llama 4 Behemoth может выйдет - она да, весить побольше будет ) Но там скорость работы на CPU уже совсем печальной будет, не смотря на все 24 канала памяти...

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

SabMakc 12 hours ago

PCIe 5.0 x16 обеспечивает теоретическую пропускную способность в 64 ГБ/с, что в лучшем случае соответствует скорости двухканальной памяти.
Для больших моделей этого слишком мало.
Да и стоимость такого решения вызывает сомнения - подозреваю, что проще взять б/у сервер на AMD EPYC.

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

SabMakc Jun 30 at 13:44

Qwen3 32B есть и от unsloth - Qwen3-32B-UD-Q2_K_XL.gguf, 12.8GB.
Вероятно, будет интереснее на 16GB VRAM...

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

SabMakc Jun 30 at 13:40

llama-server - это один из бинарников в ik_llama.cpp.
ik_llama.cpp - форк llama.cpp, поэтому имена исполнимых файлов начинаются так.

Запускаем настоящую DeepSeek R1 671B на игровом ПК и смотрим вменяемая ли она на огромном контексте (160к)

SabMakc Jun 30 at 09:55

./llama-server - запускает сервер, есть OpenAI-совместимое API (http://127.0.0.1:8080/v1), можно защитить токеном (задается через --api-key) или через SSH-подключение запросы гонять.
--host 0.0.0.0 можно дополнительно задать, чтобы был порт доступен извне (по умолчанию - 127.0.0.1).

В целом, практически весь софт умеет OpenAI-совместимое API предоставлять, с которым Roo Code работает.

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

SabMakc Jun 29 at 07:33

Да, это общая проблема всех LLM. Все-таки LLM - это про предсказание текста, понимания там нет. Путаются, бредят, и даже ленятся.

Но, стоит признать, работают они крайне убедительно!

P.S. Понижать квантизацию - сомнительный вариант, модели быстро деградируют. Но да, считается, что низкий квант лучше, чем меньшая по параметрам модель при том же весе.

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

SabMakc Jun 28 at 16:49

Нет, ничего не подскажу - не интересовался подобным.

Попробовал бы qwen3, gemma-3 и вышедшую на днях gemma-3n (чем-то MoE напоминает в своей работе, так что будет очень быстро).

P.S. нашел рейтинг для role-play на русском: https://ilyagusev.github.io/ping_pong_bench/ru_v2 - и gemma3_12b_it на 4м месте )

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

SabMakc Jun 28 at 15:55

Можно. Но лично Вы так сделали? Приватность - это 1й аргумент в пользу локального запуска в статье.

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

SabMakc Jun 28 at 13:31

Я пробовал devstral - более свежая итерация ИИ от Mistral для кодинга.
И да, он может писать код и даже неплохо - вау-эффект вызывает. На 1й взгляд. Но если взглянуть внимательнее - много мелких недочетов (то поле забыл в тесте проверить, то лишнее поле в структуру добавил, то еще что-то). Надо очень тщательно проверять, даже на достаточно простых задачах. Что значительно сокращает полезность.

Но как черновая реализация - очень даже неплохо. Причем даже Qwen3-30B-A3B, который быстро на CPU работает.

Но нужно памяти минимум 32GB в системе (что на Qwen3-30B-A3B, что на devstral). А лучше - видеопамяти 32GB.

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

SabMakc Jun 28 at 13:05

Все LLM можно на CPU запустить. Ограничивающий фактор это скорость памяти (обычно).
Поэтому видеокарты и в почете - у них быстрая память.

А так - если это сервер с 8 каналами памяти, то можно и deepseek-r1 запускать пускай и с невысокой скоростью (недавно была статья про запуск на AMD Epyc 7002).

Лично я предпочитаю Qwen3-30B-A3B - скорость как у 3B модели, но "ума" на 30B. На CPU около 10 токенов в секунду получаю, на 2хDRR4 2900 (с Q4-K-M, c Q8 около 7 токенов/сек).

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

SabMakc Jun 28 at 05:41

Потому и надеяться - даже если сейчас трафика нет, ни кто не даст гарантий, что он не появится завтра, после очередного обновления.
Или после какого-нибудь невинного запроса текущими метриками.

В целом, это и с OpenSource так, но там хоть какая-то прозрачность есть.

Локальный чатбот без ограничений: гайд по LM Studio и открытым LLM

SabMakc Jun 27 at 21:12

Приватность. Ни один байт данных не уходит на чужие серверы.

Ага. Только LM Studio - это проприетарный софт. На приватность можно только надеяться.

Ну и названные LLM уже несколько устарели. Советую попробовать Qwen3 (30B-A3B отлично себя на CPU чувствует (если хватит памяти), хороша в кодинге и в целом, как справочная по техническим вопросам), gemma-3 (в задачах связанных с языком) и devstral (для кода, но ее 24b тяжеловаты для CPU, если нет 32GB VRAM).

Но локальные модели еще слишком слабы в кодинге.

Как я использовал ИИ для создания трейлера книги: опыт без дизайнера

SabMakc Jun 27 at 12:26

Хороший ролик, но если есть возможность - отзывы лучше записать "с натуры", пусть даже с актерами (а то и просто со знакомыми/друзьями). 1я девушка явно выделяется (криповая - хорошее определение), но и остальные персонажи не далеко ушли. Может не так бросается в глаза, но все равно видно, что что-то не так. В том числе и в озвучке - в жизни как минимум речь бодрее и с меньшими паузами.

И цитаты из книги - надо подобрать тайминг для них, не всегда успевал прочитать полностью (закадровая речь даст "правильный" тайминг, хотя про необходимость закадрового голоса я ничего не скажу - лично мне и так понравилось).

15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, чтения иллюстраций

SabMakc Jun 26 at 13:36

Вот чем нравится qwen3 - рассуждения отключаются на раз-два с /no_think в тексте.

И да, в режиме без рассуждений, qwen3 мне нравится больше. Сильно быстрее отвечает и ответы качественнее, на мой взгляд.

А с рассуждениями встречал ситуацию, что окончательный ответ может даже не упоминаться в рассуждениях! Так что это не более чем "мысли по теме" получается.

Но при этом рассуждения могут быть полезны, если задал вопрос и видишь, что ответ куда-то не туда уходит - тогда рассуждения могут помочь понять, "а что не так" с вопросом.

P.S. Интересно, что на LLM Arena qwen3-235b-a22b-no-thinking сильно выше в рейтинге, чем qwen3-235b-a22b во всех категориях (кроме math, где они просто равны)!

Больше никаких правок! Или как я сдаю прототипы с первого раза

SabMakc Jun 26 at 08:03

Универсальнейшие советы, которые пригодятся в любом деле!

15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, чтения иллюстраций

SabMakc Jun 26 at 06:46

Не возникало подобных эффектов. Использовал Q4_K_M и Q8.

Косяки видел на совсем небольших моделях, да если параллельно много запросов запускать (видать какое-то взаимное влияние есть от разных запросов).
Ну и если криво настроить модель - тоже возникал такой эффект (в ollama скачал как-то напрямую из huggingface модель - полнейшая ерунда получилась).

А так, для локального использования, Qwen3-30B-A3B пока мой фаворит. Быстро (на CPU) и достаточно эффективно.

P.S. возможно эффект был вызван тем, что модель только появилась и софт не поддерживал ее толком.

Google выпустила Gemini CLI — бесплатный open source ИИ-ассистент для командной строки

SabMakc Jun 25 at 21:55

Не так все просто - файлы по запросу отдавать надо, mcp подключать и множество прочих функций в догонку.
В целом - да, при должной сноровке и понимании "что делать" можно достаточно быстро сделать.

Google выпустила Gemini CLI — бесплатный open source ИИ-ассистент для командной строки

SabMakc Jun 25 at 21:48

Каждый вызов инструмента - это +1 запрос к модели (на обработку результатов вызова).

Google выпустила Gemini CLI — бесплатный open source ИИ-ассистент для командной строки

SabMakc Jun 25 at 18:49

Интересно, как быстро форкнут и сделают подключение к локальной LLM?

15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, чтения иллюстраций

SabMakc Jun 25 at 14:19

Для "просто спросить" можно каждый раз новый диалог начинать - длинный контекст не нужен. Хватит и нескольких тысяч токенов.

Если модель "думающая" - то контекст нужен больше (раза в 2-3), "размышления" зачастую больше ответа или сравнимы с ним (сужу по qwen3 и deepseek-r1).

А вот если как агента для кодинга подключать - то да, большой контекст очень даже нужен. Но, на мой взгляд, локальные модели еще достаточно слабо способны в кодинг. Максимум - самые простые задачи (например, тесты). Да и то, надо очень тщательно за ними проверять результат.

1

2 3 ...