Ага. Только 32 линии PCIe не у каждого процессора есть (актуальные потребительские процессоры по 24 линии имеют). Так что старый AMD EPYC, с его 8 каналами DDR4 все равно впереди. А у современных AMD EPYC 12 каналов DDR5, что еще примерно в 2-3 раза быстрее получается.
А уж если добавить двухпроцессорные материнки, где по 8/12 каналов паяти на каждый процессор...
Ну а объем... Сколько там его надо? Самая большая модель сейчас - Deepseek-R1 весит 700GB с чем-то (неквантованная), что с лихвой перекрывается подобными монстрами.
Хотя llama 4 Behemoth может выйдет - она да, весить побольше будет ) Но там скорость работы на CPU уже совсем печальной будет, не смотря на все 24 канала памяти...
PCIe 5.0 x16 обеспечивает теоретическую пропускную способность в 64 ГБ/с, что в лучшем случае соответствует скорости двухканальной памяти. Для больших моделей этого слишком мало. Да и стоимость такого решения вызывает сомнения - подозреваю, что проще взять б/у сервер на AMD EPYC.
./llama-server - запускает сервер, есть OpenAI-совместимое API (http://127.0.0.1:8080/v1), можно защитить токеном (задается через --api-key) или через SSH-подключение запросы гонять. --host 0.0.0.0 можно дополнительно задать, чтобы был порт доступен извне (по умолчанию - 127.0.0.1).
В целом, практически весь софт умеет OpenAI-совместимое API предоставлять, с которым Roo Code работает.
Да, это общая проблема всех LLM. Все-таки LLM - это про предсказание текста, понимания там нет. Путаются, бредят, и даже ленятся.
Но, стоит признать, работают они крайне убедительно!
P.S. Понижать квантизацию - сомнительный вариант, модели быстро деградируют. Но да, считается, что низкий квант лучше, чем меньшая по параметрам модель при том же весе.
Я пробовал devstral - более свежая итерация ИИ от Mistral для кодинга. И да, он может писать код и даже неплохо - вау-эффект вызывает. На 1й взгляд. Но если взглянуть внимательнее - много мелких недочетов (то поле забыл в тесте проверить, то лишнее поле в структуру добавил, то еще что-то). Надо очень тщательно проверять, даже на достаточно простых задачах. Что значительно сокращает полезность.
Но как черновая реализация - очень даже неплохо. Причем даже Qwen3-30B-A3B, который быстро на CPU работает.
Но нужно памяти минимум 32GB в системе (что на Qwen3-30B-A3B, что на devstral). А лучше - видеопамяти 32GB.
Все LLM можно на CPU запустить. Ограничивающий фактор это скорость памяти (обычно). Поэтому видеокарты и в почете - у них быстрая память.
А так - если это сервер с 8 каналами памяти, то можно и deepseek-r1 запускать пускай и с невысокой скоростью (недавно была статья про запуск на AMD Epyc 7002).
Лично я предпочитаю Qwen3-30B-A3B - скорость как у 3B модели, но "ума" на 30B. На CPU около 10 токенов в секунду получаю, на 2хDRR4 2900 (с Q4-K-M, c Q8 около 7 токенов/сек).
Потому и надеяться - даже если сейчас трафика нет, ни кто не даст гарантий, что он не появится завтра, после очередного обновления. Или после какого-нибудь невинного запроса текущими метриками.
В целом, это и с OpenSource так, но там хоть какая-то прозрачность есть.
Приватность. Ни один байт данных не уходит на чужие серверы.
Ага. Только LM Studio - это проприетарный софт. На приватность можно только надеяться.
Ну и названные LLM уже несколько устарели. Советую попробовать Qwen3 (30B-A3B отлично себя на CPU чувствует (если хватит памяти), хороша в кодинге и в целом, как справочная по техническим вопросам), gemma-3 (в задачах связанных с языком) и devstral (для кода, но ее 24b тяжеловаты для CPU, если нет 32GB VRAM).
Хороший ролик, но если есть возможность - отзывы лучше записать "с натуры", пусть даже с актерами (а то и просто со знакомыми/друзьями). 1я девушка явно выделяется (криповая - хорошее определение), но и остальные персонажи не далеко ушли. Может не так бросается в глаза, но все равно видно, что что-то не так. В том числе и в озвучке - в жизни как минимум речь бодрее и с меньшими паузами.
И цитаты из книги - надо подобрать тайминг для них, не всегда успевал прочитать полностью (закадровая речь даст "правильный" тайминг, хотя про необходимость закадрового голоса я ничего не скажу - лично мне и так понравилось).
Вот чем нравится qwen3 - рассуждения отключаются на раз-два с /no_think в тексте.
И да, в режиме без рассуждений, qwen3 мне нравится больше. Сильно быстрее отвечает и ответы качественнее, на мой взгляд.
А с рассуждениями встречал ситуацию, что окончательный ответ может даже не упоминаться в рассуждениях! Так что это не более чем "мысли по теме" получается.
Но при этом рассуждения могут быть полезны, если задал вопрос и видишь, что ответ куда-то не туда уходит - тогда рассуждения могут помочь понять, "а что не так" с вопросом.
P.S. Интересно, что на LLM Arena qwen3-235b-a22b-no-thinking сильно выше в рейтинге, чем qwen3-235b-a22b во всех категориях (кроме math, где они просто равны)!
Не возникало подобных эффектов. Использовал Q4_K_M и Q8.
Косяки видел на совсем небольших моделях, да если параллельно много запросов запускать (видать какое-то взаимное влияние есть от разных запросов). Ну и если криво настроить модель - тоже возникал такой эффект (в ollama скачал как-то напрямую из huggingface модель - полнейшая ерунда получилась).
А так, для локального использования, Qwen3-30B-A3B пока мой фаворит. Быстро (на CPU) и достаточно эффективно.
P.S. возможно эффект был вызван тем, что модель только появилась и софт не поддерживал ее толком.
Не так все просто - файлы по запросу отдавать надо, mcp подключать и множество прочих функций в догонку. В целом - да, при должной сноровке и понимании "что делать" можно достаточно быстро сделать.
Для "просто спросить" можно каждый раз новый диалог начинать - длинный контекст не нужен. Хватит и нескольких тысяч токенов.
Если модель "думающая" - то контекст нужен больше (раза в 2-3), "размышления" зачастую больше ответа или сравнимы с ним (сужу по qwen3 и deepseek-r1).
А вот если как агента для кодинга подключать - то да, большой контекст очень даже нужен. Но, на мой взгляд, локальные модели еще достаточно слабо способны в кодинг. Максимум - самые простые задачи (например, тесты). Да и то, надо очень тщательно за ними проверять результат.
Ага. Только 32 линии PCIe не у каждого процессора есть (актуальные потребительские процессоры по 24 линии имеют).
Так что старый AMD EPYC, с его 8 каналами DDR4 все равно впереди. А у современных AMD EPYC 12 каналов DDR5, что еще примерно в 2-3 раза быстрее получается.
А уж если добавить двухпроцессорные материнки, где по 8/12 каналов паяти на каждый процессор...
Ну а объем... Сколько там его надо? Самая большая модель сейчас - Deepseek-R1 весит 700GB с чем-то (неквантованная), что с лихвой перекрывается подобными монстрами.
Хотя llama 4 Behemoth может выйдет - она да, весить побольше будет ) Но там скорость работы на CPU уже совсем печальной будет, не смотря на все 24 канала памяти...
PCIe 5.0 x16 обеспечивает теоретическую пропускную способность в 64 ГБ/с, что в лучшем случае соответствует скорости двухканальной памяти.
Для больших моделей этого слишком мало.
Да и стоимость такого решения вызывает сомнения - подозреваю, что проще взять б/у сервер на AMD EPYC.
Qwen3 32B есть и от unsloth - Qwen3-32B-UD-Q2_K_XL.gguf, 12.8GB.
Вероятно, будет интереснее на 16GB VRAM...
llama-server - это один из бинарников в ik_llama.cpp.
ik_llama.cpp - форк llama.cpp, поэтому имена исполнимых файлов начинаются так.
./llama-server
- запускает сервер, есть OpenAI-совместимое API (http://127.0.0.1:8080/v1), можно защитить токеном (задается через--api-key
) или через SSH-подключение запросы гонять.--host 0.0.0.0
можно дополнительно задать, чтобы был порт доступен извне (по умолчанию - 127.0.0.1).В целом, практически весь софт умеет OpenAI-совместимое API предоставлять, с которым Roo Code работает.
Да, это общая проблема всех LLM. Все-таки LLM - это про предсказание текста, понимания там нет. Путаются, бредят, и даже ленятся.
Но, стоит признать, работают они крайне убедительно!
P.S. Понижать квантизацию - сомнительный вариант, модели быстро деградируют. Но да, считается, что низкий квант лучше, чем меньшая по параметрам модель при том же весе.
Нет, ничего не подскажу - не интересовался подобным.
Попробовал бы qwen3, gemma-3 и вышедшую на днях gemma-3n (чем-то MoE напоминает в своей работе, так что будет очень быстро).
P.S. нашел рейтинг для role-play на русском: https://ilyagusev.github.io/ping_pong_bench/ru_v2 - и gemma3_12b_it на 4м месте )
Можно. Но лично Вы так сделали? Приватность - это 1й аргумент в пользу локального запуска в статье.
Я пробовал devstral - более свежая итерация ИИ от Mistral для кодинга.
И да, он может писать код и даже неплохо - вау-эффект вызывает. На 1й взгляд. Но если взглянуть внимательнее - много мелких недочетов (то поле забыл в тесте проверить, то лишнее поле в структуру добавил, то еще что-то). Надо очень тщательно проверять, даже на достаточно простых задачах. Что значительно сокращает полезность.
Но как черновая реализация - очень даже неплохо. Причем даже Qwen3-30B-A3B, который быстро на CPU работает.
Но нужно памяти минимум 32GB в системе (что на Qwen3-30B-A3B, что на devstral). А лучше - видеопамяти 32GB.
Все LLM можно на CPU запустить. Ограничивающий фактор это скорость памяти (обычно).
Поэтому видеокарты и в почете - у них быстрая память.
А так - если это сервер с 8 каналами памяти, то можно и deepseek-r1 запускать пускай и с невысокой скоростью (недавно была статья про запуск на AMD Epyc 7002).
Лично я предпочитаю Qwen3-30B-A3B - скорость как у 3B модели, но "ума" на 30B. На CPU около 10 токенов в секунду получаю, на 2хDRR4 2900 (с Q4-K-M, c Q8 около 7 токенов/сек).
Потому и надеяться - даже если сейчас трафика нет, ни кто не даст гарантий, что он не появится завтра, после очередного обновления.
Или после какого-нибудь невинного запроса текущими метриками.
В целом, это и с OpenSource так, но там хоть какая-то прозрачность есть.
Ага. Только LM Studio - это проприетарный софт. На приватность можно только надеяться.
Ну и названные LLM уже несколько устарели. Советую попробовать Qwen3 (30B-A3B отлично себя на CPU чувствует (если хватит памяти), хороша в кодинге и в целом, как справочная по техническим вопросам), gemma-3 (в задачах связанных с языком) и devstral (для кода, но ее 24b тяжеловаты для CPU, если нет 32GB VRAM).
Но локальные модели еще слишком слабы в кодинге.
Хороший ролик, но если есть возможность - отзывы лучше записать "с натуры", пусть даже с актерами (а то и просто со знакомыми/друзьями). 1я девушка явно выделяется (криповая - хорошее определение), но и остальные персонажи не далеко ушли. Может не так бросается в глаза, но все равно видно, что что-то не так. В том числе и в озвучке - в жизни как минимум речь бодрее и с меньшими паузами.
И цитаты из книги - надо подобрать тайминг для них, не всегда успевал прочитать полностью (закадровая речь даст "правильный" тайминг, хотя про необходимость закадрового голоса я ничего не скажу - лично мне и так понравилось).
Вот чем нравится qwen3 - рассуждения отключаются на раз-два с
/no_think
в тексте.И да, в режиме без рассуждений, qwen3 мне нравится больше. Сильно быстрее отвечает и ответы качественнее, на мой взгляд.
А с рассуждениями встречал ситуацию, что окончательный ответ может даже не упоминаться в рассуждениях! Так что это не более чем "мысли по теме" получается.
Но при этом рассуждения могут быть полезны, если задал вопрос и видишь, что ответ куда-то не туда уходит - тогда рассуждения могут помочь понять, "а что не так" с вопросом.
P.S. Интересно, что на LLM Arena qwen3-235b-a22b-no-thinking сильно выше в рейтинге, чем qwen3-235b-a22b во всех категориях (кроме math, где они просто равны)!
Универсальнейшие советы, которые пригодятся в любом деле!
Не возникало подобных эффектов. Использовал Q4_K_M и Q8.
Косяки видел на совсем небольших моделях, да если параллельно много запросов запускать (видать какое-то взаимное влияние есть от разных запросов).
Ну и если криво настроить модель - тоже возникал такой эффект (в ollama скачал как-то напрямую из huggingface модель - полнейшая ерунда получилась).
А так, для локального использования, Qwen3-30B-A3B пока мой фаворит. Быстро (на CPU) и достаточно эффективно.
P.S. возможно эффект был вызван тем, что модель только появилась и софт не поддерживал ее толком.
Не так все просто - файлы по запросу отдавать надо, mcp подключать и множество прочих функций в догонку.
В целом - да, при должной сноровке и понимании "что делать" можно достаточно быстро сделать.
Каждый вызов инструмента - это +1 запрос к модели (на обработку результатов вызова).
Интересно, как быстро форкнут и сделают подключение к локальной LLM?
Для "просто спросить" можно каждый раз новый диалог начинать - длинный контекст не нужен. Хватит и нескольких тысяч токенов.
Если модель "думающая" - то контекст нужен больше (раза в 2-3), "размышления" зачастую больше ответа или сравнимы с ним (сужу по qwen3 и deepseek-r1).
А вот если как агента для кодинга подключать - то да, большой контекст очень даже нужен. Но, на мой взгляд, локальные модели еще достаточно слабо способны в кодинг. Максимум - самые простые задачи (например, тесты). Да и то, надо очень тщательно за ними проверять результат.