Search
Write a publication
Pull to refresh
17
0.4
Максим @SabMakc

User

Send message

Поискал - использовали 3 карты PCIe 5.0 x16 и Ryzen Threadripper PRO 7985WX (с 128 каналами PCIe 5.0). И да, там 8 каналов DDR5, что обеспечивает примерно в 3 раза большую скорость оперативной памяти относительно показанной.

Матрица RAID 0, представленная на выставке Computex в этом году, включает три карты Apex Storage X16 Gen5 и 32 новых твердотельных накопителя E28 PCie 5.0 NVMe от Phison. Такая конфигурация достигает 113,6 ГБ/с при последовательном чтении и 104,6 ГБ/с при записи, а смешанная скорость достигает 146 ГБ/с.

P.S. интересно, а если все 128 канала PCIe 5.0 забить по максимуму - будет быстрее оперативки?

Вариант обучать собственную модель отпал сразу — опыта у меня в этом не было, а искать кого-то, кто сможет это сделать, не было времени, так как хотелось быстро запустить.

Создается впечатление, что "обучить свою модель" - дело на пять минут, максимум несколько часов.

P.S. рассматривали ли запуск открытой модели на своих ресурсах? В Yandex Cloud можно и GPU арендовать...

Значит мне так "везло" - qwen в мыслях делал вызовы, а в результате "смотри, все готово". А по факту - он только думал о том, что и как вызывать...
Использовал Qwen3-30B-A3B:Q4_K_M.

А разве для эмбеддингов не нужна специальная модель?

gemma3 не заявлена как поддерживающая вызовы инструмента, по крайней мере у ollama.

Заметил, что qwen3 плохо работает с функциями в ollama. Но если подключиться через OpenAI API к Ollama, то все хорошо (http://127.0.0.1:11434/v1).

Ага. Только 32 линии PCIe не у каждого процессора есть (актуальные потребительские процессоры по 24 линии имеют).
Так что старый AMD EPYC, с его 8 каналами DDR4 все равно впереди. А у современных AMD EPYC 12 каналов DDR5, что еще примерно в 2-3 раза быстрее получается.

А уж если добавить двухпроцессорные материнки, где по 8/12 каналов паяти на каждый процессор...

Ну а объем... Сколько там его надо? Самая большая модель сейчас - Deepseek-R1 весит 700GB с чем-то (неквантованная), что с лихвой перекрывается подобными монстрами.

Хотя llama 4 Behemoth может выйдет - она да, весить побольше будет ) Но там скорость работы на CPU уже совсем печальной будет, не смотря на все 24 канала памяти...

PCIe 5.0 x16 обеспечивает теоретическую пропускную способность в 64 ГБ/с, что в лучшем случае соответствует скорости двухканальной памяти.
Для больших моделей этого слишком мало.
Да и стоимость такого решения вызывает сомнения - подозреваю, что проще взять б/у сервер на AMD EPYC.

Qwen3 32B есть и от unsloth - Qwen3-32B-UD-Q2_K_XL.gguf, 12.8GB.
Вероятно, будет интереснее на 16GB VRAM...

llama-server - это один из бинарников в ik_llama.cpp.
ik_llama.cpp - форк llama.cpp, поэтому имена исполнимых файлов начинаются так.

./llama-server - запускает сервер, есть OpenAI-совместимое API (http://127.0.0.1:8080/v1), можно защитить токеном (задается через --api-key) или через SSH-подключение запросы гонять.
--host 0.0.0.0 можно дополнительно задать, чтобы был порт доступен извне (по умолчанию - 127.0.0.1).

В целом, практически весь софт умеет OpenAI-совместимое API предоставлять, с которым Roo Code работает.

Да, это общая проблема всех LLM. Все-таки LLM - это про предсказание текста, понимания там нет. Путаются, бредят, и даже ленятся.

Но, стоит признать, работают они крайне убедительно!

P.S. Понижать квантизацию - сомнительный вариант, модели быстро деградируют. Но да, считается, что низкий квант лучше, чем меньшая по параметрам модель при том же весе.

Нет, ничего не подскажу - не интересовался подобным.

Попробовал бы qwen3, gemma-3 и вышедшую на днях gemma-3n (чем-то MoE напоминает в своей работе, так что будет очень быстро).

P.S. нашел рейтинг для role-play на русском: https://ilyagusev.github.io/ping_pong_bench/ru_v2 - и gemma3_12b_it на 4м месте )

Можно. Но лично Вы так сделали? Приватность - это 1й аргумент в пользу локального запуска в статье.

Я пробовал devstral - более свежая итерация ИИ от Mistral для кодинга.
И да, он может писать код и даже неплохо - вау-эффект вызывает. На 1й взгляд. Но если взглянуть внимательнее - много мелких недочетов (то поле забыл в тесте проверить, то лишнее поле в структуру добавил, то еще что-то). Надо очень тщательно проверять, даже на достаточно простых задачах. Что значительно сокращает полезность.

Но как черновая реализация - очень даже неплохо. Причем даже Qwen3-30B-A3B, который быстро на CPU работает.

Но нужно памяти минимум 32GB в системе (что на Qwen3-30B-A3B, что на devstral). А лучше - видеопамяти 32GB.

Все LLM можно на CPU запустить. Ограничивающий фактор это скорость памяти (обычно).
Поэтому видеокарты и в почете - у них быстрая память.

А так - если это сервер с 8 каналами памяти, то можно и deepseek-r1 запускать пускай и с невысокой скоростью (недавно была статья про запуск на AMD Epyc 7002).

Лично я предпочитаю Qwen3-30B-A3B - скорость как у 3B модели, но "ума" на 30B. На CPU около 10 токенов в секунду получаю, на 2хDRR4 2900 (с Q4-K-M, c Q8 около 7 токенов/сек).

Потому и надеяться - даже если сейчас трафика нет, ни кто не даст гарантий, что он не появится завтра, после очередного обновления.
Или после какого-нибудь невинного запроса текущими метриками.

В целом, это и с OpenSource так, но там хоть какая-то прозрачность есть.

Приватность. Ни один байт данных не уходит на чужие серверы.

Ага. Только LM Studio - это проприетарный софт. На приватность можно только надеяться.

Ну и названные LLM уже несколько устарели. Советую попробовать Qwen3 (30B-A3B отлично себя на CPU чувствует (если хватит памяти), хороша в кодинге и в целом, как справочная по техническим вопросам), gemma-3 (в задачах связанных с языком) и devstral (для кода, но ее 24b тяжеловаты для CPU, если нет 32GB VRAM).

Но локальные модели еще слишком слабы в кодинге.

Хороший ролик, но если есть возможность - отзывы лучше записать "с натуры", пусть даже с актерами (а то и просто со знакомыми/друзьями). 1я девушка явно выделяется (криповая - хорошее определение), но и остальные персонажи не далеко ушли. Может не так бросается в глаза, но все равно видно, что что-то не так. В том числе и в озвучке - в жизни как минимум речь бодрее и с меньшими паузами.

И цитаты из книги - надо подобрать тайминг для них, не всегда успевал прочитать полностью (закадровая речь даст "правильный" тайминг, хотя про необходимость закадрового голоса я ничего не скажу - лично мне и так понравилось).

Вот чем нравится qwen3 - рассуждения отключаются на раз-два с /no_think в тексте.

И да, в режиме без рассуждений, qwen3 мне нравится больше. Сильно быстрее отвечает и ответы качественнее, на мой взгляд.

А с рассуждениями встречал ситуацию, что окончательный ответ может даже не упоминаться в рассуждениях! Так что это не более чем "мысли по теме" получается.

Но при этом рассуждения могут быть полезны, если задал вопрос и видишь, что ответ куда-то не туда уходит - тогда рассуждения могут помочь понять, "а что не так" с вопросом.

P.S. Интересно, что на LLM Arena qwen3-235b-a22b-no-thinking сильно выше в рейтинге, чем qwen3-235b-a22b во всех категориях (кроме math, где они просто равны)!

Information

Rating
3,652-nd
Location
Россия
Registered
Activity