Comments 17
https://disk.yandex.ru/d/6KddNGv5h-GA4w Результаты бенчмарков
https://disk.yandex.ru/d/6KddNGv5h-GA4w Результаты бенчмарков
Проблема у всех аналогичных систем, что "жрут" в простое не мало ЭЭ. Видеодрайвер в режиме вычислений не дает уводить систему в сон хотя бы на ночь. В итоге КПД использования остается невысоким (при активной работе в пару часов). А летом – еще плюс и кондиционер, если лето жаркое. В общем, сон системе очень бы не помешал, и этот вопрос часто остается за кадром.
Карты вроде как "майнинговые"
Реально какие то модели LLM загружали?
Какую максимальную модель можно загрузить в такой "объединенный кластер" с приемлемым временем отклика?
Если система должна работать в умном доме, какой смысл в ручном переводе ее в пониженный режим или вообще держать выключенной? ведь в умном доме система должна быть всегда готова к выполнению команды?
любая модель которая запускается в Ollama и vLLM нормально распределяется по картам. отклик модели qwen3.5:35b мгновенный.
Выключение и перевод P-state можно на любое действие закрепить скриптом, вплоть до восстановления автоматического ухода в P8 вне сильной активности. умному дому не надо быть всегда в режиме сверх рассуждения, да и вообще он на проце может крутиться. а модель с тобой общаться когда ты дома и когда распознавалка, например, речи скомандует перейти на усиленный режим.
LLM, нужна только для размышлений. слушать обращение от пользователя может другой сервис, который много не жрет. он и будет триггерить переход в P0. Мультимодальный Vosk например вообще на ноутбуке старом у меня жил.
это все теория. вряд ли я на практике буду связывать свой локальный УД с этим. разве что ради опытов
Ну если реализовать локального голосового ассистента, то по ключевому слову (например "Алиса") модель должна сразу выходить на максимальный уровень. Ведь она не знает, что будет дальше, голосовая команда "Включи свет", запрос в интернет "Погода и курс доллара на сегодня" или вопрос "В чем смысл жизни?".
Если при этом будет пауза с ответом больше 1-2 секунд, то такой ассистент будет раздражать.
это все решается
разделением вопросов на заранее заданные команды, которые обрабатываются например при помощи алгоритма сопоставления гештальт-паттернов. а более сложные вопросы если вес по алгоритму достаточный не набрался- перевод в P0 (занимает меньше секунды) и потоковый вывод ответа. грубо говоря - не всем рулит нейросеть, подключаем ее только на сложных вопросах. у меня был проект локальной умной колонки с УД, которая вообще нейросети не использовала, работала на слабом железе и достаточно быстро, если интересно - покажу позже
Сколько токенов в секунду выдает на qwen3.5:35b ?
Купил смр50 поиграть в какие нибудь игры. Играл последний раз лет 15 назад. Никак руки не дойдут кондеры допаять
судя по тому, что я прочитал на просторах - вам не только кондеры понадобятся, а еще и модифицированный драйвер, который включает 3D ускорение. и все таки не факт что на карте вы поиграете, неизвестно в каком состоянии блоки которые за это 3D ускорение отвечают. может как у меня окажется - в целом рабочая карта, но в определенной задаче начинает "плыть"
При полном загрузе 24/7 и стандартном тарифе на ЭЭ цена работы машины ~6500 руб
А стандартный тариф - это какой ? А то по всей России тарифы разные
под полным загрузом я имею в виду лимит блока питания. берите 1800W и считайте исходя из вашего тарифа. обычно в задачах система потребляет 600-700W. В простое с учетом P8 около 150W. я подключил все это дело через умную розетку, она считает потребление, реальный расход с московским тарифом скину позже, если не забуду :)
Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080