Обновить
16K+
57
Валерий Курышев@Walker2000

Директор по продукту

23
Рейтинг
43
Подписчики
Хабр КарьераХабр Карьера
Отправить сообщение

Добрый день. Спасибо за оценку )

Вообще пишут, что для максимизации производительности лучше перейти на Linux. Но в моем случае компьютер по выполняет функции офисного. Как-от переходить специально на Linux выглядит излишним. С WSL не экспериментировал по причине дефицита времени.

Пришлите ссылочку, если не затруднит.

Не за что. Рад, что статья принесла пользу )

Мини ПК на strix halo со 128 ГБ на Озон сейчас от 250 тыс. Подорожало, до нового года было в районе 180. Потребление в зависимости от режима. От 60 до 120 Вт. Нормально работает в среднем (80…90 Вт). Разгонять до 120 смысла особого нет, скорость генерации практически не растет.

Хорошее замечание. Я поджал модели для того, чтобы влезали в память сразу три. Но потом остановился на двух. Поэтому можно параметры поднять слегка. На сколько по вашим ощущениям увеличивается качество генерации с KV кэшем в bf16 по сравнению с Q8? Я читал, что разницы не заметно.

Выгрузка и загрузка моделей сильно замедляет сессию. Не прижилось как то.

Лучше 3090 с 24 Гб. Тогда можно будет qwen3.6-27b побыстрее инференсить. Наверное, с 50 t./s. Но модель сжатую до q4 придется юзать при этом.

Да, это стоит попробовать, спасибо за наводку. Ранее смотрел в сторону qwen code. Но на тот момент это была еще сырая система, только только скопированная с гугловской cli. Возможно, ситуация изменилась.

Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.

Раньше я использовал в основном gpt-oss-120b, потом qwen3-coder-next (80 млрд параметров), с появлением qwen3.6 перешел на модели этой линейки. Качество ответов у них выше, контекстное окно больше. Из имеющихся сейчас моделей 3.6 показалось оптимальным выбором.

Pi не смотрел. Claude code понравился хорошими результатами «из коробки» по сравнению с OpenCode и Kilocode.

Добрый день. Очень любопытный фреймворк. Настолько, что захотелось попробовать. Но если в лоб запустить простейший код Quickstart из репозитория проекта (поменяв правда модель с gpt-4o на локальную qwen3-coder-30b из под ollama), он не работает.

from rlm_toolkit import RLM

# Создаём RLM с OpenAI
rlm = RLM.from_ollama("qwen3-coder:30b")

# Простой запрос
result = rlm.run("Объясни квантовые вычисления простыми словами")
print(result.final_answer)

Выпадает с ошибкой:

TypeError: RLM.run() missing 1 required positional argument: 'context'

Если проставить аргументы query и context, то спустя минуту вывалится уже с ошибкой:

 print(result.final_answer)
          ^^^^^^^^^^^^^^^^^^^
AttributeError: 'RLMResult' object has no attribute 'final_answer'

Слегка обескураживает...

Похоже, пользователь Реддит, который опубликовал эти результаты, что-то намудрил с настройками в LM Studio.

А если модель не влезает в видюху? Вот здесь есть тест gpt-oss-120b на компе RTX 5090 (32 GB VRAM) + Ryzen 9 9950X3D + 96 GB RAM. В три раза медленнее, чем получается на моём Strix Halo. На днях дополню пост, пожалуй.

Зависимость вывода первого токена от длины контекста
Зависимость вывода первого токена от длины контекста

Для qwen3-coder-30b примерно такая картина. Единственное, квантизация здесь q8_0. И параметры настройки нейросети в LM Studio были ещё не оптимальные, скорее всего. И кнопка мощности в среднем положении (80 Вт на графическом ускорителе). Так что в реальности побыстрее должно быть. На коротком контексте быстродействие qwen30-coder-30b можно посмотреть в обзоре, который в статье последним приведён. Там простая qwen3-30, думаю, они примерно одинаково себя ведут. Мне больше понравилась gpt-oss-120b, надо сказать.

У GMKtec EV0-X2 три вентилятора для охлаждения. Плюс эта модель в принципе наиболее покупаемая была на тот момент времени судя по количеству заказов. Поэтому решил остановиться на нем. Сейчас немного напрягает внешний источник питания. Возможно, стоило по этой причине приглядеться к Beelink GTR 9 Pro AI. Но я не изучал, насколько эффективно у него работает система охлаждения.

Я не занимался тестированием видеокарт и не планирую, если честно. Как по мне, такой подход слишком сложный и энергозатратный. Но тема популярна, попробуйте поискать решение на реддит, полагаю, кто-то точно делал такое сравнение.

VRAM до 96 Гб. Судя по ссылке с тестами LLM на Strix Halo, Linux можно на него поставить. Приведенные тесты делались на Linux.

Спасибо за оценку. Про генеративные модели не подскажу, к сожалению, не работал с ними.

4090 это 300 тыс руб. Есть ли смысл связываться, если можно купить готовый комп под инференс моделей вплоть до 120 млрд. параметров за 200?

1
23 ...

Информация

В рейтинге
393-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Директор по продукту
Ведущий
Python