Обновить
55
2.1
Валерий Курышев @Walker2000

Директор по продукту

Отправить сообщение

А если модель не влезает в видюху? Вот здесь есть тест gpt-oss-120b на компе RTX 5090 (32 GB VRAM) + Ryzen 9 9950X3D + 96 GB RAM. В три раза медленнее, чем получается на моём Strix Halo. На днях дополню пост, пожалуй.

Зависимость вывода первого токена от длины контекста
Зависимость вывода первого токена от длины контекста

Для qwen3-coder-30b примерно такая картина. Единственное, квантизация здесь q8_0. И параметры настройки нейросети в LM Studio были ещё не оптимальные, скорее всего. И кнопка мощности в среднем положении (80 Вт на графическом ускорителе). Так что в реальности побыстрее должно быть. На коротком контексте быстродействие qwen30-coder-30b можно посмотреть в обзоре, который в статье последним приведён. Там простая qwen3-30, думаю, они примерно одинаково себя ведут. Мне больше понравилась gpt-oss-120b, надо сказать.

У GMKtec EV0-X2 три вентилятора для охлаждения. Плюс эта модель в принципе наиболее покупаемая была на тот момент времени судя по количеству заказов. Поэтому решил остановиться на нем. Сейчас немного напрягает внешний источник питания. Возможно, стоило по этой причине приглядеться к Beelink GTR 9 Pro AI. Но я не изучал, насколько эффективно у него работает система охлаждения.

Я не занимался тестированием видеокарт и не планирую, если честно. Как по мне, такой подход слишком сложный и энергозатратный. Но тема популярна, попробуйте поискать решение на реддит, полагаю, кто-то точно делал такое сравнение.

VRAM до 96 Гб. Судя по ссылке с тестами LLM на Strix Halo, Linux можно на него поставить. Приведенные тесты делались на Linux.

Спасибо за оценку. Про генеративные модели не подскажу, к сожалению, не работал с ними.

4090 это 300 тыс руб. Есть ли смысл связываться, если можно купить готовый комп под инференс моделей вплоть до 120 млрд. параметров за 200?

В статье есть ссылочка про сравнение m3 ultra со сборками на видеокартах. К сожалению, оно не очень подробное. Но в сети наверняка что-то и поинтереснее есть, если покопаться.

Поправил, спасибо.

Да, всё верно. В меньшую сторону тоже работает. 120 млрд параметров с квантизацией 4 бита это примерно 60 Гб весов модели.

Спасибо за оценку. Если есть несколько компов с небольшим объемом памяти, можно запустить несколько небольших моделей или несколько агентов на основе них. Если, конечно, есть соответствующая задача.

Ну если в общем, то да. Облачная LLM это не только собственно LLM, но и сопутствующие сервисы (поиск в интернет, преобразование документов и автомтическое помещение их в промт, оптимизация системного промта, как минимум). В награду за всё это удобство пользователь шлёт информацию, которую ранее не доверял даже поисковикам.

Так и есть. Теперь можно показать жене эту статью. Правда, тут не совсем про видеокарту, скорее про мини компы.

И те и другие могут добучаться только в том случае, если их кто-то дообучает )

Напишите в личку. В зависимости от того, на каком железе запускаете, ком порт нужно настраивать поразному.

Довольно неплохие результаты были, кстати. Число подписчиков увеличилось за пару месяцев неспешного автолайкинга с 80 до 400 человек. Но потом Инстаграм стал банить. Они сейчас активно борются с роботами, похоже, а паттерн поведения робота был весьма прямолинейным (каждый час логинимся и ставим 20 лайков фото с собаками). Пока робот не подключен. Нужно добавить в его работу элемент случайности, но руки всё никак не доходят.
Тут сравнить не получится. Вы сначала поставили мощнейший фрейм, а после этого вставили опрос ) Так что пункты этого опроса можно делать любыми. Лично мне бы тоже было интересно, сколько людей считают, что появление вируса «в миру» произошло из-за случайной утечки.

И большое спасибо за статью, очень доходчиво и убедительно.
Любопытный подход ) И рабочий при этом.
На самом деле полную матрицу косинусных расстояний хранить не обязательно. В движках CMS на карточках товаров как правило есть поля для указания рекомендаций. На каждый товар имеет смысл делать не больше 10 рекомендаций (бОльшее количество, пользователь сайта вряд ли воспримет). Вот и получается, что достаточно будет для каждой SKU хранить с десяток наиболее близких «соседей». То есть для N SCU получится матрица 10*N.
Я вырос в абсолютно нерелигиозной семье. Среди моих знакомых и друзей тоже почти не было религиозных людей. Поэтому с самого детства меня мучал один вопрос: почему существуют религии?


Почитайте Харари. Он блестяще ответил на этот вопрос. Правда ответ рассредоточен по всем его трём книгам. Но основное — в первой, насколько помню.
1
23 ...

Информация

В рейтинге
1 373-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность

Специализация

Технический директор, Директор по продукту
Ведущий
Python