А если модель не влезает в видюху? Вот здесь есть тест gpt-oss-120b на компе RTX 5090 (32 GB VRAM) + Ryzen 9 9950X3D + 96 GB RAM. В три раза медленнее, чем получается на моём Strix Halo. На днях дополню пост, пожалуй.
Зависимость вывода первого токена от длины контекста
Для qwen3-coder-30b примерно такая картина. Единственное, квантизация здесь q8_0. И параметры настройки нейросети в LM Studio были ещё не оптимальные, скорее всего. И кнопка мощности в среднем положении (80 Вт на графическом ускорителе). Так что в реальности побыстрее должно быть. На коротком контексте быстродействие qwen30-coder-30b можно посмотреть в обзоре, который в статье последним приведён. Там простая qwen3-30, думаю, они примерно одинаково себя ведут. Мне больше понравилась gpt-oss-120b, надо сказать.
У GMKtec EV0-X2 три вентилятора для охлаждения. Плюс эта модель в принципе наиболее покупаемая была на тот момент времени судя по количеству заказов. Поэтому решил остановиться на нем. Сейчас немного напрягает внешний источник питания. Возможно, стоило по этой причине приглядеться к Beelink GTR 9 Pro AI. Но я не изучал, насколько эффективно у него работает система охлаждения.
Я не занимался тестированием видеокарт и не планирую, если честно. Как по мне, такой подход слишком сложный и энергозатратный. Но тема популярна, попробуйте поискать решение на реддит, полагаю, кто-то точно делал такое сравнение.
В статье есть ссылочка про сравнение m3 ultra со сборками на видеокартах. К сожалению, оно не очень подробное. Но в сети наверняка что-то и поинтереснее есть, если покопаться.
Спасибо за оценку. Если есть несколько компов с небольшим объемом памяти, можно запустить несколько небольших моделей или несколько агентов на основе них. Если, конечно, есть соответствующая задача.
Ну если в общем, то да. Облачная LLM это не только собственно LLM, но и сопутствующие сервисы (поиск в интернет, преобразование документов и автомтическое помещение их в промт, оптимизация системного промта, как минимум). В награду за всё это удобство пользователь шлёт информацию, которую ранее не доверял даже поисковикам.
Довольно неплохие результаты были, кстати. Число подписчиков увеличилось за пару месяцев неспешного автолайкинга с 80 до 400 человек. Но потом Инстаграм стал банить. Они сейчас активно борются с роботами, похоже, а паттерн поведения робота был весьма прямолинейным (каждый час логинимся и ставим 20 лайков фото с собаками). Пока робот не подключен. Нужно добавить в его работу элемент случайности, но руки всё никак не доходят.
Тут сравнить не получится. Вы сначала поставили мощнейший фрейм, а после этого вставили опрос ) Так что пункты этого опроса можно делать любыми. Лично мне бы тоже было интересно, сколько людей считают, что появление вируса «в миру» произошло из-за случайной утечки.
И большое спасибо за статью, очень доходчиво и убедительно.
Любопытный подход ) И рабочий при этом.
На самом деле полную матрицу косинусных расстояний хранить не обязательно. В движках CMS на карточках товаров как правило есть поля для указания рекомендаций. На каждый товар имеет смысл делать не больше 10 рекомендаций (бОльшее количество, пользователь сайта вряд ли воспримет). Вот и получается, что достаточно будет для каждой SKU хранить с десяток наиболее близких «соседей». То есть для N SCU получится матрица 10*N.
Я вырос в абсолютно нерелигиозной семье. Среди моих знакомых и друзей тоже почти не было религиозных людей. Поэтому с самого детства меня мучал один вопрос: почему существуют религии?
Почитайте Харари. Он блестяще ответил на этот вопрос. Правда ответ рассредоточен по всем его трём книгам. Но основное — в первой, насколько помню.
А если модель не влезает в видюху? Вот здесь есть тест gpt-oss-120b на компе RTX 5090 (32 GB VRAM) + Ryzen 9 9950X3D + 96 GB RAM. В три раза медленнее, чем получается на моём Strix Halo. На днях дополню пост, пожалуй.
Для qwen3-coder-30b примерно такая картина. Единственное, квантизация здесь q8_0. И параметры настройки нейросети в LM Studio были ещё не оптимальные, скорее всего. И кнопка мощности в среднем положении (80 Вт на графическом ускорителе). Так что в реальности побыстрее должно быть. На коротком контексте быстродействие qwen30-coder-30b можно посмотреть в обзоре, который в статье последним приведён. Там простая qwen3-30, думаю, они примерно одинаково себя ведут. Мне больше понравилась gpt-oss-120b, надо сказать.
У GMKtec EV0-X2 три вентилятора для охлаждения. Плюс эта модель в принципе наиболее покупаемая была на тот момент времени судя по количеству заказов. Поэтому решил остановиться на нем. Сейчас немного напрягает внешний источник питания. Возможно, стоило по этой причине приглядеться к Beelink GTR 9 Pro AI. Но я не изучал, насколько эффективно у него работает система охлаждения.
Я не занимался тестированием видеокарт и не планирую, если честно. Как по мне, такой подход слишком сложный и энергозатратный. Но тема популярна, попробуйте поискать решение на реддит, полагаю, кто-то точно делал такое сравнение.
VRAM до 96 Гб. Судя по ссылке с тестами LLM на Strix Halo, Linux можно на него поставить. Приведенные тесты делались на Linux.
Спасибо за оценку. Про генеративные модели не подскажу, к сожалению, не работал с ними.
4090 это 300 тыс руб. Есть ли смысл связываться, если можно купить готовый комп под инференс моделей вплоть до 120 млрд. параметров за 200?
В статье есть ссылочка про сравнение m3 ultra со сборками на видеокартах. К сожалению, оно не очень подробное. Но в сети наверняка что-то и поинтереснее есть, если покопаться.
Поправил, спасибо.
Да, всё верно. В меньшую сторону тоже работает. 120 млрд параметров с квантизацией 4 бита это примерно 60 Гб весов модели.
Спасибо за оценку. Если есть несколько компов с небольшим объемом памяти, можно запустить несколько небольших моделей или несколько агентов на основе них. Если, конечно, есть соответствующая задача.
Ну если в общем, то да. Облачная LLM это не только собственно LLM, но и сопутствующие сервисы (поиск в интернет, преобразование документов и автомтическое помещение их в промт, оптимизация системного промта, как минимум). В награду за всё это удобство пользователь шлёт информацию, которую ранее не доверял даже поисковикам.
Так и есть. Теперь можно показать жене эту статью. Правда, тут не совсем про видеокарту, скорее про мини компы.
И те и другие могут добучаться только в том случае, если их кто-то дообучает )
Напишите в личку. В зависимости от того, на каком железе запускаете, ком порт нужно настраивать поразному.
И большое спасибо за статью, очень доходчиво и убедительно.
На самом деле полную матрицу косинусных расстояний хранить не обязательно. В движках CMS на карточках товаров как правило есть поля для указания рекомендаций. На каждый товар имеет смысл делать не больше 10 рекомендаций (бОльшее количество, пользователь сайта вряд ли воспримет). Вот и получается, что достаточно будет для каждой SKU хранить с десяток наиболее близких «соседей». То есть для N SCU получится матрица 10*N.
Почитайте Харари. Он блестяще ответил на этот вопрос. Правда ответ рассредоточен по всем его трём книгам. Но основное — в первой, насколько помню.