Как стать автором
Обновить

Комментарии 21

Мне тоже понравилось, а меня есть влзможность 70B погонять с хорошим окном контекста. Ревью кода делает тоже неплохо.

Подскажите, какие параметры системы для запуска моделей разных размеров? Условно, что можно запустить на каких объемах оперативы (или там строго видеопамять)?

По умолчанию в Ollama модель идет q4 и с 2K контекстом на ввод-вывод, поэтому ОЗУ от 8 гигов, но лучше от 16. Окно контекста требует примерно 1 Гиг ОЗУ на 2K токенов контекста + столько же видеопамяти плюсом, если хотим полную обработку на GPU.

По видеопамяти примерно умножаем размер модельки из Ollama на 1.5-2 Тогда получаем потребление в распакованном виде. Thinking модели прожорливые, поэтому для него нужно умножать на 2. DeepSekk-r1 14B занимает в сжатом виде 9 Гб. При работе он потребует 18 Гигов видеопамяти (или суммарно видеопамяти + ОЗУ).

Спасибо! Я правильно понял, что если есть зеон с дешевой ddr3-ddr4 на 256 гб и любая видеокарта - то можно уверенно ставить 70B модель?

На CPU будет скорость низкая, для 70B может даже меньше токена в секунду. На 24 ядерном EPYC у меня вышло 1-2 токена в секунду для такой модели.
70B модели даже на связке из нескольких 4090 выдают порядка 15-16 токенов в секунду часто.

Вот у меня статья про AMD-шные RX7900, на них Llama3 70B выдает 10 токенов в секунду.
https://habr.com/ru/companies/hostkey/articles/875710/

Не подскажите, а мне с 3080 10Gb + 64 гб оперы можно на что-то рассчитывать? На каких параметрах и с каким контекстом я смогу уверено работать? И по поводу памяти, насколько тормозит модель тот факт, что она гонит из озу в видеопамять?

Без проблем можно расчитывать на модели, которые имеют размер в сжатом виде в Ollama до 5.5-6 Гб (например Gemma2 9B или DeepSeeker-R1 8B). Тут CPU почти не будет использоваться. Та же Gemma2 требует для работы с контекстом в 2K токенов 10 Гб памяти и на моей 4060 получается порядка 30% нагрузки на CPU. Скорость в районе 8-10 токенов в секунду.

70B работает на 64 ГБ ОЗУ под виндой (Xeon e5), но медленно - 0.5-1 слово в секунду. Поэтому кажется, что в большом объеме ОЗУ смысла нет, т.к. большая модель запустится, но работать будет настолько медленно, что ею будет невозможно пользоваться.

Народ, подскажите.

Комп
Процессор AMD Ryzen 9 7950X 16-Core Processor 4.50 GHz
Оперативная память 64,0 ГБ DDR5
Видеокарта NVIDIA GeForce RTX 4080 SUPER
Материнка MSI PRO B650M-A WIFI (MS-7D77)

Запустил ИИ по инструкции отсюда, модель взял самую легковесную (ту что в статье советовали)
https://aleksandarhaber.com/how-to-install-and-run-deepseek-v3-model-locally-on-gpu-or-cpu/

Заработал, но сожрал всю память, комп практически повесился, генерация символов - 15-20 в минуту.

Вопрос - нормально работающий ИИ на локальном компе, чтобы давал готовый код по промтам, вообще не вариант запустить?

Попробуйте Ollama, она подскажет по команде ollama ps, где крутится модель, на CPU или на GPU. В вашем случае все симптомы того, что модель крутится на CPU, это медленное и неблагодарное занятие.

Если вы взяли ту, что в статье, то вы взяли старшую обычную модель V3 размером 671B, просто квантованную Q2_K_XS.
Для запуска такой модели не хватит 64гб памяти, нужно 210гб, это даже с учетом MoE, фактически модель работала со скоростью вашего диска, откуда вы загружали её, так как памяти не хватило и модель постоянно считывалась с диска.
Для нормальной скорости вам нужна быстрая память, например, минимально 6-8 канальная на б/у эпиках, и то получится 3-4 токена в секунду.

Вам, видимо, нужна дистиллированная версия R1, которая будет размером 70b, 32b или 14b, для такого размера уже хватит скоростей двухканальной ddr5 6000+ с частичной выгрузкой на gpu - https://huggingface.co/collections/unsloth/deepseek-r1-all-versions-678e1c48f5d2fce87892ace5

Но, возможно, вам больше подойдет Qwen 2.5 Coder, так как размышляющая модель R1 требует много генераций - https://huggingface.co/collections/unsloth/qwen-25-coder-6732bc833ed65dd1964994d4

Ollama ставьте и OpenWebUI как морду к ней через pip. Но на 16 Гб видеокартах максимум 14B модели потянет на GPU. Хотя я сам постоянно работаю с Gemma2 9B и T-Lite и мне хватает возможностей.

Сам нашел ответ. Установил GPT4All, методом проб и ошибок выбрал Llama 3 8B
Работает довольно шустро

Сколько букв в слово "котовасия"?

В слове «котовасия» 9 букв. 😊

Сколько в нём букв "о"?

В слове «котовасия» буква «о» встречается 3 раза. 😊

Пронумеруй их.

Конечно! Вот позиции букв «о» в слове «котовасия»:

  1. о — 2-я буква

  2. о — 4-я буква

  3. о — 7-я буква

😊

Покажи, что за буква в позиции 7.

В позиции 7 в слове «котовасия» находится буква «о». 😊

А какая буква перед ней?

Перед буквой «о» на 7-й позиции в слове «котовасия» стоит буква «в» (на 6-й позиции). 😊

Есть ли в этом слове буква "а"?

Да, в слове «котовасия» есть буква «а». Она находится на 8-й позиции. 😊

Здравствуйте. Тоже попробовал deepseek. И обнаружил что она неплохо справляется с генерацией кода. И также неплохо решает задачи с предоставленными ей примерами. по крайней мере с маленькими. При попытке загрузить что-то побольше. Нейросети забывает другую часть кода. А при попытке увеличить контекст. Думает очень долго. У меня комп с 96 Гб оперативки и ollama 70b загрузилась и на cpu выдавала ответы за 15 минут примерно. Но при попытке увеличить размер контекста до 16к думает до сих пор. Уже сутки. Какой контекст нужен если я хочу загрузить проект примерно в миллион символов. И какую видеокарту приобрести достаточно?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий