Comments / Profile of SlavikF / Habr

Славик Фурсов @SlavikF

Developer

ProfileArticles8PostsNewsComments534

Cloudflare Workers: что это и с чем едят

SlavikF Feb 23 at 01:00

Капча - это зло. Иногда, конечно, выхода нет, но у Cloudflare с этим перебор.

Бесплатный домен? Что-то не видел я бесплатного домена у Cloudflare, я плачу. Где найти бесплатный?

Look

Быстрое локальное развертывание DeepSeek

SlavikF Feb 3 at 14:39

Такие "IT-модели" есть:

https://ollama.com/library/qwen2.5-coder

А ещё, разработчики Ollama подложили всем свинью, назвав distilled модели - DeepSeek R1. А автор за ними это повторяет в статье.

deepseek-r1:14b - мало что общего имеет с настоящим DeepSeek R1. Это просто distill от Qwen модели.

Настоящий DeepSeek R1 - это 671b, который может быть в разных вариантах квантизации, но не бывает 14b, 32b, 70b ...

Look

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

SlavikF Jan 30 at 19:54

Там на самом деле 24 канала, потому что 2 процессора, и у каждого - 12 своих каналов DDR5-6000.

Вот только LLM не умеет "правильно" запускаться на 2х процессорах, поэтому скорее всего на 2х процессорах будет медленнее, чем на одном с 12 каналами.

Look

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

SlavikF Jan 30 at 19:29

Да, DeepSeek R1 "мыслит".

А вот DeepSeek V3 - "мысли не генерирует", сразу даёт ответ.

Look

Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере

SlavikF Jan 30 at 19:23

Для сравнения: Nvidia RTX 3090 - это 284 TOPS

Но на самом деле скорость CPU / NPU / ... - именно для DeepSeek неважна. Скорость работы DeepSeek определяется скоростью работы памяти.

Look

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

SlavikF Jan 30 at 19:16

2 процессора - это зря.

Для LLM - 1 процессор работает лучше, чем 2.

Потому что скорость инференции определяется только скоростью памяти. И если модель загружена в память первого процессора, а код запущен - на втором процессоре, то модель будет передаваться через NUMA, скорость которого - 10%-40% от скорость памяти.

Look

Мануал по запуску полной модели DeepSeek-R1 локально (бюджет ~6k$)

SlavikF Jan 30 at 19:08

У меня 2 * Xeon Gold 5218.

Каждый из этих процессоров поддерживает 6 каналов памяти. Я поставил 12 * 64GB DDR4-2666. Получилось 768GB RAM.

Запустил DeepSeek V3 q4_K_M. Это 404GB модель + контекст.

Получил около 2 токенов в секунду:

- response_token/s: 1.9

- prompt_token/s: 3.8 - 5

Работает. Но с такой скоростью оно не надо.

У меня есть Nvidia RTX 3090. Я её добавил, на неё сгрузилось 2 слоя. Быстрее не стало. Всего в модели - 62 слоя.

Look

Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере

SlavikF Jan 29 at 12:33

А ещё память нужна для контекста...

Look

Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере

SlavikF Jan 27 at 17:08

NVIDIA Digits - только 128GB RAM. Для DeepSeek не хватит

Look

Как установить и использовать ИИ модель DeepSeek R-1 на вашем компьютере

SlavikF Jan 27 at 16:58

Я пробовал пару недель назад. Работает на CPU + RAM. Я использовал q4_K_M - 404GB.

response_token/s: 1.9
prompt_token/s: 3.8 - 5

2х процессорная система Intel Xeon Gold 5218, Cascade Lake (2.30 GHz Base / 3.90 GHz Turbo).

У каждого CPU - 6 каналов памяти, поэтому я поставил 12 * DDR4-2666 по 64GB. Получилось 768 GB RAM.

В общем, как эксперимент - интересно, но с такой скоростью - не особо юзабельно.

Количество ядер - не важно. Больше 16 ядер - никак не ускоряют, меньше 16 - замедляют. Всё упирается в скорость памяти. У AMD последние модели процессоров поддерживают 12 каналов DDR5-4800 памяти, то вот там наверное будет боле-менее.

Сегодня вышла статья, про то, как можно квантизацию делать хитрым способом, и тогда требования к памяти получаются ещё раза в два меньше и при этом качество сохраняется:

https://unsloth.ai/blog/deepseekr1-dynamic

https://www.reddit.com/r/LocalLLaMA/comments/1ibbloy/158bit_deepseek_r1_131gb_dynamic_gguf/

Look

RustDesk: удалённый десктоп через свой сервер ретрансляции

SlavikF Jan 22 at 22:19

Я использую guacamole.

https://guacamole.apache.org/

У RustDesk слишком много всего закрытого или платного.

Look

Очередная китай-камера с бэкдором

SlavikF Jan 9 at 19:17

Насколько я разбираюсь в защите, открытый порт - это конечно нехорошо, но это не самая большая проблема, потому что вероятность того, что камера будет торчать в Интернет всеми портами - небольшая.

Более серьёзная проблема - это если камера сама начнёт подключаться к серверам в Интернете и сливать туда что-нибудь...

Обе эти проблемы легко решаются, если поместить их в VLAN, изолированную от Интернета.

+26

Look

Миллионы пенсионеров в США до сих пор не могут расплатиться с долгами за учёбу

SlavikF Dec 28 2024 at 20:34

может пройти банкротство

В Америке есть только две категории долгов, которые не списываются при банкротстве:

налоги
кредиты за образование

+26

Look

Чем серверные GPU-ускорители отличаются от потребительских видеокарт

SlavikF Dec 13 2024 at 14:32

научились нарезать домашние карты

Когда я смотрел детали, то там умельцы это делали для серий 1xxx и 20xx, а вот для 30xx и 40xx вроде бы никто так и не сумел запустить vGPU. Или уже сумели?

Я использовал вот этот guide: https://gitlab.com/polloloco/vgpu-proxmox

Look

Чем серверные GPU-ускорители отличаются от потребительских видеокарт

SlavikF Dec 11 2024 at 23:23

Автор не в теме, но пишет много букф...

только RTX 4090 имеет больше — 24 Гб

RTX 3090 тоже имеет 24 ГБ (большая буква "Б" означает "байт", маленькая "б" - "бит")

Чем серверные GPU-ускорители отличаются от потребительских видеокарт

В статье с таким названием умудрились так и не написать про одно из основных отличий: серверные карты от NVIDIA поддерживают технологию VGPU, а потребительские - нет. VGPU позволяет использовать одну карточку нескольким виртуальным машинам или программам одновременно. Несколько программ могут работать и на потребительских моделях (но не виртуалок), но в серверных моделях для каждой программы можно назначить "профиль", в котором прописать кому сколько ресурсов достанется.

Look

T-Lite и T-Pro – открытые русскоязычные опенсорс-модели на 7 и на 32 млрд параметров

SlavikF Dec 11 2024 at 14:51

Когда будут кванты, то очень интересно было бы посмотреть, как будет работать суммаризация (конспекты) с длинной контекста 32k или 64k.

Look

Релиз Manjaro Linux 24.2

SlavikF Dec 8 2024 at 20:07

А этот дистрибутив умеет иконки на рабочем столе (на десктопе)?

-2

Look

Вызов функций в Ollama

SlavikF Dec 3 2024 at 02:56

А можете ещё добавить примеров? Не нужно код, просто сценарии где могут быть полезны Pipelines?

Look

Open WebUI обновился. Что нового привнесла версия 0.4.5?

SlavikF Nov 27 2024 at 17:28

Уже вышла версия 0.4.6

https://github.com/open-webui/open-webui/releases

Реквестирую статью про использование RAG на базе Open Web UI: или какой-нибудь туториал, или пример использования...

Look

Согласно исследованию Google, более 75% разработчиков полагаются на ИИ, но есть нюанс

SlavikF Oct 28 2024 at 17:21

Программы, практически никогда не состоят из одного файла - обычно это десятки или сотни файлов. Исключение - это может быть shell-скрипты и что-то подобное.

И даже если файлы небольшие - как вы их зальёте в GPT?

Ну есть разные сервисы, которые позволяют загружать в контекст множество файлов, но структуры проекты ещё никто не научился понимать.

Look

1 2 3 4

6 7 ...

26 27