У Гитлаба есть способ запускать раннеры к Кубернетес кластере - и таким образом масштабироваться за счёт Кубернетеса. Я у себе в домашней лаборатории так настроил. Понятно, что масштабы у меня меньше, но вот такой вариант тоже есть.
из того что я читал про AMD у которых 12 каналов памяти - организованны они как-то хитро, так что не у всех ядер есть доступ ко всем каналам памяти. Что-то там с CCD.
У Интела процессоры Xeon 4-го поколения - честные 8 каналов и есть технология AMX, которая очень ускоряет инференцию. Смотрю сейчас себе взять систему с Xeon W9-3495X
Подтверждаю. У меня Intel Xeon Gold 5218 + 12 модулей памяти по 64GB DDR4-2666. И карточка RTX 3090.
Работает, на прошлой версии получалось почти 3 токена в секунду. А если контекст большой - то ещё медленней. Эту версию ещё не пробовал.
На такой скорости ещё можно набраться терпения для DeepSeek V3. Но вот "размышления (thinking)" R1 ждать что-то очень долго... Ответ может идти минут 10+. Хотя я тут недавно прочитал, что можно запустить DeepSeek R1 в режиме без размышлений. Надо будет попробовать.
Ещё тут экспериментировал с разными настройками тензоров, и для модели qwen3:235b квантизированной в q4_K_M (142 GB) у меня получается около 7 токенов секунду.
На Github перечислены некоторые ограничения, - например то, что работа Nerdlog нагружает серверы на которых запущены сервисы.
Я бы добавил ещё одно ограничение: если сервер взломали, то с Nerdlog я логи посмотреть не смогу. А вот если логи собирались на Elastic / Splunk / ... - то логи того, как лезут на сервер у меня останутся.
Базовое решение Ceph — очень популярное, мощное и надёжное распределённое хранилище.
... В целом нет ничего хуже, чем развал кластера. В этой ситуации придётся долго и весело танцевать с бубном, если у вас не настроены итеративные бэкапы.
Ceph - это всегда танцы с бубном. Даже если настроены бэкапы
В GPU или в RAM - куда есть туда и грузить. Понятно, что GPU работает раз в 10 быстрее, но у кого есть столько?
Когда вышла прошлая версия DeepSeek V3, то народ запускал инференцию даже с SSD дисков... Скорость конечно была очень медленная, но в принципе - можно...
Я прошлую версию (q4_K_M 400GB) запускал в памяти DDR4-2666 - получалось около 2 токена в секунду.
Сейчас выпустят продвинутые кванты, и я себе поставил 72GB VRAM, то думаю получится нормальной скорости достичь...
Unsloth написали блог про то, как запустить модель с "умными" квантами:
Мощность атомного реактора - около 1000 МегаВатт. Обычно на атомной станции - несколько реакторов.
Получается от одного реактора может одновременно заряжаться около 1000 таких машин по мегаватту. Ну если такая зарядка длиться всего 5-10 минут, то за день таких машин можно много зарядить...
на стороне нашего прокси ... мы выставили следующие лимиты:
максимум 10 запросов в секунду с одного IP
А что - так можно? У меня опыта нету, но я думал, что если трафик проксируется через Cloudflare, то и идти он весь будет с их нескольких IP. Или я неправ?
Интересный опыт.
У Гитлаба есть способ запускать раннеры к Кубернетес кластере - и таким образом масштабироваться за счёт Кубернетеса. Я у себе в домашней лаборатории так настроил. Понятно, что масштабы у меня меньше, но вот такой вариант тоже есть.
А что такое DNSmanager?
из того что я читал про AMD у которых 12 каналов памяти - организованны они как-то хитро, так что не у всех ядер есть доступ ко всем каналам памяти. Что-то там с CCD.
У Интела процессоры Xeon 4-го поколения - честные 8 каналов и есть технология AMX, которая очень ускоряет инференцию. Смотрю сейчас себе взять систему с Xeon W9-3495X
Подтверждаю. У меня Intel Xeon Gold 5218 + 12 модулей памяти по 64GB DDR4-2666. И карточка RTX 3090.
Работает, на прошлой версии получалось почти 3 токена в секунду. А если контекст большой - то ещё медленней. Эту версию ещё не пробовал.
На такой скорости ещё можно набраться терпения для DeepSeek V3. Но вот "размышления (thinking)" R1 ждать что-то очень долго... Ответ может идти минут 10+. Хотя я тут недавно прочитал, что можно запустить DeepSeek R1 в режиме без размышлений. Надо будет попробовать.
Ещё тут экспериментировал с разными настройками тензоров, и для модели qwen3:235b квантизированной в q4_K_M (142 GB) у меня получается около 7 токенов секунду.
Это не столько о том, что стёрли логи, а ещё про сценарий когда потеряли доступ к серверу. Заблокировали пользователя.
Или когда диск сдох. То в отправленных логах ещё бывает можно что-то увидеть, а вот на сам сервер зайти бывает уже не получается.
Довольно "хакерский" проект.
На Github перечислены некоторые ограничения, - например то, что работа Nerdlog нагружает серверы на которых запущены сервисы.
Я бы добавил ещё одно ограничение: если сервер взломали, то с Nerdlog я логи посмотреть не смогу. А вот если логи собирались на Elastic / Splunk / ... - то логи того, как лезут на сервер у меня останутся.
Для полноты картины, наверное стоило бы упомянуть про finalizers.
Не знаю, если это именно "жизненный цикл", но нередко именно finalizers не дают поду умереть...
Да, называются TTS. Но большинство поддерживает ограниченный набор языков.
Вот тут открытая модель с поддержкой русского:
https://huggingface.co/OuteAI/Llama-OuteTTS-1.0-1B
https://github.com/edwko/OuteTTS
Базовое решение Ceph — очень популярное, мощное и надёжное распределённое хранилище.
... В целом нет ничего хуже, чем развал кластера. В этой ситуации придётся долго и весело танцевать с бубном, если у вас не настроены итеративные бэкапы.
Ceph - это всегда танцы с бубном. Даже если настроены бэкапы
Что-то колбасит их там неслабо так...
Я видел комментарий, что у OpenAI модель 4.1 тренировалась на данных середины 2024.
А вот Gemini 2.5 - начало 2025.
Это может быть критично для проектов, в которых новые версии выходят чуть ли не каждую неделю.
И сколько человек работает для IT-поддержки всей этой системы?
Если без квантизации - то нужно грузить все 700.
В GPU или в RAM - куда есть туда и грузить. Понятно, что GPU работает раз в 10 быстрее, но у кого есть столько?
Когда вышла прошлая версия DeepSeek V3, то народ запускал инференцию даже с SSD дисков... Скорость конечно была очень медленная, но в принципе - можно...
Я прошлую версию (q4_K_M 400GB) запускал в памяти DDR4-2666 - получалось около 2 токена в секунду.
Сейчас выпустят продвинутые кванты, и я себе поставил 72GB VRAM, то думаю получится нормальной скорости достичь...
Unsloth написали блог про то, как запустить модель с "умными" квантами:
https://docs.unsloth.ai/basics/tutorial-how-to-run-deepseek-v3-0324-locally
Модель от DeepSeek - около 700GB, так что запустить на своём компьютере непросто.
Bartowsky сейчас заливает кванты на эту модель: https://huggingface.co/bartowski/deepseek-ai_DeepSeek-V3-0324-GGUF
Ребята из Unsloth работают над продвинутой квантизацией: https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF
Все эти кванты - продолжают пока заливать... Интересно будет сравнить их размеры и качество...
Мощность атомного реактора - около 1000 МегаВатт. Обычно на атомной станции - несколько реакторов.
Получается от одного реактора может одновременно заряжаться около 1000 таких машин по мегаватту. Ну если такая зарядка длиться всего 5-10 минут, то за день таких машин можно много зарядить...
Да даже покупку простого билета из A в Б никто нейросетям не доверяет.
А нам тут заливают, что уже скоро AGI...
Даёшь свой CNCF!
DeepSeek остаётся тем самым выбором, который оправдывает себя, когда
ошибаться нельзя
.
Когда ошибаться нельзя - никакая ИИ не подходит. Не доросли ИИ ещё до этого.
Я поставил себе Gitlab, и использую его, как container registry.
Он правда работает не совсем, как обычный registry, но удобно, что есть своя CI.
на стороне нашего прокси ... мы выставили следующие лимиты:
максимум 10 запросов в секунду с одного IP
А что - так можно? У меня опыта нету, но я думал, что если трафик проксируется через Cloudflare, то и идти он весь будет с их нескольких IP. Или я неправ?