На Github перечислены некоторые ограничения, - например то, что работа Nerdlog нагружает серверы на которых запущены сервисы.
Я бы добавил ещё одно ограничение: если сервер взломали, то с Nerdlog я логи посмотреть не смогу. А вот если логи собирались на Elastic / Splunk / ... - то логи того, как лезут на сервер у меня останутся.
Вот интересно, Если Microsoft прочухается, и завтра добавит функциональность вашей Wiki в их родную Wiki (я так понял основное - это поиск), то вашему продукту - конец?
Базовое решение Ceph — очень популярное, мощное и надёжное распределённое хранилище.
... В целом нет ничего хуже, чем развал кластера. В этой ситуации придётся долго и весело танцевать с бубном, если у вас не настроены итеративные бэкапы.
Ceph - это всегда танцы с бубном. Даже если настроены бэкапы
В GPU или в RAM - куда есть туда и грузить. Понятно, что GPU работает раз в 10 быстрее, но у кого есть столько?
Когда вышла прошлая версия DeepSeek V3, то народ запускал инференцию даже с SSD дисков... Скорость конечно была очень медленная, но в принципе - можно...
Я прошлую версию (q4_K_M 400GB) запускал в памяти DDR4-2666 - получалось около 2 токена в секунду.
Сейчас выпустят продвинутые кванты, и я себе поставил 72GB VRAM, то думаю получится нормальной скорости достичь...
Unsloth написали блог про то, как запустить модель с "умными" квантами:
Мощность атомного реактора - около 1000 МегаВатт. Обычно на атомной станции - несколько реакторов.
Получается от одного реактора может одновременно заряжаться около 1000 таких машин по мегаватту. Ну если такая зарядка длиться всего 5-10 минут, то за день таких машин можно много зарядить...
на стороне нашего прокси ... мы выставили следующие лимиты:
максимум 10 запросов в секунду с одного IP
А что - так можно? У меня опыта нету, но я думал, что если трафик проксируется через Cloudflare, то и идти он весь будет с их нескольких IP. Или я неправ?
Это не столько о том, что стёрли логи, а ещё про сценарий когда потеряли доступ к серверу. Заблокировали пользователя.
Или когда диск сдох. То в отправленных логах ещё бывает можно что-то увидеть, а вот на сам сервер зайти бывает уже не получается.
Довольно "хакерский" проект.
На Github перечислены некоторые ограничения, - например то, что работа Nerdlog нагружает серверы на которых запущены сервисы.
Я бы добавил ещё одно ограничение: если сервер взломали, то с Nerdlog я логи посмотреть не смогу. А вот если логи собирались на Elastic / Splunk / ... - то логи того, как лезут на сервер у меня останутся.
Для полноты картины, наверное стоило бы упомянуть про finalizers.
Не знаю, если это именно "жизненный цикл", но нередко именно finalizers не дают поду умереть...
Да, называются TTS. Но большинство поддерживает ограниченный набор языков.
Вот тут открытая модель с поддержкой русского:
https://huggingface.co/OuteAI/Llama-OuteTTS-1.0-1B
https://github.com/edwko/OuteTTS
Вот интересно,
Если Microsoft прочухается, и завтра добавит функциональность вашей Wiki в их родную Wiki (я так понял основное - это поиск), то вашему продукту - конец?
Базовое решение Ceph — очень популярное, мощное и надёжное распределённое хранилище.
... В целом нет ничего хуже, чем развал кластера. В этой ситуации придётся долго и весело танцевать с бубном, если у вас не настроены итеративные бэкапы.
Ceph - это всегда танцы с бубном. Даже если настроены бэкапы
Что-то колбасит их там неслабо так...
Я видел комментарий, что у OpenAI модель 4.1 тренировалась на данных середины 2024.
А вот Gemini 2.5 - начало 2025.
Это может быть критично для проектов, в которых новые версии выходят чуть ли не каждую неделю.
И сколько человек работает для IT-поддержки всей этой системы?
Если без квантизации - то нужно грузить все 700.
В GPU или в RAM - куда есть туда и грузить. Понятно, что GPU работает раз в 10 быстрее, но у кого есть столько?
Когда вышла прошлая версия DeepSeek V3, то народ запускал инференцию даже с SSD дисков... Скорость конечно была очень медленная, но в принципе - можно...
Я прошлую версию (q4_K_M 400GB) запускал в памяти DDR4-2666 - получалось около 2 токена в секунду.
Сейчас выпустят продвинутые кванты, и я себе поставил 72GB VRAM, то думаю получится нормальной скорости достичь...
Unsloth написали блог про то, как запустить модель с "умными" квантами:
https://docs.unsloth.ai/basics/tutorial-how-to-run-deepseek-v3-0324-locally
Модель от DeepSeek - около 700GB, так что запустить на своём компьютере непросто.
Bartowsky сейчас заливает кванты на эту модель: https://huggingface.co/bartowski/deepseek-ai_DeepSeek-V3-0324-GGUF
Ребята из Unsloth работают над продвинутой квантизацией: https://huggingface.co/unsloth/DeepSeek-V3-0324-GGUF
Все эти кванты - продолжают пока заливать... Интересно будет сравнить их размеры и качество...
Мощность атомного реактора - около 1000 МегаВатт. Обычно на атомной станции - несколько реакторов.
Получается от одного реактора может одновременно заряжаться около 1000 таких машин по мегаватту. Ну если такая зарядка длиться всего 5-10 минут, то за день таких машин можно много зарядить...
Да даже покупку простого билета из A в Б никто нейросетям не доверяет.
А нам тут заливают, что уже скоро AGI...
Даёшь свой CNCF!
DeepSeek остаётся тем самым выбором, который оправдывает себя, когда
ошибаться нельзя
.
Когда ошибаться нельзя - никакая ИИ не подходит. Не доросли ИИ ещё до этого.
Я поставил себе Gitlab, и использую его, как container registry.
Он правда работает не совсем, как обычный registry, но удобно, что есть своя CI.
на стороне нашего прокси ... мы выставили следующие лимиты:
максимум 10 запросов в секунду с одного IP
А что - так можно? У меня опыта нету, но я думал, что если трафик проксируется через Cloudflare, то и идти он весь будет с их нескольких IP. Или я неправ?
Капча - это зло. Иногда, конечно, выхода нет, но у Cloudflare с этим перебор.
Бесплатный домен? Что-то не видел я бесплатного домена у Cloudflare, я плачу. Где найти бесплатный?
Такие "IT-модели" есть:
https://ollama.com/library/qwen2.5-coder
А ещё, разработчики Ollama подложили всем свинью, назвав distilled модели - DeepSeek R1. А автор за ними это повторяет в статье.
deepseek-r1:14b - мало что общего имеет с настоящим DeepSeek R1. Это просто distill от Qwen модели.
Настоящий DeepSeek R1 - это 671b, который может быть в разных вариантах квантизации, но не бывает 14b, 32b, 70b ...
Там на самом деле 24 канала, потому что 2 процессора, и у каждого - 12 своих каналов DDR5-6000.
Вот только LLM не умеет "правильно" запускаться на 2х процессорах, поэтому скорее всего на 2х процессорах будет медленнее, чем на одном с 12 каналами.