Comments / Profile of AGmind / Habr

A.G.@AGmind

LLMOps / AI Platform Engineer

Rating

Subscribers

ProfileArticles7PostsNewsComments20

DSpark на двух DGX Spark: порт, баг на одну строку и бенчмарки, которые пришлось мерить заново

AGmind Jul 5 at 18:31

буду прыгать от радости если предложат оффер поработать с таким железом)

Как я обучил русский RAG‑сплиттер, который режет документы по индексам, а не по тексту

AGmind Jul 5 at 14:34

Здравствуйте! как раз под эту проблему надеюсь на след неделе выпущу статью) конкретного решения еще нет к сожалению..

Иллюзия безопасности или как ваши сотрудники прямо сейчас обучают конкурентов

AGmind Jul 4 at 19:30

Спасибо, что обращаете внимание на эту тему — про неё почему-то мало говорят, все радуются облакам и не думают, куда уходят их данные. Сам ни разу не пожалел, что выбрал вектор локальных нейросетей: всё крутится на своём железе, и спится спокойнее)

Как я обучил русский RAG‑сплиттер, который режет документы по индексам, а не по тексту

AGmind Jul 4 at 19:26

Спасибо за фидбек! Приятно, что дочитали и разобрали по существу. И да, рад, что эксперимент удался — сам не был уверен, что доеду до рабочей модели.

Согласен, чинить надо в данных. Промпт учителя в v1 был совсем простой: пронумерованные куски, жёсткая JSON-схема и желаемый размер чанка (~120–300 слов). Примеров «тут одна мысль, не режь» не было — добавлю. Плюс попробую голосование из нескольких прогонов: в v1 руки не дошли, каждый пример размечался одним запросом.
Да, это главная слабость текущих цифр — модель заучивает и ошибки учителя. Большой эталон с ручной разметкой очень хочется: техдоки, прайсы, таблицы — ровно там учитель чаще всего косячит. Но руками это долго, начну с малого. Соберу фидбек по первой версии — прогоню идеи на тестах и посмотрю, что реально даёт прирост.

DeepSeek выложил в open source DSpark — модуль, ускоряющий ответы ИИ почти вдвое

AGmind Jun 28 at 18:02

спасибо за новость попробую под gb10 его форкнуть

DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user

AGmind Jun 28 at 12:41

Здравствуйте! С W-3500 и 8-каналкой дела не имел — там лучше смотреть бенчи у тех, кто реально поднимал.

По GB10 скажу прямо: софт пока сырой, всё держится на комьюнити-форках — под DeepSeek-V4 вообще только jasl-форк, часть кернелов под consumer Blackwell ещё не завезли. Завести и стабилизировать можно (у нас в проде крутится), но повозиться с настройкой придётся. Под серьёзный стабильный инференс без плясок я бы смотрел зрелое железо — H100/H200 или старший Blackwell, где стек работает из коробки.

DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user

AGmind Jun 25 at 12:10

не пробовал. спасибо за рецепт) если будет время потестирую

DeepSeek‑V4‑Flash на двух DGX Spark: как мы убрали очередь и получили multi‑user

AGmind Jun 23 at 09:43

8 параллельных — это не потолок железа, а наша настройка max-num-seqs 8 (взяли из community-рецепта и на ней остановились). KV-cache на боевой нагрузке пиково занимал 44.6%, так что запас есть — можно поднять и до 16, упор будет в память, а не в архитектуру. Просто выше 8 под своей нагрузкой не гоняли, поэтому в статью вписал проверенное, а не теоретическое.

Про TTFT — тут вы правы, метрика напрашивалась, я её упустил. Домерил сейчас на живом кластере. Холодный старт (cache miss) линеен по размеру prefill, держим ~2500–2900 t/s на dual-node:

~350 токенов — 0.37 с
~5K — 1.7 с
~12K — 4.2 с
~28K — 15.6 с

А warm (cache hit, тот же префикс) — 0.46 с независимо от размера контекста, потому что prefill просто пропускается.

То есть пугающие секунды вылезают только на холодном запросе с реально большим уникальным контекстом. У ресёрч-агента контекст переиспользуется между шагами (отсюда те самые 88% prefix-cache hit), так что на практике пользователь почти всегда видит warm — доли секунды. Чисто холодный запрос на 30K+ уникального контекста первый токен отдаёт за 15+ секунд, тут приукрашивать нечего.

n8n self-hosted в production: docker-compose, nginx, ретраи и три грабли

AGmind May 11 at 11:47

Спасибо, полезно. От себя добавлю плюс n8n, который часто недооценивают: он одинаково хорош и как главный оркестратор, и как одна нода внутри другого. У нас, например, RAG крутится на Dify, а n8n там дёргается HTTP-нодой на cron, вебхуки и склейку API. От задачи зависит — в обе стороны нормально.

Ну и WEBHOOK_URL=localhost:5678 — классика, все через неё проходили :)

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

AGmind May 11 at 07:30

На английском вышло бы в полтора раза дешевле, да. Но аудитория тут другая — пришлось переплатить токенами.

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

AGmind May 11 at 07:27

Про «9 месяцев назад»: тема — токенизация, а не рейтинг моделей за текущий месяц. Чекпойнты меняются ежемесячно, BPE-вокабы — почти никогда. Цифры по o200k_base / cl100k / Llama 3 / Qwen 3 актуальны независимо от того, вышла ли новая версия модели. Gemma 3 — да, в таблицу просилась; повторюсь, статья не про рейтинг моделей, а про то, как токенайзеры режут кириллицу, и выводы от этого не меняются.

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

AGmind May 11 at 03:25

Так оно квантовано — пять из шести конфигов. Gemma BF16 одна осталась стоковой как baseline, и даже у неё KV cache в FP8 (без этого 252K не поднялся бы в 128 GB).

Остальные: Qwen3.6-FP8, NVFP4 на 4 битах, AEON-7 тоже NVFP4. KV cache везде FP8. Дальше квантовать в Q3 — уже бьёт по качеству, на 35B-MoE особенно.

Про GGUF — vLLM формат читает, но сами разработчики в доке пишут "highly experimental and under-optimized, may not be compatible with other features". Для одиночного юзера локально llama.cpp с GGUF — вполне рабочий путь (форумные замеры на Qwen3-30B-A3B Q4_K_M порядка 80-90 tok/s single-stream). У нас серверная нагрузка с Dify и concurrency, там vLLM с paged attention и continuous batching в разы выгоднее.

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

AGmind May 11 at 02:35

я жду Beelink GTR9 Pro AI Max+ 395 , спарк отлично подходит под дообучение - под инференс это танцы с бубном)

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

AGmind May 9 at 18:07

llama.cpp хорош для одиночного инференса, а мне здесь нужен именно продакшн‑сервер под несколько клиентов. Для этого vLLM с его шедулером, KV‑кэшем и API даёт больше профита, чем голая скорость одного потока. Спасибо за идею с llama.cpp — в одной из следующих статей как раз попробую сравнить оба подхода на таком железе.

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

AGmind May 9 at 16:56

Имея живой опыт работы на GB10, я бы всё‑таки рекомендовал смотреть на решения на базе Strix Halo. По скорости в типичных LLM/ML‑нагрузках разница не драматическая, зато классический x86 даёт предсказуемое поведение, нормальную совместимость с экосистемой и сильно меньше возни с портированием

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

AGmind May 8 at 09:16

ASCII-кавычки тут функциональные: ими в IT-текстах выделяют термины как объекты рассмотрения (mention), ёлочки — для цитат и прямой речи. П.5 чек-листа — про выходной текст модели в продакшене для конечного пользователя, а не про авторский разбор. У этих регистров разные правила пунктуации — собственно, статья ровно об этом столкновении и есть.

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

AGmind May 8 at 02:14

В статье как раз разобран o200k_base — это семейство GPT-4o / GPT-4o-mini / GPT-4 Turbo (4660 кириллических токенов в словаре против 435 у cl100k_base).

GPT-5 использует ровно тот же o200k_base — явно прописано в openai/tiktoken (model.py: “gpt-5”: “o200k_base”). Всё что в статье сказано про эффективность o200k_base на кириллице относится и к нему: отдельно выделять смысла не было, по контентному вокабу разницы нет.

По GPT-5.5 OpenAI отдельно спеки токенайзера не публиковали, в tiktoken на май 2026 явной записи нет. Если есть замер на 5.5 на сопоставимом корпусе — поделитесь, добавлю.

Про «двухлетней давности»: в статье разобрана Llama 4, рекомендованы Qwen 3 и YandexGPT — это всё 2025–2026.

Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло

AGmind May 4 at 17:24

Зачем два OCR-движка (cascade-OCR, Docling)?

Они закрывают разные задачи и стоят в разных пайплайнах, не дублируют друг друга.

Docling — это парсер документов в первую очередь, OCR у него вторичен. Его сильная сторона — PDF/DOCX/PPTX/XLSX → Markdown с сохранением структуры таблиц, заголовков, списков. Для нативно-текстовых документов он почти не использует OCR — вытаскивает текстовый слой напрямую. OCR (через EasyOCR с cyrillic_g2) включается только когда страница оказывается отсканированной. Стоит в Dify-пайплайне, потому что в Dify нативно нет хорошего парсера документов.

RAGFlow cascade-OCR — это не один движок, а каскад из ONNX-моделей под Latin / Cyrillic / Chinese. Используется внутри RAGFlow для специализированных режимов чанкинга (naive / book / laws / paper), где важна именно скан-обработка с распознаванием layout. В апстриме RAGFlow до Hendrik-патча был только английский; ради кириллицы приходится держать его форк.

То есть Docling — для «чистых» документов с текстовым слоем (договоры, выгрузки), RAGFlow с cascade-OCR — для скан-PDF с layout-распознаванием. Решение, какой пайплайн использовать, остаётся за оператором: можно загружать в Dify (Docling) либо в RAGFlow напрямую.

Делали ли анализ существующих OCR-движков?

Да, проверяли несколько вариантов:

Tesseract — отбросили: медленный на скан-PDF и плохо держит таблицы.
EasyOCR — оставили, но только как backend внутри Docling для кириллицы (cyrillic_g2.pth).
MinerU 2.5-Pro — делали полноценный сравнительный замер с Docling. На реальном parallel-батче из 4 PDF Docling отработал за ~5 минут, MinerU — больше 12. Плюс AGPL-лицензия и отсутствие готового arm64-билда под GB10 — для нашей платформы это блокеры. Отказались.
Marker — оставили как теоретический fallback на случай, если попадётся клиент с критичными таблицами в скане. Пока не понадобился.
RAGFlow cascade-OCR (Hendrik fork) — взят целиком вместе с RAGFlow для скан-сценариев, потому что внутри уже есть мультиязычные ONNX-модели и интеграция с layout-detection.

Универсального «лучшего» движка нет — на текстовых PDF быстрее всего читать текстовый слой напрямую (что делает Docling), на сканах с таблицами выигрывает связка layout-detection + OCR (что делает RAGFlow).

Аналогичный вопрос по Dify: сравнивали с n8n и другими похожими продуктами?

Сравнивали. Они закрывают разные ниши, и формально это не конкуренты:

Dify — заточен под LLM-workflows: RAG, knowledge base, prompt-цепочки, агенты с инструментами, multi-step reasoning. Сильная сторона — abstraction над LLM-провайдерами, нативный chunker, knowledge-index ноды. Слабая — cron, webhooks, retry / error paths, интеграции с внешними системами через коннекторы.
n8n — заточен под интеграции: 400+ коннекторов, cron-триггеры, webhook-эндпоинты, retry-политики, error-routing. Слабая сторона — собственно LLM-логика (всё, что сложнее «вызови OpenAI», приходится писать руками в Code-нодах).
Langflow / Flowise — пробовали, по сути упрощённые Dify. Уступают в production-зрелости (плагины, sandbox, multi-tenant).

В AGmind сейчас стоит Dify, но n8n в бэклоге как опциональный compose-profile — для cron-задач и нестандартных интеграций, где Dify слабоват. Это не «или Dify или n8n», скорее «Dify для LLM-логики + n8n для оркестрации поверх».

Если задача из стартовой реплики — «законы → SQL» с HITL и OCR, то типичный layout получается такой: RAGFlow (cascade-OCR + laws chunker) → выгрузка структурированных полей в Postgres → Dify-workflow для запросов / валидации / HITL-аппрува. n8n в этом сценарии не обязателен, но удобен если документы прилетают по расписанию из внешних источников.

Как я собрал на DGX Spark приватный AI-сервер, и теперь рассказываю, что туда вошло

AGmind May 4 at 07:31

gemma-4-26B-A4B-it на 3090 не потянет контекст 128к)

Звонки в службу поддержки Apple в России стали платными

AGmind Apr 28 at 21:27

хорошо что вообще есть звонки )))

Information

Specialization