Comments / Profile of General777 / Habr

Alexander@General777

Администратор

ProfileArticlesPostsNewsComments3

Как развернуть полноценный n8n AI-стек за 15 минут, а не за целый день

General777 Dec 7 2025 at 16:55

Здравствуйте с учётом того что выходит новая версия n8n насколько ваша система надо переадаптировать?

Как развернуть свою базу знаний на wiki-движке Outline 🤓🌐 ...

General777 Oct 20 2025 at 05:54

Ниже — честный и практичный «что может пойти не так» при внедрении AI-помощника в XWiki. Всё — на реальных примерах и issue-трекерах, без маркетинговой сказки.

Функционал ещё в BETA, «сырое» ядро

Индексация контента (RAG) в официальном расширении LLM Application пока не всегда стартует: у авторов статьи на Хабре не поднялся компонент Index for the LLM Application «из коробки»; пришлось оставлять эксперимент до следующего релиза .
Встроенный LLM Internal Inference Server умеет только эмбеддинги; чат-модели туда пока не завезли: «CPU будет думать минуту, а качество всё равно низкое» . Поэтому для чата придётся держать отдельный GPU-сервер (LocalAI, vLLM, Ollama) и синхронизовать API.

Производительность и железо

Компонент Что происходит
Solr + векторный индекс На 30 000 страниц первичное построение индекса занимает 15–30 мин и жрёт 4–6 ГБ ОЗУ; каждая перепубликация — полный реиндекс блока.
LLM-запрос Даже 7B-модель на CPU = 30–90 s Time-To-First-Token; пользователь закрывает вкладку.
Контекстное окно Локальные 8k токенов + «системный» промпт + чанки из Solr; быстро выбивается за потолок → ответы «не по теме» или усечение.

Итог: GPU почти обязателен, а значит — отдельная ВМ, 24 ГБ VRAM, 300–500 Вт мощности, шум и счета за электричество.

Права доступа и утечки данных

Пока RAG-чанки формируются до проверки ACL, модель теоретически может подсунуть пользователю фрагмент, который он по правам видеть не должен.
В MCP-варианте сервис-аккаунт обычно читает «всё»; если забыть фильтровать выдачу, конфиденциальные сведения уйдут в чат.
При использовании облачных API (OpenAI, GPT-4) ваш корпоративный текст улетает наружу: Data Processing & Retention — по политике поставщика, а не вашей.

Качество ответов и «галлюцинации»

Вики-разметка, макросы и таблицы при разбиении на чанки превращаются в markdown-кашу; модель «думает», что это plain text, и выдаёт бред.
Для русского языка эмбеддинговые модели (all-MiniLM-L6-v2, e5-small) показывают на 15–20 % ниже recall, чем на английском; приходится брать большие модели → ещё больше RAM/VRAM.
Если индекс устарел на пару дней, а политика ИБ изменилась, ассистент продолжает цитировать отозванную страницу.

Стоимость лицензий/поддержки

«Бесплатное» расширение LLM Application = AGPL, но векторный Solr-плагин и поддержка RAG в коммерческой поддержке XWiki Cloud идёт только в paid-тариф (≈ 18 €/пользователь/мес).
Собственный GPU-контур:
- RTX 4090 24 ГБ ≈ 2 000 € + 2U-сервер ≈ 1 000 € + 200 Вт × 24 ч × 0,08 € ≈ 15 €/мес электричества.
- Если выбираете A100 80 ГБ в облаке РФ-движка — 0,7 €/час; при 8-часовой рабочей нагрузке на 20 дней ≈ 110 €/мес только за GPU.

Юридические и этические риски

Авторские права: модель может «сгенерировать» текст, похожий на защищённый источник, который был загружен в вики.
Персональные данные: если в статье встречаются ФИО/телефоны сотрудников, они попадают в индекс и далее в ответ.
Ошибочные советы: AI-рецепт «как перезапустить прод-БД» может быть устаревшим; вы всё равно получите инцидент, а страховка покроет ли его?

Административная сложность

Два дополнительных стека: vector-Solr + LLM-сервер = ещё 2–3 Docker-контейнера, мониторинг, бэкапы, обновления.
При обновлении XWiki с 16.2 → 16.4 бывает breaking change в REST-контракте; MCP-скрипт перестаёт видеть страницы до ручной правки.
Пользователи начинают спамить чатом вместо поиска: нагрузка на GPU вырастает в 3–5 раз, приходится ставить rate-limit и очередь.

Что делать, чтобы минусы не стали провалом
Пилот только на одном пространстве (например, IT-FAQ), а не на всей вики.
Вынести LLM в отдельный сегмент сети → запретить ему ходить наружу; включить логирование всех prompt/response.
Обновлять индекс каждый вечер и хранить версию индекса = можно быстро откатить, если нашли утечку.
Добавить disclaimer «Ответ сгенерирован ИИ, за точность отвечаете вы» и кнопку «Пожаловаться» — собирать обратную связь.
Заложить в бюджет GPU-A100 хотя бы 40 ГБ или локальный RTX 4090; иначе пользователи забросят сервис после первого 60-секундного ожидания.

И главное: AI-помощник — не замена поиска и не истина в последней инстанции. Это ускоритель, который требует такого же уровня сопровождения, как и любой другой критичный сервис в вашей инфраструктуре.

Horizon Alpha: загадочная модель, которую уже считают «младшим GPT-5»

General777 Aug 2 2025 at 08:37

Без кредитов не хочет работать

Information

Specialization