Подключили B2B email-платформу к голосовым ассистентам через MCP. Архитектура, код, где ломается / Хабр

TL;DR. Live Direct Marketing (LDM) — B2B email-платформа с собственным MCP-сервером. Веб-интерфейс и MCP экспонируют один и тот же /api/* через HybridAuthGuard, поэтому при подключении к голосовому ассистенту через MCP агент получает ровно ту же поверхность, что и пользователь дашборда. Без дублирования контроллеров, без отдельного agent API.

Опробовали в полевых условиях на VODEXPO 2026: голосовая команда → рассылка по сегменту базы → пофайловая верификация доставки в инбокс. Ниже — архитектура, фрагменты кода, и где это всё реально ломается.

Контекст

LDM — мульти-тенантная платформа для B2B коммуникации: CRM (companies/contacts/leads), сегменты, креативы, рассылки, диалоги вход/выход, suppression/stop-lists, антиспам-маркинг, deliverability-чекер. Стек: NestJS + Prisma + PostgreSQL + BullMQ + Redis, фронт на React + Turborepo. Tenant-изоляция через отдельную БД на пользователя.

Главная особенность — пофайловая верификация попадания исходящих писем в инбокс через сеть seed-mailboxes.

Архитектурное решение: UI = MCP

Когда стало понятно, что MCP станет дефолт-стандартом для агентного доступа к SaaS, стандартный выбор был: писать отдельный agent-API mirror поверх существующего веб-API, или сделать единую поверхность. Выбрали второе.

Все эндпоинты живут под /api/*. Перед ними HybridAuthGuard, который умеет резолвить либо сессионный cookie (UI), либо Bearer-ключ формата ldm_pk_* (MCP/voice/external agent). Дальше — один контроллер, один scope-чек, одна бизнес-логика.

// упрощённо
@Injectable()
export class HybridAuthGuard implements CanActivate {
  async canActivate(ctx: ExecutionContext): Promise<boolean> {
    const req = ctx.switchToHttp().getRequest();

    // 1. Bearer (agent / MCP / voice skill)
    const m = req.headers.authorization?.match(/^Bearer (ldm_pk_\w+)$/);
    if (m) {
      const key = await this.apiKeys.verifyHash(m[1]);
      if (!key) throw new UnauthorizedException();
      req.user = key.user;
      req.scopes = key.scopes; // gated по grant
      return this.checkScopeFor(req);
    }

    // 2. Session cookie (web UI)
    const session = await this.sessions.fromCookie(req);
    if (!session) throw new UnauthorizedException();
    req.user = session.user;
    req.scopes = ['*']; // UI = full scope
    return true;
  }
}

Каждая capability описана в /.well-known/agent-card.json (A2A discovery) со своим scope-ом: email:send, crm:read, dialogs:write, mailing:write, и так далее. Bearer-ключ выпускается с явным набором scope-ов — голосовому навыку можно выдать ограниченный ключ, который умеет читать диалоги и слать письма из конкретного аккаунта, но не имеет доступа к exports, billing, suppression management.

MCP-сервер

Опубликован как npm-пакет ldm-crm-mcp. Под капотом тонкая обёртка над /api/*: берёт LDM_API_KEY из env, проксирует MCP-tool вызовы в HTTP. ~30 инструментов на частые операции, ~120 эндпоинтов всего доступно через generic invocation.

Конфиг Claude Desktop / Cursor:

{
  "mcpServers": {
    "ldm-crm": {
      "command": "npx",
      "args": ["-y", "ldm-crm-mcp"],
      "env": { "LDM_API_KEY": "ldm_pk_..." }
    }
  }
}

Подключение к Яндекс Алисе

Схема навыка:

Голос → STT (Яндекс) → текст
Текст → backend навыка → выбор MCP-инструмента + параметры
MCP tool call → /api/* LDM → ответ
Ответ → формулировка реплики → TTS Алисы

В роли «мозга» в backend навыка — Claude через API. Он интерпретирует свободную речь и выбирает нужный tool из MCP-списка. Это избавляет от необходимости писать grammar в навыке для каждой команды.

Аутентификация: account linking через Yandex OAuth → пользователь получает в LDM привязку к Yandex ID, навык получает Bearer-ключ с ограниченным scope (dialogs:read, dialogs:write, mailing:write, contacts:read).

Деструктивные действия (запуск рассылки, отправка письма, апдейт сделки) требуют голосового подтверждения — навык проговаривает summary и ждёт «да». Чтение и брифинг — без.

Полевой кейс: VODEXPO 2026

22 мая 2026. Москва, последний день водохозяйственной выставки. Клиент работает на стенде. Подходит ландшафтный дизайнер, просит каталог решений по водоёмам.

Клиент не за компьютером:

> Алиса, разошли каталог решений по водоёмам по всем подписавшимся 
  ландшафтным дизайнерам.

> Найдено: 247 контактов в сегменте "ландшафтные дизайнеры — подписка".
  Шаблон: "Каталог решений по водоёмам v3, май 2026". 
  Подтвердить отправку?

> Да.

> Отправляю.

Что происходит под капотом (Claude-агент в backend навыка решает выполнить такую последовательность):

# 1. Резолв сегмента
GET /api/contacts?tagId=landscape-designers&subscribed=1&pageSize=500
→ 247 contacts

# 2. Резолв креатива
GET /api/creatives?search=каталог+водоёмы&latest=1
→ creativeId

# 3. Создание mailing task
POST /api/tasks
{
  "methodId": 2,
  "creativeId": "cmoue9...",
  "contactListId": "<ad-hoc>",
  "accountId": "<account>"
}
→ taskId, status: DRAFT

# 4. Self-approve (scope: mailing:write)
POST /api/mailing/$TASK_ID/approve
{ "note": "Voice-approved, designer at VODEXPO booth" }

# 5. Старт
POST /api/tasks/$TASK_ID/start
→ status: ACTIVE

20 секунд — рассылка ушла. Дальше начинается то, ради чего, собственно, всё и затевалось.

Per-message inbox verification

Стандартная схема у cold/B2B email-платформ: warm-up + inbox rotation + pre-flight inbox placement test (отправили 20 писем на seed-mailboxes до запуска, посчитали процент в инбоксе). Это статистическая оценка по сэмплу до факта.

У LDM схема другая: каждое реальное исходящее письмо после отправки верифицируется через сеть seed-mailboxes. На каждого провайдера развёрнуто 10–30 seed-ящиков (для Gmail и Outlook — около 100 каждый). Грубо схема такая: при отправке SMTP → реальный получатель параллельно создаётся test twin на seed-ящик соответствующего провайдера с теми же заголовками, body, аккаунтом-отправителем. Через IMAP опрашиваются папки INBOX vs SPAM/JUNK/Quarantine, результат пишется в поле placement диалога.

Это не идеальный proxy — seed-ящик ≠ конкретный реальный получатель, провайдер может фильтровать индивидуально по recipient-сигналам. Но это сильно лучше pre-flight теста по трём причинам:

Проверка идёт по каждому реальному отправлению, а не по выборке.
Учитывается актуальное состояние репутации в момент отправки (а не за день до запуска кампании).
Падение в спам у конкретного провайдера ловится в реальном времени — и срабатывает автоматический pause, если процент spam за окно превышает порог.

Endpoint, который опрашивает навык после рассылки:

GET /api/dialogs/stats?taskId=$TASK_ID
{
  "total": 247,
  "placement": {
    "inbox": 231,
    "spam": 4,
    "unchecked": 12
  },
  "byProvider": {
    "gmail":   { "inbox": 142, "spam": 1 },
    "yandex":  { "inbox": 47,  "spam": 0 },
    "outlook": { "inbox": 18,  "spam": 3 },
    ...
  }
}

Алиса возвращает голосом: «Отправлено 247. В инбоксе 231, в спаме 4, ещё 12 проверяются. Outlook просел — 3 в спаме из 21».

Биллинг — за 231 inbox-доставленных. 4 спам и 16 заблокированных не тарифицируются.

Где голос работает плохо

Без маркетингового лоска. Голос покрывает 20–30% операций оператора, не больше. Остальные 70% неудобны или невозможны.

Работает хорошо:

Утренний брифинг по входящим диалогам.
Запуск заранее настроенной рассылки по известному сегменту.
Ответ на конкретное входящее письмо (короткий).
Проверка статуса доставки конкретного письма или кампании.
Ad-hoc вопросы по статистике.

Не работает:

Сложные многопараметрические фильтры (вроде «компании Москва + 50–500 сотрудников + e-commerce + без активности 30 дней + tag X»). Это удобнее в UI.
HTML-вёрстка/правка креативов.
Дизайн многошаговых пайплайнов (best-time-sending, последовательности follow-up, A/B-ветвления).
Распознавание латинских доменов / имён компаний. Алиса систематически слышит Apple как «Эппл», Acme как «Акме». Лечится фонетической нормализацией на бэке через словарь из CRM, но точность ~70–85%, не 100%.

Хрупкие места:

Refresh OAuth-токенов Yandex ID. Особенно если пользователь меняет пароль — навык теряет привязку, требуется переавторизация.
Подтверждения в шумной среде. На стенде, в машине с открытыми окнами «да» распознаётся через раз.
Латентность. Цепочка STT → Claude (intent + tool selection) → MCP → /api/* → ответ → формулировка → TTS — суммарно 4–8 секунд на типовой команде. Для email-операций приемлемо, для conversational UX чувствуется.

Tradeoffs архитектуры

MCP — это транспорт. Полезность зависит от того, что через него экспонируется. У многих CRM-платформ (HubSpot, Salesforce DX) MCP read-only или ограничен подмножеством объектов. У LDM через MCP доступна полная UI-поверхность, включая запуск рассылок и self-approve — это полезно для агентов, но требует разумной модели scope-ов и подтверждений на стороне клиента (навыка / агента).

Архитектурное решение «UI = MCP» имеет цену. Любое расширение API автоматически становится агент-callable. Это требует дисциплины — нельзя положить в /api/* что-то, что должно быть UI-only по соображениям UX или безопасности. На практике это решается scope-ами и доп. middleware для отдельных handler-ов, но это нагрузка на дизайн.

Голос как UI — узкая ниша. Это не «новый интерфейс взамен дашборда». Это дополнение для конкретных сценариев — мобильности, занятых рук, быстрого брифинга. Прибавляет ценности на 10–15% операций, не больше.

Что дальше

MCP-сервер v2 с явной JSON Schema для каждого tool (сейчас многие возвращают свободный JSON, агенту приходится самостоятельно парсить).
Подключение к ChatGPT MCP Apps directory.
Voice-friendly dialogs/stats — плоский ответ, короче, без вложенных объектов, чтобы TTS не глотал секунды на проговаривании.
Поддержка Apple Intelligence через MCP App Extensions, как только Apple откроет это для third-party (по обещаниям — Q3 2026).

Доки публичные: developers.live-direct-marketing.online. Вопросы по архитектуре / реализации — в комментариях или в почту.