Pull to refresh

Смертельное оружие или голодные игры в эпоху AI

Level of difficultyMedium
Reading time13 min
Views1K
Я здесь, седьмой справа, какие у меня шансы?
Я здесь, седьмой справа, какие у меня шансы?

Если вы читаете эту статью спустя год после её написания, смело закрывайте и не тратьте своё время, актуальность потеряна. Всё самое интересное поместил в третью часть, доскроллы наше все. И да, статья написана не без помощи AI.

Увлекательные истории происходят сегодня на IT ландшафте повседневности и быта бизнеса. Рябь сменилась крупными волнами, и открылось окно возможностей даже для небольших компаний, чтобы оседлать волну, догнать или даже перегнать лидеров рынка – конкурентов в своём отраслевом водоёме, не без помощи AI, конечно. Давайте порассуждаем, отметим тенденции текущего этапа развития индустрии с AI, не вдаваясь в разбор мелких деталей. Хотите узнать чем занимаются ваши конкуренты прямо сейчас, в это время, что внедряют и какие для этого сценарии используют?

Что происходит прямо сейчас? Все, что перед нами разворачивается именно в эти дни, напоминает сцену из фильма “Голодные игры”, тот момент, когда люди выбирают инвентарь и оружие, предназначенное для выживания и взаимного уничтожения. Под оружием и инвентарем я подразумеваю AI в виде LLM доступных и эффективных. И вот представьте себе, что все компании получили безвозмездно кольт с неограниченным запасом патронов. При этом, часть компаний до этого момента уже закупилась в кредит по рынку винчестерами с боекомплектом для целенаправленного отстрела конкурентов. А сейчас оружие в руках у всех, даже у тех, кто его не желал. И кто-то такой из толпы, - “Смотрите как удобно рукояткой кольта колоть грецкие орехи!” А другой, в это же время, молча зарядив кольт начинает целиться ему в голову. И то как наша история имеет временной раздел до нашей эры и после, так и приход LLM проводит жирную временную черту бизнесу до и после. И уже слышны звуки первых выстрелов.

Оставим лирику и перейдем к конкретике. Как у себя в бизнесе применить LLM, повысив свою конкурентоспособность? Рассмотрим рецепты приготовления LLM, один простой, другой посложнее, третий - интересный. Мы делаем акцент на open source для развертывания у себя в компании своими силами.

Первая смесь OCR+LLM = умный документооборот

Для этого нам понадобится “старая” и как бритва отточенная технология OCR. Берем на свое усмотрение и производительность любой популярный open source, да хоть PaddleOCR или DocTR, добавляем LLM, взять хотя бы Mistral 7B или Llama 3 8B или Phi-3. Получаем умный документооборот в компании.

Как это работает? На первом шаге, все бумажные документы прогоняются через сканер в картинку (сканирование в сетевую папку – “одно” нажатие кнопки). Если документы уже в электронном виде, сразу направляем их на OCR агента. На втором шаге, OCR агент перегоняет их в форматированный текст. На третьем этапе LLM агент вытряхивает из текста все важные метрики. Результаты такой работы в примерах ниже.

json для счёта (Invoice)
{
  "document_type": "Счет на оплату",
  "document_number": "INV-2023-01789",
  "document_date": "2025-07-15",
  "seller": {
    "name": "ООО 'ТехноПоставка'",
    "inn": "7701123456",
    "kpp": "770101001",
    "address": "г. Москва, ул. Промышленная, д. 42"
  },
  "buyer": {
    "name": "АО 'РозничнаяСеть'",
    "inn": "7706987654",
    "kpp": "770601001"
  },
  "total_amount": 125450.00,
  "currency": "RUB",
  "vat_rate": 20.0,
  "vat_amount": 20908.33,
  "amount_without_vat": 104541.67,
  "payment_due_date": "2025-08-05",
  "items": [
    {
      "name": "Сетевое оборудование L3-коммутатор",
      "quantity": 2,
      "unit": "шт.",
      "unit_price": 45200.00
    },
    {
      "name": "Монтажные работы",
      "quantity": 1,
      "unit": "усл.",
      "unit_price": 35050.00
    }
  ],
  "metadata": {
    "confidence": 0.96,
    "source_file": "scan_inv_20230715.jpg",
    "processing_time": "2025-06-11T14:22:18Z"
  }
}
json для договора (Contract)
{
  "document_type": "Договор поставки",
  "document_number": "Д-45/2025-П",
  "document_date": "2025-06-01",
  "effective_date": "2025-06-10",
  "expiration_date": "2026-06-09",
  "parties": [
    {
      "name": "ООО 'ПоставщикПлюс'",
      "role": "Поставщик",
      "signatory": "Петров Иван Сергеевич"
    },
    {
      "name": "ЗАО 'ПромПокупатель'",
      "role": "Покупатель",
      "signatory": "Сидорова Мария Владимировна"
    }
  ],
  "contract_subject": "Поставка промышленных подшипников",
  "total_amount": 875000.00,
  "currency": "RUB",
  "payment_terms": "30% аванс, 70% в течение 10 дней после поставки",
  "delivery_terms": "DDP склад покупателя (г. Екатеринбург)",
  "special_conditions": "Гарантийный срок - 18 месяцев",
  "attachments": ["Спецификация №1 от 01.06.2025"],
  "metadata": {
    "confidence": 0.93,
    "pages": 8,
    "source_file": "contract_2025-45_signed.pdf"
  }
}
json для накладной (Waybill)
{
  "document_type": "Товарная накладная (ТОРГ-12)",
  "document_number": "ТН-0003782",
  "document_date": "2025-06-10",
  "sender": {
    "name": "ООО 'Складские Решения'",
    "address": "Московская обл., г. Люберцы, промзона Юго-Восточная"
  },
  "receiver": {
    "name": "ИП Смирнов А.В.",
    "address": "г. Москва, ул. Торговая, д. 15, павильон 42"
  },
  "goods": [
    {
      "product_id": "PK-7842",
      "name": "Кресло офисное Ergoline Comfort",
      "quantity": 3,
      "unit": "шт.",
      "weight": 18.7,
      "gross_weight": 22.5
    },
    {
      "product_id": "DS-9015",
      "name": "Стол письменный Executive 160x80",
      "quantity": 2,
      "unit": "шт.",
      "weight": 32.4,
      "gross_weight": 35.8
    }
  ],
  "total_items": 5,
  "total_weight": 145.2,
  "vehicle_info": "ГАЗель NEXT (гос. номер А123БВ777)",
  "driver": "Иванов Сергей Петрович",
  "metadata": {
    "confidence": 0.98,
    "source_file": "waybill_10062025_scan.tiff"
  }
}
json для письма (Official Letter)
{
  "document_type": "Официальное письмо",
  "outgoing_number": "Исх-05/2025",
  "date": "2025-06-05",
  "sender": {
    "organization": "Департамент городского хозяйства",
    "department": "Отдел инфраструктурных проектов",
    "contact_person": "Козлов А.Д."
  },
  "receiver": {
    "organization": "ООО 'Городские Сети'",
    "contact_person": "Генеральному директору Новикову П.Р."
  },
  "subject": "О согласовании сроков ремонтных работ",
  "reference_number": "Вх-247/2025 от 28.05.2025",
  "key_content": "Согласование переноса сроков реконструкции тепловых сетей на ул. Центральной с 15.06.2025 на 05.07.2025",
  "action_required": "Подписание доп. соглашения до 12.06.2025",
  "attachments": ["Проект доп. соглашения №3", "График работ"],
  "metadata": {
    "confidence": 0.91,
    "letterhead_detected": true,
    "stamp_detected": true,
    "signature_detected": true
  }
}

Ключевые особенности структуры:

  1. Типизация документов
    Поле document_type явно указывает тип документа (счёт, договор и т.д.)

  2. Иерархические сущности
    Вложенные объекты для sender/receiver, товарных позиций

  3. Нормализация форматов

    • Даты в ISO 8601 (YYYY-MM-DD)

    • Суммы как числа (не строки)

    • Коды валют по стандарту ISO 4217

  4. Контекстные поля

    • contract_subject для договоров

    • key_content для писем

    • special_conditions для особых условий

  5. Метаданные обработки

    • Уровень распознавания (confidence)

    • Исходный файл

    • Технические детали обработки

  6. Обработка списков
    Массивы для товарных позиций, приложений, сторон договора

  7. Опциональные поля
    Поля могут отсутствовать, если информация не найдена в документе

Чтобы называть документооборот умным, возьмём из текста ещё дополнительные метрики

дополнительно к счету (Invoice)
{
  ... (основные поля) ...,
  "analytics": {
    "payment_risk_score": 0.65, // Вероятность просрочки платежа (0-1)
    "anomalies": [
      "vat_mismatch", // Расхождение в расчетах НДС
      "duplicate_charges" // Дублирующиеся позиции
    ],
    "sentiment": {
      "urgency": "high", // Срочность оплаты
      "late_fee_mentioned": true // Упоминание штрафов
    },
    "vendor_relationship": "recurring" // recurring/new/terminating
  }
}
дополнительно к договору (Contract)
{
  ... (основные поля) ...,
  "analytics": {
    "risk_assessment": {
      "unbalanced_liabilities": true, // Дисбаланс обязательств
      "penalty_clauses": 3, // Количество штрафных пунктов
      "termination_risk": "medium" // Риск расторжения
    },
    "compliance_issues": [
      "missing_force_majeure", // Отсутствие форс-мажора
      "ambiguous_terms" // Неоднозначные формулировки
    ],
    "financial_impact": {
      "potential_penalties": 250000, // Возможные штрафы
      "renewal_obligations": true // Автопродление
    }
  }
}
дополнительно к письму (Letter)
{
  ... (основные поля) ...,
  "analytics": {
    "sentiment_analysis": {
      "tone": "negative", // Тон письма
      "urgency_level": "high", // Уровень срочности
      "complaint_type": "service_quality" // Тип претензии
    },
    "relationship_indicators": {
      "escalation_risk": 0.8, // Риск эскалации
      "loyalty_threat": true // Угроза прекращения отношений
    },
    "action_priority": "critical", // Приоритет обработки
    "legal_threat_indicators": [
      "contract_breach_mentioned", // Упоминание нарушения
      "litigation_hinted" // Намек на судебное разбирательство
    ]
  }
}
дополнительно к накладной (Waybill)
{
  ... (основные поля) ...,
  "analytics": {
    "discrepancy_flags": {
      "quantity_mismatch": true, // Расхождение количеств
      "damage_reported": false // Повреждения товара
    },
    "logistics_risk": {
      "delivery_delay": "significant", // Задержка доставки
      "storage_requirements": "violated" // Нарушение условий хранения
    },
    "completeness_score": 0.92 // Полнота данных (0-1)
  }
}
дополнительно к претензии (Complaint)
{
  "document_type": "Рекламация",
  "reference_number": "COMP-2025-089",
  "date": "2025-06-08",
  "complainant": "ООО 'ТехноСервис'",
  "respondent": "ЗАО 'ПромКомплект'",
  "incident_date": "2025-05-25",
  "nature_of_complaint": "Несоответствие качества товара",
  "requested_resolution": "Возврат средств",
  "deadline_response": "2025-06-15",
  "analytics": {
    "severity_level": "high", // Серьезность претензии
    "financial_impact": 120700.00, // Сумма ущерба
    "repetitive_issue": true, // Повторяющаяся проблема
    "evidence_strength": "strong", // Качество доказательств
    "reputation_risk": "critical" // Риск для репутации
  }
}
дополнительные аналитические метрики для всех документов
{
  "compliance_metadata": {
    "gdpr_risks": ["personal_data_exposed"], // Риски GDPR
    "retention_requirements": "3 years" // Срок хранения
  },
  "linguistic_analysis": {
    "ambiguity_score": 0.35, // Уровень неоднозначности (0-1)
    "complexity_level": "high" // Сложность языка
  },
  "version_control": {
    "is_amendment": true, // Является изменением
    "base_document": "Д-45/2025-П" // Основной документ
  },
  "negotiation_insights": {
    "concession_indicators": ["price_adjustment"], // Уступки
    "pressure_tactics": ["deadline_threat"] // Тактики давления
  }
}

Пояснение к метрикам:

  1. Риск-ориентированные:

    • payment_risk_score - прогноз просрочки платежа

    • termination_risk - вероятность расторжения договора

    • escalation_risk - риск перехода конфликта на новый уровень

  2. Семантические:

    • tone - эмоциональная окраска (negative/neutral/positive)

    • urgency_level - срочность реакции (low/medium/high/critical)

    • complaint_type - классификация претензии

  3. Юридические:

    • compliance_issues - отсутствие обязательных пунктов

    • legal_threat_indicators - признаки возможного судебного спора

    • penalty_clauses - количество упоминаний санкций

  4. Операционные:

    • discrepancy_flags - расхождения в данных

    • completeness_score - полнота информации

    • repetitive_issue - повторяющаяся проблема

  5. Бизнес-отношения:

    • vendor_relationship - статус отношений с контрагентом

    • loyalty_threat - признаки возможного разрыва отношений

    • negotiation_insights - анализ переговорной тактики

Такие метрики превращают простое извлечение данных в мощный инструмент аналитики, позволяя:

  • Автоматически приоритизировать обработку документов

  • Выявлять скрытые риски и возможности

  • Прогнозировать поведение контрагентов

  • Оптимизировать юридические и финансовые процессы

  • Анализировать тональность коммуникаций

Осталось загнать документы и метрики в базу данных документооборота компании. На основании умных метрик создаем, по необходимости, задачи для связанных с документами сотрудников. И отправляем аналитику в виде отчёта по умным метрикам и задачам, связанных с ними, главному документооборотчику всея департаментов вашей корпорации или выводим статистику на dashboard.

Второй рецепт STT+LLM

Здесь мы будем перегонять записи всех телефонных разговоров наших сотрудников с клиентами и контрагентами в форматированный текст (по ролям как в сценарии) и прокачивать CRM, SRM, HelpDesk, ServiceDesk или ещё какие мышцы вашей компании, использующие голосовые данные.

Вот как могла бы работать система Real-Time LLM Coach для менеджеров с применением live-анализ диалога. Технологический стек: ASR (Whisper) → Streaming NLP-пайплайн → RAG (база знаний) → Генерация подсказок → UI-интерфейс менеджера.

Интерфейс менеджера во время звонка
[КЛИЕНТ]: "Я подумываю перейти в MegaSignal из-за их безлимита..."  

┌──────────────────────────────────────────────────────┐
│ **СИСТЕМА ПОДСКАЗОК (Live AI)**                     
├──────────────────────────────────────────────────────┤
│ ⚠️  Обнаружена угроза оттока!                       
│                                                    
│ 🔎 **Конкурент:** MegaSignal                        
│    ▪️ Их безлимит: 40 ГБ за 1200₽/мес              
│    ▪️ Наш аналог: "Без границ" (60 ГБ за 1100₽)    
│    ▪️ Слабые стороны конкурента: Роуминг +30% цены 
│                                                    
│ 💡 **Скрипт ответа:**                               
│    "Понимаю ваш интерес! У нас тоже есть безлимит,  
│    но с роумингом в 20 странах без доплат. Кстати,  
│    если расскажете, что для вас важнее - объем или  
│    покрытие, подберу персональный вариант..."       
│                                                    
│ ❗ **Уточните:**                                    
│    "Какие страны посещаете чаще?"                   
└──────────────────────────────────────────────────────┘

Как это работает технически

  1. Live-транскрипция

    • Whisper обрабатывает аудио поток с задержкой <1.5 сек

    • Текст сегментируется по говорящим (по раздельным каналам диаризация на лету)

  2. Контекстный анализ

    # Псевдокод обработки
    if detect_keywords("конкурент, перейти, MegaSignal"):
       trigger_competitive_response()
       
    if client_sentiment == "FRUSTRATED" and duration > 120s:
       suggest_escalation_protocol()
  3. Поиск в RAG (Retrieval-Augmented Generation)

    • Векторный поиск по:
      • Историческим диалогам с этим клиентом
      • Успешным кейсам удержания
      • Базе знаний о конкурентах

    • Пример запроса:
      «Аналогичные случаи оттока + позиционирование против MegaSignal»

  4. Генерация подсказок
    LLM создает советы в формате:

    {
      "priority": "CRITICAL",
      "type": "competitive_response",
      "advice": "Акцентировать преимущество в роуминге",
      "verbatim_suggestions": ["Фраза 1", "Фраза 2"]
    }

Ключевые типы подсказок

  1. Стратегия перехвата инициативы

    • Триггер: Клиент упоминает конкурента

    • Действие: Показ сравнения + генерация УТП

    • Данные: Цены/условия 10+ операторов из базы

  2. Детектор скрытых возражений

    Клиент: "Мне нужно подумать..."  
    ────────────────────────────────
    AI: ❗ Анализ тональности: 87% неуверенность 
        💡 Предложите тестовый период!
  3. Персонализация на лету

    • Пример:
      «Клиент в 2023 жаловался на связь в поездках →
      Предложить пакет "Европа Плюс" со скидкой 20%»

  4. Эмоциональный навигатор

    • Шкала настроения клиента в реальном времени:
      [😠 ███▁▁▁▁▁ 30%] → [😐 █████▁▁ 60%] после предложения

    • Рекомендации: "Снизить темп речи", "Использовать эмпатийные формулы"

  5. Технический ассистент

    • Авто-проверка анкетных данных:
      «У клиента неактуальный email → Уточните для отправки офера»

Дополнительные возможности

  • Голосовые подсказки: Шепот в гарнитуру менеджера через TTS

  • Авто-документирование: Формирование итогов разговора в CRM по окончании звонка

  • Прогностика следующего шага:
    AI: «Через 2 мин клиент спросит о гарантиях → Готовьте слайд №7»

Такая система превращает каждого менеджера в «супер-агента» с коллективным опытом всей компании, снижая зависимость от человеческого фактора и ускоряя принятие решений. Есть реализованные подобные кейсы, например Deutsche Telekom и Cognigy AI.

Голосовые агенты TTS+LLM

На мой взгляд, тема CRM, SRM в купе с LLM уже заезжена, перешагиваем и переходим прямо к голосовым агентам.

Ростелеком предлагает подключить мне телевидение
Ростелеком предлагает подключить мне телевидение

Сразу хочу обозначить свою морально-этическую позицию. Если клиент не заказывал и не ждёт от вас звонка, значит не нужно его беспокоить звонком, спамом, СМС. Другое дело, если клиент звонит вам сам. Но я не считаю аморальным звонить своим конкурентам, проверять их уровень сервиса, цен, загруженности, акции и прочие открытые всем данные и сравнивать со своими возможностями. Вот для этих целей, неплохо бы иметь голосового агента, который может с утра до вечера мониторить конкурентную обстановку в заданном сегменте рынка. И, если подобный голосовой агент конкурентов позвонит нам, не плохо было бы его встретить своим голосовым агентом с "полезной" для него информацией.

Вы замечали, с голосовыми агентами что-то не так? Это связано с тем, что голосовые движки созрели, а вот мозги отстают. Алгоритмы ведения разговора это слабое звено технологии. И вот тут у нас с вами самое настоящие окно возможностей, есть месяцев двенадцать до того как рынок наводнят предложениями крупных IT рыб и телеком-компаний. Попробуем сами прикрутить LLM к голосовому движку. Внутренний голос мне подсказывает, что в связке LLM+TTS не хватает внутреннего голоса (простите за тавтологию). Предлагаю решение с внутренним голосом - с двумя LLM в тандеме, где одна выступает как "стратег", а вторая как "тактик". Это создаст более естественные и адаптивные диалоги.

Архитектура "Внутренний голос"
Архитектура "Внутренний голос"

1. LLM Стратег (Аналитик-контроллер)

  • Роль: Следит за глобальной целью, анализирует прогресс

  • Модель: Llama 3 70B + Russian fine-tuning

  • Функции:

    • Отслеживание ключевых параметров (цена, сроки, условия)

    • Анализ эмоционального тона собеседника

    • Генерация тактических подсказок для "тактика"

    • Принятие решений о завершении диалога

  • Пример промпта:

    "Ты стратег call-центра. Цель: узнать цену доставки воды. 
    Текущий статус: клиент упомянул '300 руб' но не уточнил объем. 
    Сгенерируй 1-2 ключевых пункта для тактика на основе:
    {history}, {emotion_score}, {missing_data}"

2. LLM Тактик (Диалоговый агент)

  • Роль: Ведение естественной беседы

  • Модель: Mistral 7B + Russian conversational fine-tuning

  • Функции:

    • Генерация человеческих ответов

    • Обработка неожиданных реплик

    • Создание естественных пауз и междометий

    • Адаптация под стиль собеседника

  • Пример промпта:

    "Ты оператор 'АкваСервис'. Веди диалог естественно. 
    Ключевые пункты от стратега: {strategy_points}. 
    История: {history}. Реплика клиента: {input}"

3. Система мониторинга (Memory Manager)

  • Хранит структурированные данные в формате:

    {
      "competitor": "Вода+",
      "parameters": {
        "price": null,
        "delivery_time": "утром",
        "discount": "нет"
      },
      "conversation_score": 0.82,
      "emotional_tone": "раздраженный"
    }
  • Использует векторные базы (ChromaDB) для сравнения диалогов

Рабочий процесс в реальности

Сценарий звонка в офис конкурента:

[Звонок соединяется]
LLM Тактик: "Добрый день! Беспокоит Ирина из логистического отдела. Подскажите, 
            а вы осуществляете срочную доставку воды сегодня вечером?" 

Менеджер: "Да, но только по предоплате"

[LLM Стратег анализирует: подтверждена доставка, но нет цены. 
 Генерирует тактическую подсказку: "Уточнить стоимость 5 бутылей"]

LLM Тактик: "Отлично! А если мне нужно 5 бутылей по 19л к 18:00, 
            это сколько будет стоить с учетом доставки?"

Менеджер: "Эээ... посчитаю... 2500 рублей"

[LLM Стратег фиксирует цену, обнаруживает колебание в голосе, 
 предлагает: "Спросить про скидки на следующий заказ"]

LLM Тактик: "Спасибо! А если я буду заказывать регулярно, 
            у вас есть система скидок?"

Ключевые преимущества системы

  1. Естественность диалога:

    • Тактик генерирует паузы ("эээ", "ммм")

    • Адаптирует темп речи под собеседника

    • Использует разговорные конструкции

  2. Контроль сценария:

    • Стратег блокирует уход от темы

    • Автоматическое возвращение к ключевым вопросам

    • Эскалация при агрессии ("Переключи на вежливый шаблон №3")

  3. Аналитика в реальном времени:

    # Пример кода анализа тональности
    def analyze_emotion(text):
        return llm_strateg(f"Оцени тон 0-1: {text}").emotion_score
    
    if analyze_emotion(last_response) > 0.8:
        llm_tactic.apply_template("calming_response")

Техническая реализация

Стек технологий:

  • Оркестрация: LangChain + Celery

  • Модели:

    • Стратег: Llama 3 70B (4-bit квантование)

    • Тактик: Mistral 7B (8-bit)

  • Кеширование: Redis для хранения состояний диалогов

  • Аналитика: реальные дашборды в Grafana

Пример кода взаимодействия:

from langchain_core.prompts import ChatPromptTemplate

strateg_prompt = ChatPromptTemplate.from_template(
    "Анализируй диалог: {history}. Цель: {goal}. "
    "Сгенерируй 3 тактические рекомендации"
)

tactic_prompt = ChatPromptTemplate.from_template(
    "Веди диалог естественно. Рекомендации: {advice}. "
    "Речь клиента: {input}. Ответь кратко (до 15 слов)"
)

def generate_response(user_input, history, goal):
    advice = llm_strateg.invoke(strateg_prompt.format(history=history, goal=goal))
    return llm_tactic.invoke(tactic_prompt.format(advice=advice, input=user_input))

Риски и решения

  1. Задержки ответа:

    • Кеширование частых реплик

    • Оптимизация через TensorRT-LLM

    • Локальные маленькие модели для простых ответов

  2. Обнаружение ботами:

    • Добавление фонового шума

    • Переменная скорость речи

    • "Ошибки" произношения (RHVoice с настройкой RandomPitch)

Такая система требует больше ресурсов, но дает качественно новый уровень взаимодействия. Для старта можно использовать quantized-модели на CPU. Alibaba’s Tongyi (2024):Обрабатывает 50M+ звонков/месяц. Особенность: Иерархия моделей, где «супервайзер» (Qwen-72B) корректирует ответы мелких моделей в реальном времени.

Ограничения и барьеры внедрения

  1. Задержки:
    Ответы >3 сек. убивают диалог. Решение:

    • Квантование моделей (GGUF 5-bit)

    • Предгенерация шаблонных ответов

    • Детский фокус с угадыванием серии карточек.

  2. Обнаружение:
    Конкуренты используют детекторы ботов (например, Pindrop). Обход:

    • Вставка «естественного» дыхания в аудиопоток

    • Рандомизация интонаций через Silero TTS

Перспектива

Такие системы появятся массово в самое ближайшее время. Этот стек немного опережает рынок, и требуется его доработка:

  1. Заменить Vosk на Stormer-CTC для точности 98%

  2. Добавить фильтр ложных срабатываний через MiniCPM (2B параметров)

  3. Внедрить «этический слой»: автоматическую проверку ответов на соответствие ФЗ

Для старта MVP на базе Mistral 7B + Whisper.cpp — можно достичь результата за пару, тройку недель разработки.

Tags:
Hubs:
0
Comments4

Articles