А как насчёт дрейфа? / Хабр

В ответ на статью: Анализ договорных рисков при помощи искусственного интеллекта

К сожалению, в представленной статье на Хабре темы дрейфа модели и ее регулярные обновления напрямую не рассматриваются. Авторы подробно описали архитектуру пайплайна, но не затронули стратегии долгосрочной стабильности системы.

Рекомендации авторам статьи

1. Внедрить систему мониторинга дрейфа модели

Текущая ситуация: У вас отличный экспериментальный протокол (dev/val/test), но он используется на этапе разработки, а не для постоянного мониторинга.

Рекомендация: Создайте автоматизированный пайплайн регулярного тестирования на «золотом наборе» данных.

Как это может выглядеть:

```python
# Псевдокод для регулярной проверки
golden_set = load_golden_contracts_with_ground_truth()
current_metrics = evaluate_model(golden_set)
baseline_metrics = load_baseline_metrics()

if current_metrics.f1_score < baseline_metrics.f1_score * 0.95:  # падение на 5%
    alert_team("⚠️ Обнаружено значительное падение качества модели!")
    run_detailed_diagnostic(golden_set, current_metrics)
    block_auto_deployment()
```

Что это даст:

Раннее обнаружение дрейфа до того, как он повлияет на реальные договоры
Количественная оценка изменений при обновлении модели провайдером
Прозрачность для бизнеса: "Система работает с качеством X"

2. Фиксировать версии модели и вести их журнал

Текущая ситуация: В коде упоминается "model": "gpt-5" без указания конкретной версии.

Рекомендация: Перейти на использование конкретных снапшотов модели и документировать все изменения.

```json
{
  "model": "gpt-5-2026-01-15",
  "reasoning": { "effort": "medium" },
  "metadata": {
    "deployment_date": "2026-03-01",
    "validation_f1_score": 0.89,
    "approved_by": "legal_team"
  }
}
```

Создайте таблицу версий

3. Внедрить теневой А/Б-тест при обновлениях

Рекомендация: При появлении новой версии модели прогоняйте её параллельно с текущей стабильной версией на реальном потоке договоров в теневом режиме.

Процесс:

Новая версия модели получает тот же вход, что и текущая
Результаты сохраняются в отдельную таблицу shadow_results
Еженедельно сравниваются расхождения:

   ```sql
   SELECT 
     COUNT(*) as total_contracts,
     SUM(CASE WHEN current.risk != shadow.risk THEN 1 ELSE 0 END) as disagreements,
     AVG(ABS(current.confidence - shadow.confidence)) as avg_confidence_shift
   FROM current_results current
   JOIN shadow_results shadow ON current.contract_id = shadow.contract_id
   ```

4. Добавить метаданные о версии модели в выходные данные

Рекомендация: В JSON-ответ добавьте поле с информацией о версии модели, которая сгенерировала этот анализ.

```json
{
  "risk_number": "4.2.3",
  "contract_filename": "doc.docx",
  "model_version": "gpt-5-2026-01-15",
  "analysis_timestamp": "2026-03-08T10:30:00Z",
  "matches": [...]
}
```

Зачем это нужно:

Возможность трассировки: всегда можно понять, какая версия модели выдала конкретный результат
При обнаружении проблемы — легко найти все договоры, проанализированные проблемной версией
Юридическая значимость: фиксация контекста принятия решения

5. Разработать протокол валидации обновлений юрисдикций

Рекомендация: Создайте специальный тестовый набор для проверки влияния изменений, связанных с юрисдикциями.

Структура тестового набора:

```
test_set_jurisdiction/
├── russian/           # Договоры по российскому праву
│   ├── contract1.docx
│   └── contract2.docx
├── international/     # Договоры с иностранным правом
│   ├── contract3.docx
│   └── contract4.docx
└── mixed/             # Смешанная юрисдикция
    └── contract5.docx
```

Метрики для отслеживания:

Precision/recall отдельно для каждой юрисдикции
Количество "галлюцинаций" (несуществующих рисков) на договор
Средняя длина и качество reason_short

6. Автоматизировать уведомления о расхождениях

Рекомендация: Добавьте систему оповещений, которая срабатывает при обнаружении аномалий.

```python
def monitor_model_drift():
    weekly_metrics = calculate_weekly_metrics()
    
    alerts = []
    if weekly_metrics.f1_drop > 0.05:
        alerts.append(f"F1-score упал на {weekly_metrics.f1_drop:.2%}")
    
    if weekly_metrics.confidence_drop > 0.1:
        alerts.append(f"Средняя уверенность упала на {weekly_metrics.confidence_drop:.2%}")
    
    if weekly_metrics.new_risk_patterns:
        alerts.append(f"Обнаружены новые паттерны рисков: {weekly_metrics.new_risk_patterns}")
    
    if alerts:
        send_alert_to_team(alerts)
        create_jira_ticket("Проверка качества модели", "\n".join(alerts))
```

7. Периодически переоценивать «золотой набор»

Рекомендация: Раз в квартал привлекать юристов для ревью и обновления «золотого набора». Практика может меняться, появляться новые типы рисков, и эталон должен эволюционировать.

8. Интегрировать обратную связь юристов в метрики

Рекомендация: Если у юристов есть интерфейс для исправления результатов модели, используйте эти исправления как источник данных для мониторинга.

```sql
-- Пример запроса для отслеживания качества
SELECT 
    model_version,
    COUNT(*) as total_reviews,
    SUM(CASE WHEN lawyer_accepted = false THEN 1 ELSE 0 END) as rejections,
    AVG(lawyer_correction_time) as avg_correction_time
FROM lawyer_feedback
GROUP BY model_version
ORDER BY review_date DESC;
```

Резюме

Ваша текущая архитектура (SGR + CoT + структурированный вход) уже создаёт отличную базу для контроля качества. Эти рекомендации помогут сделать систему ещё более надёжной и прозрачной для бизнеса, особенно в контексте потенциальных изменений моделей от провайдеров:

Автоматизируйте мониторинг — создайте систему, которая сама предупреждает о проблемах, а не требует ручной проверки
Фиксируйте контекст — версия модели в каждом ответе — это страховка и возможность трассировки
Тестируйте в тени — прежде чем обновлять модель для всех, проверьте её на реальных данных в безопасном режиме

P.S.: Поделитесь опытом решения этих проблем в следующей статье на Хабре — тема дрейфа моделей в продакшене сейчас очень актуальна, и ваши инженерные решения будут интересны сообществу!