Комментарии 2
А что с метриками?
На этапе mvp я проводил экспертную верификацию результатов: сравнивал извлечённые операции с эталонными ответами вручную, чтобы убедиться, что модель правильно понимает контекст и структуру данных.
По итогам таких проверок точность восстановления операций составила около 0.86. Это нормальный уровень для LLM-агента, работающего с неструктурированными PDF, где важно не только извлечь данные, но и корректно интерпретировать технологический контекст. Оценка проводилась на тестовой выборке отчётов с различными шаблонами и структурами, что делает результат достаточно устойчивым.
На следующем шаге планирую перейти к автоматизированной системе подсчёта метрик (coverage, precision, recall по операциям) с эталонными json.
Хайлайты саммари аналогично верифицировались отраслевыми экспертами в ручную, развитие этой ветки пока не предполагается.

Как я сделал LLM-сервис, который понимает буровые сводки