Обновить

Комментарии 2

А что с метриками?

На этапе mvp я проводил экспертную верификацию результатов: сравнивал извлечённые операции с эталонными ответами вручную, чтобы убедиться, что модель правильно понимает контекст и структуру данных.

По итогам таких проверок точность восстановления операций составила около 0.86. Это нормальный уровень для LLM-агента, работающего с неструктурированными PDF, где важно не только извлечь данные, но и корректно интерпретировать технологический контекст. Оценка проводилась на тестовой выборке отчётов с различными шаблонами и структурами, что делает результат достаточно устойчивым.

На следующем шаге планирую перейти к автоматизированной системе подсчёта метрик (coverage, precision, recall по операциям) с эталонными json.
Хайлайты саммари аналогично верифицировались отраслевыми экспертами в ручную, развитие этой ветки пока не предполагается.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации