Как я научил ИИ читать советские ГОСТы и сократил подготовку карт контроля с 2 часов до 5 минут / Хабр

Реальный кейс: как LLM заменяет трех технологов на металлургическом заводе — и почему «универсальный подход» не сработал.

Вначале было... 2 часа на одну карту контроля

Представьте металлургическое предприятие полного цикла: 3200 человек и 4500 тыс номенклатуры, которая все время добавляется....

Как раньше происходила подготовка к испытаниям? Технолог открывал ГОСТ (или ОСТ, или другой нормативный документ), находил таблицу, подставлял в нее параметры номенклатуры, например, диаметр поковки. Находил нужное значение контроля и записывал в карту ... Дальше технолог повторял эту процедуру для 40+ параметров контроля.

Фрагмент ГОСТ 8479-70. Технолог ищет значение относительного сужения

Оцените масштаб: более 4500 позиций номенклатуры, свыше 200 нормативных документов (ГОСТы, ОСТы), большинство из них - отсканированные документы советской эпохи в формате pdf.

На подготовку одной карты требовалось больше двух часов. Моя задача: сократить это время

Вариант №1. Парсер

Первый вопрос: почему не реализовать задачу через шаблонный парсер?

Не получится, потому что каждый ГОСТ оформлен по-своему. В одном ГОСТе параметры находятся в строках таблицы, в другом в примечаниях, в третьем размазаны по тексту с отсылками на другие разделы.

Нужен подход, который понимает смысл, а не только структуру.

Идея: LLM как технолог

А если использовать LLM как интеллектуальный парсер. Тогда задача выглядит так:

Вход:

Нормативный документ (ГОСТ/ОСТ) — скан в PDF
Характеристики номенклатуры (марка стали, диаметр заготовки, группа)

Промт:

Параметр контроля №1. Название + алгоритм, как его определить
Параметр контроля №2. Название + алгоритм, как его определить
...

Выход:

Таблица: Параметр контроля — Значение — Источник (раздел/таблица ГОСТа)

Я вижу цель. Дело за реализацией ...

Вариант №2 Общий промт

Вторая гипотеза была проста и красива: сделать универсальный промт для всех нормативных документов.

Я начал тестировать разные модели в Рerplexity. Первый ГОСТ зашел на "ура" - Claude Sonnet 4.6 верно определил 85% параметров, GPT 5.4 - 72%. Обе модели запускались в режиме Thinking.

Но победа оказалась сильно условной. На следующих ГОСтах обе модели упрямо ошибались. Я правил промт, однако ошибки продолжались.

Что же, надежда на то, что LLM подсторится под все нормативные документы, не оправдалась. Система спотыкается на отличиях между ГОСТами - то параметр считается через вложенные таблицы, то задается константой.

Оставался один вариант: сделать промт привязанный к конкретному ГОСТу. Единственная неприятность, что на предприятие используется более 200 ГОСТов

Вариант №3 Архитектура, которая сработала

Я уточнил, что 80% номенклатуры завода описывается в 18% ГОСТов. Знакомый со студенческой скамьи принцип Парето в действии.

Для пилота было решено взять 20 наиболее используемых документов.

Структура решения

Для каждого ГОСТа я создал свой промт с правилами:

Название параметра: ГОСТ
В какой таблице/разделе ГОСТа описывается параметр
Как интерпретировать граничные случаи (диапазоны, «не менее», «не более»)

Правило для обработка таблиц и граничные случаи

Процесс отладки

На вход промта я подавал параметры номенклатуры и ГОСТ в pdf формате.

На выходе получал таблицу:

Если возникали ошибки (куда без них?), то в диалог Perplexity скидывал скриншот, указывал верные параметры и просил объяснить ошибку. Получив верный результат, давал волшебную команду

Обнови Правило XX так чтобы ошибка больше не повторялась
Потребовалось 9 итераций: зато сейчас система извлекает параметры для выбранных ГОСТов без ошибок.

Потраченное время - 14 рабочих дней.

И главный результат: время подготовки карты контроля теперь составляет 3-5 минут минут. То есть в 24 раза меньше чем было

Что делаю сейчас

Добавляю в систему новые ГОСТы и строю следующий слой:

Все правила хранятся в Excel-таблице (а не в промте - чтобы технологи сами правили параметры).
На вход промта подается Excel таблица
На выходе — таблица для загрузки во внутреннюю информационную систему предприятия

Выводы

Современные ИИ справляются с обработкой pdf сканов документов. Сложные структуры, вложеннне таблицы и даже качество сканирования уже не проблема.
Принцип Парето вам в помощь. Не пытайтесь сразу оцифровать все документы. Найдите 20% документов, которые содержат большую часть номенклатуры и начните с них.
Промт под конкретный документ, а не универсальный. Это противоречит интуиции и не так красиво, однако практично.
Итеративная отладка. Большинство ошибок у меня было с распознованием вложенных таблиц разных ГОСТов. Я сделал единые правила для таблиц и ошибки исчезли.
Claude Sonnet. Лучше всего разбирает сложные документы

Кому это может быть полезно

Этот подход работает для любой отрасли, где есть:

Большой массив нормативных документов (ГОСТы, ОСТы, СНиПы)
Документы без конфиденциальной информации
Ручной перенос параметров из документов в информационные системы
Разнородное форматирование — документы разного качества и формата

Например, металлургия, машиностроение, химическая промышленность, строительство, фармацевтика, энергетика.

Если у вас похожие задачи: нормативная документация, параметры контроля, рутинное извлечение данных из регламентов, напишите в комментарии или в личку. Расскажу, с чего начать и подарю самые неочевидые грабли. Кейс живой, замечания и вопросы однозначно приветствуются.