Как стать автором
Обновить
136.19
AGIMA
Крупнейший интегратор digital-решений

Как научить ИИ переносить информацию с бумаги в ERP

Для автоматизации бизнес-процессов часто требуется обработка бумажных документов со сложной структурой — например, счетов или накладных. Разбирать такие документы вручную долго, но, к счастью, процесс можно автоматизировать с помощью ИИ.

Мы в таких случаях используем Datapipe — инструмент с открытым исходным кодом. Он помогает нам построить пайплайн обработки данных. Он устроен так:

  1. Данные, размеченные модератором в Label Studio, автоматически загружаются в пайплайн.

  2. Размеченные данные добавляются в т. н. «замороженный датасет» — он больше не изменяется и используется для обучения ML-моделей.

  3. Затем разбиваем данные на две части:

    • Тренировочный набор (train) — для обучения модели.

    • Проверочный набор (val) — для проверки и оценки качества модели.

  4. Изображения подвергаются трансформации: каждая картинка делится на более мелкие сегменты (кропы) для облегчения обучения модели. В каждом кропе выделяются еще более мелкие области, чтобы улучшить точность детекции и классификации.

  5. Приступаем к последовательному обучению моделей. Сначала обучаются модели для детекции объектов (YOLOv5), а затем применяются OCR-модели (Google Cloud Vision OCR) для распознания текста.

  6. Последовательное тестирование моделей. После каждого обучения модели проводится процесс предсказания результатов на тренировочных и тестовых данных. Подсчитываем метрики качества, и модель с лучшими показателями внедряем в рабочую среду.

Как работает такая система — в нашем блоге.

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Публикации

Информация

Сайт
www.agima.ru
Дата регистрации
Дата основания
Численность
501–1 000 человек
Местоположение
Россия
Представитель
Кристина Ляпцева

Истории