StanSemenoff Feb 19 2019 at 12:44

Как научить машину понимать инвойсы и извлекать из них данные

8 min

11K

Content AI corporate blogArtificial IntelligenceMachine learning *

+18

Comments 13

MikhailZakharov Feb 19 2019 at 13:28

Данный метод предполагает полное отсутствие настроек, или например, как у IBM https://www.youtube.com/watch?v=4uLRRWaOtRY?
Делались ли оценки производительности алгоритмов на нейронных сетях по отношению к алгоритмам на шаблонах? Интересно посмотреть цифры, или грубую оценку.

StanSemenoff Feb 19 2019 at 14:00

Да, метод позволяет работать в режиме полного отсутствия каких-либо настроек, по сути end-to-end и out-of-the-box. Но также имеется и возможность что-то доучить на стороне пользователя на своих примерах, и объединять результаты извлечения данных с помощью нейронной сети и с помощью шаблонов одновременно.
По-поводу оценки производительности, что имеется в виду, время работы сети на CPU?
Если просто сравнить время работы шаблона и время работы сети, то сеть работает быстрее.

MikhailZakharov Feb 19 2019 at 14:34

Спасибо за ответ!
Про производительность, я имел ввиду сравнение извлечения информации из N страниц алгоритмом на шаблонах и алгоритмом на нейронных сетях. На одной и той же конфигурации, конечно.

StanSemenoff Feb 19 2019 at 14:52

Да, интеграция в продукт нейронной сети дает прирост качества сразу по всем полям и по структуре таблиц. В разных случаях, на разных типах доументов, конечно, по-разному. В качестве примера могу сказать, что удалось некоторые важные поля улучшить с 80% до 90%, т.е. ошибка на них была снижена в 2 раза. Это существенный шаг в сторону дальнейшего развития.

MikhailZakharov Feb 19 2019 at 15:01

Впечатляет. А какое среднее время обработки 1000 страниц? Я так понимаю, что оно зависит от того встречался ли такой же документ или нет.

StanSemenoff Feb 19 2019 at 16:22

Замеры здесь могут быть самые разные, но если отбросить время на предобработку изображения и OCR, оставив только само извлечение полезных данных, то для одностраничного инвойса на 1 CPU оно примерно от одной до несколько секунд, включая время работы нейронной сети (примерно 25% времени).

MikhailZakharov Feb 19 2019 at 16:28

Спасибо!

Wayfarer15 Feb 19 2019 at 18:43

Я почему то думал, что там X12 810 Invoice. Смысл забивать invoice в компе, печатать его, чтобы потом обратно отсканировать, когда можно отправить X12 сообщением (тоже 40-летний бред, но всё же).

Nashev Feb 20 2019 at 21:02

Ого, думал есть ли стандарт, и почему, блин, все ему не следуют, и тут Ваш коммент. Таки давно есть! Но почему не следуют??!

Ведь совсем же не сложно к каждому инвойсу припечатывать 2D-штрих-код, и поддерживать его машинное считывание! Если уж на бумаге передавать.

StanSemenoff Feb 20 2019 at 21:31

Да, стандарты — это круто. Но пока нет на законодательном уровне, очень слабо работает. По идее, механизмов можно придумать огромное количество всяких разных. Вот в различных квитанциях уже повсеместно штрих-коды и бар-коды. Но адреса на конвертах до сих пор от руки пишут, и как это на почте автоматизировать — головная боль.

Nashev Feb 20 2019 at 21:47

Электронная почта давно есть. И посылки не знаю почему распечаткой не всегда сопровождают. Но почта — одна организация, давно могли б любые требования ввести и навязать отправителям. Собственно, и навязывают, но почему-то не про машиночитаемый стандарт...

Nashev Feb 20 2019 at 21:48

А как же ЭЦП и миллионы практикуемых уже способов цифровой передачи этих инвойсов? Зачем их вообще кому-то распознавать в наше время?

SergeyKo Oct 25 2019 at 06:28

есть что-то открытое почитать по данной теме (собственно реализованный третий вариант)? какие-нибудь ключевые слова?