Как стать автором
Обновить

Комментарии 13

Данный метод предполагает полное отсутствие настроек, или например, как у IBM https://www.youtube.com/watch?v=4uLRRWaOtRY?
Делались ли оценки производительности алгоритмов на нейронных сетях по отношению к алгоритмам на шаблонах? Интересно посмотреть цифры, или грубую оценку.
Да, метод позволяет работать в режиме полного отсутствия каких-либо настроек, по сути end-to-end и out-of-the-box. Но также имеется и возможность что-то доучить на стороне пользователя на своих примерах, и объединять результаты извлечения данных с помощью нейронной сети и с помощью шаблонов одновременно.
По-поводу оценки производительности, что имеется в виду, время работы сети на CPU?
Если просто сравнить время работы шаблона и время работы сети, то сеть работает быстрее.
Спасибо за ответ!
Про производительность, я имел ввиду сравнение извлечения информации из N страниц алгоритмом на шаблонах и алгоритмом на нейронных сетях. На одной и той же конфигурации, конечно.
Да, интеграция в продукт нейронной сети дает прирост качества сразу по всем полям и по структуре таблиц. В разных случаях, на разных типах доументов, конечно, по-разному. В качестве примера могу сказать, что удалось некоторые важные поля улучшить с 80% до 90%, т.е. ошибка на них была снижена в 2 раза. Это существенный шаг в сторону дальнейшего развития.
Впечатляет. А какое среднее время обработки 1000 страниц? Я так понимаю, что оно зависит от того встречался ли такой же документ или нет.
Замеры здесь могут быть самые разные, но если отбросить время на предобработку изображения и OCR, оставив только само извлечение полезных данных, то для одностраничного инвойса на 1 CPU оно примерно от одной до несколько секунд, включая время работы нейронной сети (примерно 25% времени).

Спасибо!

Я почему то думал, что там X12 810 Invoice. Смысл забивать invoice в компе, печатать его, чтобы потом обратно отсканировать, когда можно отправить X12 сообщением (тоже 40-летний бред, но всё же).

Ого, думал есть ли стандарт, и почему, блин, все ему не следуют, и тут Ваш коммент. Таки давно есть! Но почему не следуют??!


Ведь совсем же не сложно к каждому инвойсу припечатывать 2D-штрих-код, и поддерживать его машинное считывание! Если уж на бумаге передавать.

Да, стандарты — это круто. Но пока нет на законодательном уровне, очень слабо работает. По идее, механизмов можно придумать огромное количество всяких разных. Вот в различных квитанциях уже повсеместно штрих-коды и бар-коды. Но адреса на конвертах до сих пор от руки пишут, и как это на почте автоматизировать — головная боль.

Электронная почта давно есть. И посылки не знаю почему распечаткой не всегда сопровождают. Но почта — одна организация, давно могли б любые требования ввести и навязать отправителям. Собственно, и навязывают, но почему-то не про машиночитаемый стандарт...

А как же ЭЦП и миллионы практикуемых уже способов цифровой передачи этих инвойсов? Зачем их вообще кому-то распознавать в наше время?

есть что-то открытое почитать по данной теме (собственно реализованный третий вариант)? какие-нибудь ключевые слова?
Зарегистрируйтесь на Хабре, чтобы оставить комментарий