При внедрении технологий искусственного интеллекта происходит следующее. Вы приходите со своим решением. У вас спрашивают: какая у вас вероятность ошибки? А вы отвечаете: А какая вам нужна? Такую и сделаем.
Допустим у вас ошибка 1 на 100 документов. Вам говорят: нет, нам нужна 1 на 10 000. Хорошо, говорите вы. Стоимость распознавания 100 документов 2 рубля. Будем распознавать каждый документ два раза. В случае несовпадения, будем распознавать в третий раз или отдавать человеку по вашему выбору. Так мы получим 1 к 10 000. Стоимость тогда будет 4 рубля на 100 документов. Устроит?
Можно и на слово. Почему бы вам не поверить человеку с большим опытом? Можно и на спор. Запустим на сотне разных документов (в нормальном разрешении) и проверим
Согласен, что распознавание УПД с "бумаги" - это довольно нишевая история. Просто цель статьи - учебная. И, да, это в первую очередь "смотрите, как это делается". УПД я взял потому, что это близко 1С-никам. Разумеется, у технологии есть и более интересные применения. О них я тоже планирую рассказать
Нет, не тривиальная. У вас на входе был текст в виде изображения и на выходе вы получили текст в виде текста. Ну и что? До структуры тут еще очень далеко
1С умеет работать и с ЭДО и с почтой уже давно. Здесь я вам показал как структурировать входящий поток (будь то изображение, аудио или письменная речь, в других моих статьях можете прочитать про голосовой ввод).
Соединяете первое и второе, и получаете то, что вы спросили
Подключится можно к любому провайдеру, который поддерживается библиотекой (на сегодняшний день это Yandex, Сбер, OpenAI, Antropic, Google, Nvidia, Deepseek и др.)
Спасибо за развернутый ответ!
При внедрении технологий искусственного интеллекта происходит следующее. Вы приходите со своим решением. У вас спрашивают: какая у вас вероятность ошибки? А вы отвечаете: А какая вам нужна? Такую и сделаем.
Допустим у вас ошибка 1 на 100 документов. Вам говорят: нет, нам нужна 1 на 10 000. Хорошо, говорите вы. Стоимость распознавания 100 документов 2 рубля. Будем распознавать каждый документ два раза. В случае несовпадения, будем распознавать в третий раз или отдавать человеку по вашему выбору. Так мы получим 1 к 10 000. Стоимость тогда будет 4 рубля на 100 документов. Устроит?
Допустим, мы прогнали 1000 документов и получили 1 случайный отказ. Что это будет означать, по вашему?
Прогнать 1000 документов реально. Это будет стоить порядка 20 рублей.
А почему не пару миллиардов? Вы ведь выбираете такие цифры, которые, как вам кажется, защитят вашу позицию. Вы истину не ищете
Ну нет, так нет
Поток -> документ в 1С
Структура -> документ в 1С
Можете оценить разницу?
"А мне... ну это... как... вот одно ванильное, одно клубничное, потом два капучино... а не, не, не надо капучино, два американо"
Прикиньте, как вы это превратите в 1С-овский документ ЗаказПокупателя?
А теперь прикиньте, как вы превратите в документ вот это:
{
"items":[
{"name":"Клубничное мороженое","quantity":1},
{"name":"Ванильное мороженое","quantity":1},
{"name":"Кофе американо","quantity":2}
]
}
Можно и на слово. Почему бы вам не поверить человеку с большим опытом? Можно и на спор. Запустим на сотне разных документов (в нормальном разрешении) и проверим
Обращайтесь, сделаю
Не сойдет, он устойчивый
В статье про OpenAI и говорится
OCR это поток - поток
AI это поток - структура
Это будет фамилия того, кто нажал кнопку. В чем проблема?
Можно, но тогда результат будет "плавать". Чтобы раз за разом получать четкий результат, нужно использовать JSON-схему
Ну приведите пример распознавания УПД FineReader-ом. Сделает он такой же JSON (XML), как у меня? И будет делать стабильно от документа к документу?
Так это и сейчас уже можно сделать
Согласен, что распознавание УПД с "бумаги" - это довольно нишевая история. Просто цель статьи - учебная. И, да, это в первую очередь "смотрите, как это делается". УПД я взял потому, что это близко 1С-никам. Разумеется, у технологии есть и более интересные применения. О них я тоже планирую рассказать
Нет, не тривиальная. У вас на входе был текст в виде изображения и на выходе вы получили текст в виде текста. Ну и что? До структуры тут еще очень далеко
1С умеет работать и с ЭДО и с почтой уже давно. Здесь я вам показал как структурировать входящий поток (будь то изображение, аудио или письменная речь, в других моих статьях можете прочитать про голосовой ввод).
Соединяете первое и второе, и получаете то, что вы спросили
И в структуру превращать?
Подключится можно к любому провайдеру, который поддерживается библиотекой (на сегодняшний день это Yandex, Сбер, OpenAI, Antropic, Google, Nvidia, Deepseek и др.)
Но согласитесь, ведь есть разница между преобразованием поток-поток и поток-структура