Pull to refresh
69
14.8

Пользователь

Send message

Добрый день! Благодарим за вопросы.

Лесничие будут осуществлять уход за деревьями в течение пяти лет, после чего молодой лес будет жить уже по своим законам.  
Приживаемость проекта в первый год должна составить 80%, а убыль каждый последующий год – не более 3%. В том случае, если приживаемость окажется ниже, лесничие будут подсаживать новые сеянцы.

У Smart Engines есть реальное преимущество – OCR, которая распознает 15 страниц документов за 1 секунду. И мы, как вы правильно заметили, нашли способ это доказать.

Это не эмоции, а просто факт, который нужно принять: такого результата достигла наша российская технология OCR.

А нам кажется, что вы все прекрасно понимаете. Благодарим вас за то, что повышаете рейтинг этой статьи. Но, обратите внимание, как далеко мы отошли от основной темы нашей статьи - способности отечественной OCR распознавать 15 страниц документов за 1 секунду!

Наше ПО распространяется как B2B-продукты. Впрочем, как и решения наших конкурентов.

Мы, конечно, следим за нашими конкурентами и их успехами в открытом информационном поле. Но так же, как и мы, они не дают конкурентам свои OCR решения для серьезного тестирования.

А такие сравнения имеют смысл и пользу, когда они совершены по доброй воле :)

Ответ на этот вопрос следует из того, что мы написали выше. Мы не имеем доступа к "собственническому ПО" других компаний, поэтому мы и не можем проводить таких сравнений.

В этой статье мы ссылались на наши сравнения, опубликованные еще в 2020 году (само исследование проводилось в 2019 году). На тот момент замеры были сделаны на актуальных в то время версиях OCR Tesseract. Если мы будем проводить новые сравнения, то будем использовать актуальные сейчас версии.

Конечно, OCR Tesseract – хороший продукт. Его используют в России провайдеры сервисов распознавания документов, которые не имеют собственных технологий OCR.

Если из версии 5 можно выжать 4 страницы – это хорошо, но мы же демонстрируем, как наша OCR распознает 15 страниц в секунду (это почти в 4 раза быстрее).

Приветствуем!

Да, наше ПО распознает линейные штрих-коды CODABAR, CODE_39, CODE_93, CODE_128, EAN_8, EAN_13, ITF, ITF14, UPC_A, UPC_E и матричные штрих-коды QR-код, AZTEC, PDF417 и DataMatrix.

Добрый день! Благодарим за вопрос.

Сравнение проприетарных решений могут осуществлять только заказчики или аналитические агентства, которые приобрели эти программы и имеют к ним официальный доступ.

Возможно, мы находимся с вами на разных уровнях абстракции. Называть предложенную нами конкретную технологию и конкретный алгоритм "обрезанным вариантом аттеншна" звучит сомнительно: когда вы говорите "аттеншн" вы, скорее всего (поправьте, если мы ошибаемся), подразумеваете соответствующую технику в машинном обучении, тогда как мы предлагаем конкретный алгоритм работы с текстовыми полями документов в видеопотоке (который, вообще говоря, может обучения не предполагать).
Даже если вы имели ввиду что-то другое, нам не очень понятно, каким образом конкретный алгоритм, до нас в данной задаче никем не описанный и не использованный (насколько нам известно как по опубликованным научным статьям, так и по отчету патентного экзаменатора) можно назвать "базовым концептом"? Этот патент не про концепт, а про конкретную технологию. Конкретные технологии патентовать совершенно не стыдно, новые концепты, кстати, тоже не стыдно, а на "базовые концепты" никто патент не даст.
Что касается смысла статьи на этом техническом ресурсе - то тут все даже проще. Этот технический ресурс прекрасен в том числе тем, что дает возможность техническим компаниям вести свои блоги, и в том числе рассказывать в них о новостях о компании, ее результатах и достижениях.

Спасибо за комментарий!

"Отброс плохих кадров" и "сохранение хороших" через патентное бюро США никогда бы не прошел.

В патенте предлагается другой подход - во-первых, по априорным признакам взвешивать кадры (причем взвешивать на уровне локальных особенностей изображений - вплоть до взвешивания на уровне каждого символа), после чего сырые результаты распознавания с каждого кадра комбинировать вместе таким образом, чтобы учитывались веса как кадров целиком, так и каждого символа в отдельности.

Вот такой подход не смутил патентное бюро США, и показал, что эффективен для распознавания некоторых полей документов, удостоверяющих личность в видеопотоке в реальном времени. Про это можно прочитать в работе O. O. Petrova, K. B. Bulatov, V. V. Arlazarov and V. L. Arlazarov, “Weighted combination of per-frame recognition results for text recognition in a video stream,” Computer Optics, vol. 45, no 1, pp. 77-89, 2021, DOI: 10.18287/2412-6179-CO-795. Эксперименты в этой работе сделаны на публичных датасетах, поэтому если вы знаете способы еще более эффективного межкадрового комбинирования - всегда есть возможность сравниться.

Свертку мы патентовать не будем. А вот наш способ вычисления свертки без умножений вполне себе рассматривается :)

Здравствуйте. Мы стараемся экспериментировать со всеми известными и некоторыми неизвестными методами восстановления. Но из-за возможных различий в терминологии не можем достоверно ответить на ваш вопрос. Прямые методы обращения оператора проецирования в томографии называются интегральными, и они, как правило, не регуляризованы. Зато в томографии регуляризуют методы спуска, итерационные. Тихоновская регуляризация при этом практически не используется. Это связано с тем, что искомая карта коэффициента ослабления не имеет энергетического смысла, и предположение о том, что меньшее поглощение более правдоподобно, слабо обосновано. Но в большинстве приложений верно то, что высокочастотные текстуры неправдоподобны. Поэтому используется регуляризация полной вариации. И вот она как раз плохо совместима с прямыми методами. Что касается обоснования критерия останова, то это отдельная очень интересная тема, и мы ей занимаемся. Но короткого ответа здесь нет, поскольку функция потерь в разных приложениях разная, а значит, и оптимальный критерий останова будет в общем случае разным.

Увеличение дозовой нагрузки уменьшит "пиксельность", мы предложили подход для малодозовой нагрузки. При частых КТ, например в ковид, малодозовость обследований – важный момент.

Здравствуйте. Статью про ускорение метода обязательно почитаем, спасибо. “Инновацией” было как применять метод в компьютерной томографии, какие именно брать веса.

Добрый день! Благодарим вас за интерес к разработкам Smart Engines.

Если вы хотите почитать про распознавание платежек, счетов, KYC-анкет, согласий и доверенностей, то вам сюда: https://smartengines.ru/raspoznavanie-dokumentov-i-schetov/

Информация о процессе распознавания анкет и форм опросников находится по этой ссылке: https://smartengines.ru/raspoznavanie-form-i-anket/

О том, как в банковской сфере применяется полнотекстовое распознавание, читайте здесь: https://smartengines.ru/raspoznavanie-teksta-ocr/

Подробности процесса сканирования документов на смартфоне смотрите тут:https://smartengines.ru/skanirovanie-dokumentov-na-smartfone/

Всю информацию о нашей интеллектуальной системе анализа и распознавания документов Smart Document Engine, а также о том, как она применяется для распознавания первичных и учетных документов, вы найдете на отдельной странице продукта: https://smartengines.ru/intelligent-document-recognition/

Если у вас остались вопросы, просим связаться с нами через форму на сайте Smart Engines: https://smartengines.ru/contacts/

Клиент такого не позволяет. Сложно представить человека, который спокойно смотрит, как курьер (представитель банка) откровенно ворует его паспортные данные!

Добрый день!

У нас все самописное, мы регулярно публикуем статьи про наши алгоритмы здесь, на Хабре.

Про специальные сети с необычными слоями почитать можно здесь.

Information

Rating
Does not participate
Works in
Registered
Activity