Pull to refresh
8K+
137

Пользователь

1,2
Rating
107
Subscribers
Send message

К сожалению, пока технология работает только внутри нашего продукта ContentCapture, который предназначен для потоковой обработки документов в масштабах организации. Распознавать произвольные рукописные тексты наша нейросеть умеет, но пока в массовые продукты такая фича не вошла.

Спасибо, мы очень старались :)

Пост действительно без деталей, т. к. он вводный. Спасибо, что интересуетесь нашей работой! Записали ваши вопросы в бэклог.

Про Lingvo у нас уже выходил подробный материал. Его можно почитать тут: https://www.it-world.ru/tech/practice/187497.html

Такой подход к корпоративному блогу действительно считается классическим стартом на Хабре. Однако наша ситуация (как и у многих коллег) нестандартная, и нам было крайне важно объяснить сообществу, кто мы такие и почему наш пост размещен в блоге другой компании (и вообще куда он делся).

Также в посте мы не просто объявили о старте блога, но и рассказали, чем занимались весь прошлый год, что сейчас представляет из себя компания и какой пул вопросов освещает. Технические подробности обязательно будут :)

поправили, спасибо за внимательность!

К сожалению, с этим вопросом помочь не сможем, т.к. не публикуем декомпиляторы DSL :(

Можем посоветовать заглянуть на один из наших прошлых сайтов "Ассоциация лексикографов Lingvo". Для этого в архиве интернета https://web.archive.org открыть сайт http://www.lingvoda.ru где-то за 2017 год.

К сожалению, мы не сможем поделиться этим словарем, но можем подарить вам промокод на английский толковый словарь, в статьях которого указывается этимология слова. Все подробности -- в директе.

Спасибо, нам очень приятно, особенно про нашу техподдержку :)

Не скроем, после вашего поста тоже словили эту нотку ламповой ностальгии :)

К сожалению, тот этимологический словарь предложить не сможем, но можем подарить промокод на английский толковый словарь, в статьях которого указывается этимология слова. Все подробности -- в директе.

Свяжитесь, пожалуйста, с нами через техподдержку. Мы зададим дополнительные вопросы, чтобы уточнить всю необходимую информацию по возникшим проблемам.

Большое спасибо за информацию! Уже передали ваши замечания команде разработчиков. Пришлите, пожалуйста, примеры документов, в которых встречаются указанные ошибки, оформив запрос в службу технической поддержки.

Да, конечно, мы регулярно обновляем все наши продукты, в том числе и FineReader PDF.

За всеми апдейтами можно следить тут. Версию FineReader для Mac также обновили.

Если говорить про итоги 2021, то для FineReader PDF мы подвели их в этой статье. Вкратце: появился FineReader PDF для мобильных устройств (теперь можно отправлять сканы из мобильного FineReader в продукт на ПК), улучшили интеграцию с Microsoft Office, а редактировать документы теперь можно с помощью списка ключевых слов.

По метрике - можно завершить 50 wf в секунду, мы считаем по числу завершенных. Производительность без доработок была примерно в два раза меньше.

Мы планируем более подробно рассказать о применении Workflow Core в Vantage и доработках в одном из следующих постов.

ZayatzTV Спасибо за информацию. Мы следим за подобными вещами, такого быть не должно. Обязательно перепроверим у себя.


Еще уточните, пожалуйста, у вас iOS- или Android-версия приложения?

LAG_LAGbI4 очень интересная программа. Фото монитора компьютера поместила в группу A4

Да, ошибки бывают. Но надеемся, что большую часть "мусора" FineScanner все же смог отфильтровать. Если вы готовы примерно оценить количество "котиков" и "хлама", которое приложение пропустило, то будем благодарны!


LAG_LAGbI4 А так я уже вижу сценарий применения — удалять фото teamviewer, которые мне присылают.

Спасибо за идею! Мы фокусировались на поиске полезных фотографий документов, а про удаление и "чистку галереи" не думали.

ZayatzTV Скорее всего, отправляются данные об использовании приложения (какие экраны посещали, какими функциями пользовались). Картинки никуда не отсылаются. Если вы хотите запретить отправку аналитики об использовании приложения, то в меню Settings есть галочки "Show ABBYY News" (различные новости, предложения о скидках и т.д.) и "Improve ABBYY services" (как раз данные аналитики).


image


Новые пользователи при установке приложения дают согласие на передачу подобных данных (мы молча ничего не включаем). Пользователь соглашается с нашими eula и privacy policy, а еще две галочки отвечают как раз за новости/рекламу и данные об использовании приложения. На рекламу и аналитику можно не соглашаться (эти галочки не обязательные).


image

ivanovdev конечно, мы перечислили не всех выпускников. Для всех не хватит и целого поста ;)
Например, по ссылке можно найти выпускников ФУПМ и почитать о них.

ivanych Коннекторы пишутся на языке Java. Для реализации коннектора требуется Java SE Development Kit 8 (JDK 8). В состав дистрибутива ABBYY IntelligentSearch включены коннекторы к файловой системе, порталу zakupki.gov.ru и Microsoft SharePoint вместе с исходным кодом. В документации к продукту подробно описывается устройство этих коннекторов.


Если для индексации документов из других источников вам потребуется реализовать свой коннектор или изменить существующий, это можно сделать на основе примеров коннекторов из дистрибутива.

niccolo2019 Много лет назад я слышал нечто подобное про Finereader — особенно про постоянное улучшение качества. Вот только улучшения основной функции нет уже лет так 15… Преимущества нейросетей в последней версии как-то особенно незаметны…

Команда ABBYY постоянно работает над улучшением качества работы различных функций. Например, о применении нейросетей в ABBYY FineReader и об их преимуществах мы подробно рассказывали в этой статье. Надо отметить, что преимущества нейросетей могут быть малозаметны конечному пользователю при работе с отдельными типами документов или в каких-то специфических случаях.


Оценки релевантности простого запроса «Отчёт» у главного конструктора и главного бухгалтера будут разными. Вы на что ориентируетесь? (и как вариант новой функции — подстройка релевантности в зависимости от должности пользователя)

Так как подобные простые запросы возвращают множество релевантных результатов, их можно уточнить с помощью доступных фильтров: например, по источнику, по типу документа, по дате и т.п. Учет прав доступа пользователей, который реализован в нашем продукте, уменьшает число доступных для изучения результатов поиска, оставляя только те документы, которые имеют отношение к профессиональной деятельности пользователя. Использование бухгалтером и конструктором в своих запросах уточняющих слов – финансовый отчет, отчет об испытаниях – также позволяет определить объект поиска, так как ABBYY IntelligentSearch, в том числе, выполняет семантический анализ запроса.


Ваша ОCR уже научилась более менее правильно расставлять блоки на сложных документах и распознавать и распознавать рукописный текст в старой КД? Не заметил. Скажите, где посмотреть?

Про блоки мы рассказывали на Хабре. Наши технологии ОСR развиваются, в настоящий момент доступно распознавание документов на 192 языках на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также языках на основе иероглифического письма. В массовых сценариях задачи распознавания рукописного текста встречаются редко. Мы занимаемся развитием наших технологий и в этом направлении, но пока точных сроков назвать не можем.


Закрытость форматов ваших программ (словарей в OCR), традиционное отсутствие поддержки экспорта в предыдущие версии — серьёзная причина очень настороженно подходить к сотрудничеству с Вами.

Многие наши продукты поддерживают возможности кастомизации на стороне пользователей, в том числе, в части использования пользовательских словарей. Что касается вопроса открытости, недавно мы опубликовали на GitHub свою библиотеку машинного обучения с открытым кодом. Подробнее недавно рассказывали о ней на Хабре.


Совместимость с предыдущими версиями, действительно, сложный вопрос с точки зрения развития продуктов. В рамках сотрудничества с клиентами и партнерами мы обсуждаем различные вопросы развития наших продуктов и реализации новых возможностей.


Вторая причина — если память не изменяет — Abbyy — формально американская компания… При внедрении таких систем на важных предприятиях наверняка может произойти утечка данных… Какие гарантии её исключения?

ABBYY Intelligent Search находится в едином реестре российских программ. Одно из ключевых преимуществ ABBYY IntelligentSearch – наличие встроенных инструментов, которые не требуют дополнительных настроек с доступом наших специалистов к контенту заказчика. OCR, учет прав доступа, семантический анализ – все это доступно сразу после установки продукта, и не требует изучения документов заказчика. И, как мы уже упоминали в посте, поисковое решение ABBYY развернуто на отдельном сервере во внутреннем контуре НПО Энергомаш.


Не заметил про скорость (пере)индексирования.

На время создания индекса влияют следующие факторы:
• Особенности исходных данных – объем исходных данных, языки документов, доля документов, требующих распознавание.
• Тип поиска по индексу – полнотекстовый или семантический.
• Конфигурация аппаратного обеспечения.


Так как сочетание этих факторов уникально, мы добавили в ABBYY Intelligent Search встроенные возможности для прогнозирования времени индексации. Самая ресурсоемкая операция – построение поискового индекса по всей коллекции документов или полная переиндексация коллекции. Поисковый индекс по коллекции из 1 млн 5-страничных документов на русском языке, в которой доля документов, требующих распознавание, составляет 30%, строится в течение 1,5 дней на восьми 8-ядерных серверах с 16 Гб оперативной памяти. Обогащение полученного индекса семантической информацией выполняется в фоновом режим в течение 14 дней. Для обновления поискового индекса требуются существенно меньшие ресурсы.

Javian Доля подобных документов за последние 20 лет существенно снизилась. В новых версиях наших продуктов для обработки таких документов нужно использовать дополнительные настройки.


Рекомендуем обратиться с вопросом в техподдержку с примерами ваших документов – вам порекомендуют настройки, которые предпочтительно выставить для получения результата распознавания наилучшего качества в случае документов, созданных на печатной машинке. Для начала можно выставить соответствующий тип документа в настройках — https://help.abbyy.com/ru-ru/finereader/15/user_guide/sourceimage#printtype»

Information

Rating
1,900-th
Location
Россия
Works in
Registered
Activity