Обновить
137
8.3

Пользователь

Отправить сообщение

Свяжитесь, пожалуйста, с нами через техподдержку. Мы зададим дополнительные вопросы, чтобы уточнить всю необходимую информацию по возникшим проблемам.

Большое спасибо за информацию! Уже передали ваши замечания команде разработчиков. Пришлите, пожалуйста, примеры документов, в которых встречаются указанные ошибки, оформив запрос в службу технической поддержки.

Да, конечно, мы регулярно обновляем все наши продукты, в том числе и FineReader PDF.

За всеми апдейтами можно следить тут. Версию FineReader для Mac также обновили.

Если говорить про итоги 2021, то для FineReader PDF мы подвели их в этой статье. Вкратце: появился FineReader PDF для мобильных устройств (теперь можно отправлять сканы из мобильного FineReader в продукт на ПК), улучшили интеграцию с Microsoft Office, а редактировать документы теперь можно с помощью списка ключевых слов.

По метрике - можно завершить 50 wf в секунду, мы считаем по числу завершенных. Производительность без доработок была примерно в два раза меньше.

Мы планируем более подробно рассказать о применении Workflow Core в Vantage и доработках в одном из следующих постов.

ZayatzTV Спасибо за информацию. Мы следим за подобными вещами, такого быть не должно. Обязательно перепроверим у себя.


Еще уточните, пожалуйста, у вас iOS- или Android-версия приложения?

LAG_LAGbI4 очень интересная программа. Фото монитора компьютера поместила в группу A4

Да, ошибки бывают. Но надеемся, что большую часть "мусора" FineScanner все же смог отфильтровать. Если вы готовы примерно оценить количество "котиков" и "хлама", которое приложение пропустило, то будем благодарны!


LAG_LAGbI4 А так я уже вижу сценарий применения — удалять фото teamviewer, которые мне присылают.

Спасибо за идею! Мы фокусировались на поиске полезных фотографий документов, а про удаление и "чистку галереи" не думали.

ZayatzTV Скорее всего, отправляются данные об использовании приложения (какие экраны посещали, какими функциями пользовались). Картинки никуда не отсылаются. Если вы хотите запретить отправку аналитики об использовании приложения, то в меню Settings есть галочки "Show ABBYY News" (различные новости, предложения о скидках и т.д.) и "Improve ABBYY services" (как раз данные аналитики).


image


Новые пользователи при установке приложения дают согласие на передачу подобных данных (мы молча ничего не включаем). Пользователь соглашается с нашими eula и privacy policy, а еще две галочки отвечают как раз за новости/рекламу и данные об использовании приложения. На рекламу и аналитику можно не соглашаться (эти галочки не обязательные).


image

ClearAirTurbulence все происходит локально, на устройстве.

ivanovdev конечно, мы перечислили не всех выпускников. Для всех не хватит и целого поста ;)
Например, по ссылке можно найти выпускников ФУПМ и почитать о них.

ivanych Коннекторы пишутся на языке Java. Для реализации коннектора требуется Java SE Development Kit 8 (JDK 8). В состав дистрибутива ABBYY IntelligentSearch включены коннекторы к файловой системе, порталу zakupki.gov.ru и Microsoft SharePoint вместе с исходным кодом. В документации к продукту подробно описывается устройство этих коннекторов.


Если для индексации документов из других источников вам потребуется реализовать свой коннектор или изменить существующий, это можно сделать на основе примеров коннекторов из дистрибутива.

niccolo2019 Много лет назад я слышал нечто подобное про Finereader — особенно про постоянное улучшение качества. Вот только улучшения основной функции нет уже лет так 15… Преимущества нейросетей в последней версии как-то особенно незаметны…

Команда ABBYY постоянно работает над улучшением качества работы различных функций. Например, о применении нейросетей в ABBYY FineReader и об их преимуществах мы подробно рассказывали в этой статье. Надо отметить, что преимущества нейросетей могут быть малозаметны конечному пользователю при работе с отдельными типами документов или в каких-то специфических случаях.


Оценки релевантности простого запроса «Отчёт» у главного конструктора и главного бухгалтера будут разными. Вы на что ориентируетесь? (и как вариант новой функции — подстройка релевантности в зависимости от должности пользователя)

Так как подобные простые запросы возвращают множество релевантных результатов, их можно уточнить с помощью доступных фильтров: например, по источнику, по типу документа, по дате и т.п. Учет прав доступа пользователей, который реализован в нашем продукте, уменьшает число доступных для изучения результатов поиска, оставляя только те документы, которые имеют отношение к профессиональной деятельности пользователя. Использование бухгалтером и конструктором в своих запросах уточняющих слов – финансовый отчет, отчет об испытаниях – также позволяет определить объект поиска, так как ABBYY IntelligentSearch, в том числе, выполняет семантический анализ запроса.


Ваша ОCR уже научилась более менее правильно расставлять блоки на сложных документах и распознавать и распознавать рукописный текст в старой КД? Не заметил. Скажите, где посмотреть?

Про блоки мы рассказывали на Хабре. Наши технологии ОСR развиваются, в настоящий момент доступно распознавание документов на 192 языках на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также языках на основе иероглифического письма. В массовых сценариях задачи распознавания рукописного текста встречаются редко. Мы занимаемся развитием наших технологий и в этом направлении, но пока точных сроков назвать не можем.


Закрытость форматов ваших программ (словарей в OCR), традиционное отсутствие поддержки экспорта в предыдущие версии — серьёзная причина очень настороженно подходить к сотрудничеству с Вами.

Многие наши продукты поддерживают возможности кастомизации на стороне пользователей, в том числе, в части использования пользовательских словарей. Что касается вопроса открытости, недавно мы опубликовали на GitHub свою библиотеку машинного обучения с открытым кодом. Подробнее недавно рассказывали о ней на Хабре.


Совместимость с предыдущими версиями, действительно, сложный вопрос с точки зрения развития продуктов. В рамках сотрудничества с клиентами и партнерами мы обсуждаем различные вопросы развития наших продуктов и реализации новых возможностей.


Вторая причина — если память не изменяет — Abbyy — формально американская компания… При внедрении таких систем на важных предприятиях наверняка может произойти утечка данных… Какие гарантии её исключения?

ABBYY Intelligent Search находится в едином реестре российских программ. Одно из ключевых преимуществ ABBYY IntelligentSearch – наличие встроенных инструментов, которые не требуют дополнительных настроек с доступом наших специалистов к контенту заказчика. OCR, учет прав доступа, семантический анализ – все это доступно сразу после установки продукта, и не требует изучения документов заказчика. И, как мы уже упоминали в посте, поисковое решение ABBYY развернуто на отдельном сервере во внутреннем контуре НПО Энергомаш.


Не заметил про скорость (пере)индексирования.

На время создания индекса влияют следующие факторы:
• Особенности исходных данных – объем исходных данных, языки документов, доля документов, требующих распознавание.
• Тип поиска по индексу – полнотекстовый или семантический.
• Конфигурация аппаратного обеспечения.


Так как сочетание этих факторов уникально, мы добавили в ABBYY Intelligent Search встроенные возможности для прогнозирования времени индексации. Самая ресурсоемкая операция – построение поискового индекса по всей коллекции документов или полная переиндексация коллекции. Поисковый индекс по коллекции из 1 млн 5-страничных документов на русском языке, в которой доля документов, требующих распознавание, составляет 30%, строится в течение 1,5 дней на восьми 8-ядерных серверах с 16 Гб оперативной памяти. Обогащение полученного индекса семантической информацией выполняется в фоновом режим в течение 14 дней. Для обновления поискового индекса требуются существенно меньшие ресурсы.

Javian Доля подобных документов за последние 20 лет существенно снизилась. В новых версиях наших продуктов для обработки таких документов нужно использовать дополнительные настройки.


Рекомендуем обратиться с вопросом в техподдержку с примерами ваших документов – вам порекомендуют настройки, которые предпочтительно выставить для получения результата распознавания наилучшего качества в случае документов, созданных на печатной машинке. Для начала можно выставить соответствующий тип документа в настройках — https://help.abbyy.com/ru-ru/finereader/15/user_guide/sourceimage#printtype»

2PAE Стоимость поискового решения зависит от ряда параметров: количества индексируемых документов, числа подключаемых источников, используемых онтологий и т.д. Оценка подобных решений участниками рынка есть в статье газеты "Коммерсант".

StanSemenoff Проводилось ли какое-нибудь измерение качества, как понять что внедренная поисковая система дает хороший релевантный результат?

Тестируя сам продукт ABBYY Intelligent Search, мы выполняем регулярное тестирование качества поиска. Для измерения качества мы используем размеченные коллекции текстов и подготовленные поисковые запросы, исходя из предполагаемых пользовательских сценариев. Текущий объем тестирования включает более 500 запросов по 9 различным коллекциям на русском и английском языках.


Для оценки работы мы используем такие метрики: точность (precision), полноту (recall) и F-меру (F-measure), поскольку они являются общепринятыми и показательными оценками эффективности поисковой системы.


Для расчета метрик по всей коллекции документов мы подсчитываем общее число релевантных документов во всей коллекции и количество найденных документов по каждому запросу.


Объем тестирования качества поиска в рамках конкретного проекта всегда определяется заказчиком.

Tatikoma В чем преимущество перед sphinx или elastic (кроме использования нейросетей)?

К ключевым преимуществам ABBYY Intelligent Search в сравнении с elastic можно отнести:


  1. Наличие распределенной подсистемы обхода источников;
  2. Собственный OCR признанного качества, позволяющий обрабатывать документы на кластере серверов;
  3. Наличие пользовательского интерфейса;
  4. Учет прав доступа, аутентификация, авторизация;
  5. Полноценная поддержка русского языка;
  6. Встроенные возможности семантического и кросс-языкового поиска (с учетом синонимов, гипонимов и общепринятых сокращений);
  7. Возможность применения кастомных онтологий для построения произвольных фильтров (например, по сторонам договора, персонам, организациям, стоимости и т.д.).

1-2 млн документов — это совсем не много. Самые сложные запросы по 3 секунды — почему? — Оно же проиндексировано: просканировать индекс и отфильтровать сложные критерии по 2 млн документов — кажется это не так много времени должно занимать (+ тот же sphinx умеет параллельно искать по дельтам, у вас не так?).

Действительно, в данном случае указанное значение – до 3 секунд – это проектное требование. Кроме размера индекса, на время поиска влияет число пользователей, которые одновременно выполняют поиск, и конфигурация аппаратного обеспечения.


Время поиска по коллекции из 1 млн документов на сервере с 8 логическими ядрами, 32 Гб оперативной памяти составляет:
• В режиме семантического поиска (в данном режиме, в том числе, выполняется семантический анализ поискового запроса) — 1 секунда с поддержкой возможности 8 запросов в секунду.
• В режиме полнотекстового поиска – 0,2 секунды с поддержкой возможности 20 запросов в секунду.

yleo off-topic: Хотелось-бы увидеть статью по текущему состоянию и будущему Compreno, что было сделано за 5 лет (после Андреева) и т.п.

Добрый день! Мы готовим материал об этом.


Если говорить коротко, то Compreno лежит в основе технологий ABBYY для решения задач Natural Language Processing. То есть если вы читаете новости про NLP-технологии ABBYY, то значит, что здесь используются технологии анализа и понимания естественного языка.

News2002 Сейчас такого поля нет. Передали информацию продуктовой команде, они обсудят такую возможность. Спасибо вам за обратную связь!

OBIEESupport


  1. Мы работаем над этим, но пока точных сроков назвать не можем.
  2. Вероятно, вы имели в виду скидку 40% для студентов, преподавателей и образовательных учреждений. Это предложение действует постоянно.
  3. Купить SDK можно — ABBYY FineReader Engine. По теме повышенного качества распознавания рукописей — см. п. 1

A164 спасибо. Напишите, пожалуйста, в саппорт и поделитесь подробностями сценария: что именно за опросник создает ваш товарищ, для чего именно ему понадобился "ползунок"? Нам это интересно, хочется разобраться в деталях.

Информация

В рейтинге
785-й
Откуда
Россия
Работает в
Зарегистрирован
Активность