Pull to refresh
138
6.9

Пользователь

Send message

ivanovdev конечно, мы перечислили не всех выпускников. Для всех не хватит и целого поста ;)
Например, по ссылке можно найти выпускников ФУПМ и почитать о них.

ivanych Коннекторы пишутся на языке Java. Для реализации коннектора требуется Java SE Development Kit 8 (JDK 8). В состав дистрибутива ABBYY IntelligentSearch включены коннекторы к файловой системе, порталу zakupki.gov.ru и Microsoft SharePoint вместе с исходным кодом. В документации к продукту подробно описывается устройство этих коннекторов.


Если для индексации документов из других источников вам потребуется реализовать свой коннектор или изменить существующий, это можно сделать на основе примеров коннекторов из дистрибутива.

niccolo2019 Много лет назад я слышал нечто подобное про Finereader — особенно про постоянное улучшение качества. Вот только улучшения основной функции нет уже лет так 15… Преимущества нейросетей в последней версии как-то особенно незаметны…

Команда ABBYY постоянно работает над улучшением качества работы различных функций. Например, о применении нейросетей в ABBYY FineReader и об их преимуществах мы подробно рассказывали в этой статье. Надо отметить, что преимущества нейросетей могут быть малозаметны конечному пользователю при работе с отдельными типами документов или в каких-то специфических случаях.


Оценки релевантности простого запроса «Отчёт» у главного конструктора и главного бухгалтера будут разными. Вы на что ориентируетесь? (и как вариант новой функции — подстройка релевантности в зависимости от должности пользователя)

Так как подобные простые запросы возвращают множество релевантных результатов, их можно уточнить с помощью доступных фильтров: например, по источнику, по типу документа, по дате и т.п. Учет прав доступа пользователей, который реализован в нашем продукте, уменьшает число доступных для изучения результатов поиска, оставляя только те документы, которые имеют отношение к профессиональной деятельности пользователя. Использование бухгалтером и конструктором в своих запросах уточняющих слов – финансовый отчет, отчет об испытаниях – также позволяет определить объект поиска, так как ABBYY IntelligentSearch, в том числе, выполняет семантический анализ запроса.


Ваша ОCR уже научилась более менее правильно расставлять блоки на сложных документах и распознавать и распознавать рукописный текст в старой КД? Не заметил. Скажите, где посмотреть?

Про блоки мы рассказывали на Хабре. Наши технологии ОСR развиваются, в настоящий момент доступно распознавание документов на 192 языках на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также языках на основе иероглифического письма. В массовых сценариях задачи распознавания рукописного текста встречаются редко. Мы занимаемся развитием наших технологий и в этом направлении, но пока точных сроков назвать не можем.


Закрытость форматов ваших программ (словарей в OCR), традиционное отсутствие поддержки экспорта в предыдущие версии — серьёзная причина очень настороженно подходить к сотрудничеству с Вами.

Многие наши продукты поддерживают возможности кастомизации на стороне пользователей, в том числе, в части использования пользовательских словарей. Что касается вопроса открытости, недавно мы опубликовали на GitHub свою библиотеку машинного обучения с открытым кодом. Подробнее недавно рассказывали о ней на Хабре.


Совместимость с предыдущими версиями, действительно, сложный вопрос с точки зрения развития продуктов. В рамках сотрудничества с клиентами и партнерами мы обсуждаем различные вопросы развития наших продуктов и реализации новых возможностей.


Вторая причина — если память не изменяет — Abbyy — формально американская компания… При внедрении таких систем на важных предприятиях наверняка может произойти утечка данных… Какие гарантии её исключения?

ABBYY Intelligent Search находится в едином реестре российских программ. Одно из ключевых преимуществ ABBYY IntelligentSearch – наличие встроенных инструментов, которые не требуют дополнительных настроек с доступом наших специалистов к контенту заказчика. OCR, учет прав доступа, семантический анализ – все это доступно сразу после установки продукта, и не требует изучения документов заказчика. И, как мы уже упоминали в посте, поисковое решение ABBYY развернуто на отдельном сервере во внутреннем контуре НПО Энергомаш.


Не заметил про скорость (пере)индексирования.

На время создания индекса влияют следующие факторы:
• Особенности исходных данных – объем исходных данных, языки документов, доля документов, требующих распознавание.
• Тип поиска по индексу – полнотекстовый или семантический.
• Конфигурация аппаратного обеспечения.


Так как сочетание этих факторов уникально, мы добавили в ABBYY Intelligent Search встроенные возможности для прогнозирования времени индексации. Самая ресурсоемкая операция – построение поискового индекса по всей коллекции документов или полная переиндексация коллекции. Поисковый индекс по коллекции из 1 млн 5-страничных документов на русском языке, в которой доля документов, требующих распознавание, составляет 30%, строится в течение 1,5 дней на восьми 8-ядерных серверах с 16 Гб оперативной памяти. Обогащение полученного индекса семантической информацией выполняется в фоновом режим в течение 14 дней. Для обновления поискового индекса требуются существенно меньшие ресурсы.

Javian Доля подобных документов за последние 20 лет существенно снизилась. В новых версиях наших продуктов для обработки таких документов нужно использовать дополнительные настройки.


Рекомендуем обратиться с вопросом в техподдержку с примерами ваших документов – вам порекомендуют настройки, которые предпочтительно выставить для получения результата распознавания наилучшего качества в случае документов, созданных на печатной машинке. Для начала можно выставить соответствующий тип документа в настройках — https://help.abbyy.com/ru-ru/finereader/15/user_guide/sourceimage#printtype»

2PAE Стоимость поискового решения зависит от ряда параметров: количества индексируемых документов, числа подключаемых источников, используемых онтологий и т.д. Оценка подобных решений участниками рынка есть в статье газеты "Коммерсант".

StanSemenoff Проводилось ли какое-нибудь измерение качества, как понять что внедренная поисковая система дает хороший релевантный результат?

Тестируя сам продукт ABBYY Intelligent Search, мы выполняем регулярное тестирование качества поиска. Для измерения качества мы используем размеченные коллекции текстов и подготовленные поисковые запросы, исходя из предполагаемых пользовательских сценариев. Текущий объем тестирования включает более 500 запросов по 9 различным коллекциям на русском и английском языках.


Для оценки работы мы используем такие метрики: точность (precision), полноту (recall) и F-меру (F-measure), поскольку они являются общепринятыми и показательными оценками эффективности поисковой системы.


Для расчета метрик по всей коллекции документов мы подсчитываем общее число релевантных документов во всей коллекции и количество найденных документов по каждому запросу.


Объем тестирования качества поиска в рамках конкретного проекта всегда определяется заказчиком.

Tatikoma В чем преимущество перед sphinx или elastic (кроме использования нейросетей)?

К ключевым преимуществам ABBYY Intelligent Search в сравнении с elastic можно отнести:


  1. Наличие распределенной подсистемы обхода источников;
  2. Собственный OCR признанного качества, позволяющий обрабатывать документы на кластере серверов;
  3. Наличие пользовательского интерфейса;
  4. Учет прав доступа, аутентификация, авторизация;
  5. Полноценная поддержка русского языка;
  6. Встроенные возможности семантического и кросс-языкового поиска (с учетом синонимов, гипонимов и общепринятых сокращений);
  7. Возможность применения кастомных онтологий для построения произвольных фильтров (например, по сторонам договора, персонам, организациям, стоимости и т.д.).

1-2 млн документов — это совсем не много. Самые сложные запросы по 3 секунды — почему? — Оно же проиндексировано: просканировать индекс и отфильтровать сложные критерии по 2 млн документов — кажется это не так много времени должно занимать (+ тот же sphinx умеет параллельно искать по дельтам, у вас не так?).

Действительно, в данном случае указанное значение – до 3 секунд – это проектное требование. Кроме размера индекса, на время поиска влияет число пользователей, которые одновременно выполняют поиск, и конфигурация аппаратного обеспечения.


Время поиска по коллекции из 1 млн документов на сервере с 8 логическими ядрами, 32 Гб оперативной памяти составляет:
• В режиме семантического поиска (в данном режиме, в том числе, выполняется семантический анализ поискового запроса) — 1 секунда с поддержкой возможности 8 запросов в секунду.
• В режиме полнотекстового поиска – 0,2 секунды с поддержкой возможности 20 запросов в секунду.

yleo off-topic: Хотелось-бы увидеть статью по текущему состоянию и будущему Compreno, что было сделано за 5 лет (после Андреева) и т.п.

Добрый день! Мы готовим материал об этом.


Если говорить коротко, то Compreno лежит в основе технологий ABBYY для решения задач Natural Language Processing. То есть если вы читаете новости про NLP-технологии ABBYY, то значит, что здесь используются технологии анализа и понимания естественного языка.

News2002 Сейчас такого поля нет. Передали информацию продуктовой команде, они обсудят такую возможность. Спасибо вам за обратную связь!

OBIEESupport


  1. Мы работаем над этим, но пока точных сроков назвать не можем.
  2. Вероятно, вы имели в виду скидку 40% для студентов, преподавателей и образовательных учреждений. Это предложение действует постоянно.
  3. Купить SDK можно — ABBYY FineReader Engine. По теме повышенного качества распознавания рукописей — см. п. 1

A164 спасибо. Напишите, пожалуйста, в саппорт и поделитесь подробностями сценария: что именно за опросник создает ваш товарищ, для чего именно ему понадобился "ползунок"? Нам это интересно, хочется разобраться в деталях.

A164 не совсем понятно, какие элементы имеются в виду? Уточните, пожалуйста, более детально.

niccolo2019 1.Чем FR15 лучше для создания таких форм чем бесплатный ОО?

Сравнивать не совсем корректно, так как они используются несколько для разных целей.


2.На стороне клиента — чем такие формы, кроме наглядности и необходимости тяжеловесного Адоб ридера (ибо простые гляделки не поддерживают заполнение форм) лучше простой текстовой формы, которую можно заполнить на коленке в любой ОС, и гляделки...

Мы рассказали про плюсы PDF-форм в статье. В первую очередь, лучше тем, что PDF-форма будет одинаково отображаться в любой операционной системе, любой программе и на любом устройстве.


1.Данные для обработки/передачи, если не требуют защиты, должны иметь МИНИМАЛЬНО достаточный размер и самую широкую поддержку другим софтом, включая манипуляции с ними… (размер/структура пакета FR, возможность обработки в стороннем приложении — Пайнтдотнет, Кромсатор, Скантайлор, Фотошоп для особо талантливых/ быстрого реимпорта отдельных страниц пакета).

Все зависит от сценария работы и решаемой проблемы. Спасибо за обратную связь. Передали информацию продуктовой команде FineReader PDF.


2.Действия, сделанные в программе пользователем, должны без проблем переноситься вперёд и НАЗАД по версиям...(Я так понимаю, по Аббийской традиции, FR14-12 пакеты FR15 c расставленными блоками экспортировать не могут)

Поддержка новых технологий и фич не всегда позволяет поддержать обратную совместимость.


3.Программа должна иметь минимальный размер и ЗАГРУЖАТЬСЯ И работать на одном железе ЗАМЕТНО быстрее старой версии. Сравнивая размер и функционал 8 и последующих версий — размер FR растёт в разы быстрее…

Мы работаем над этим. Размер зависит от многих факторов. В частности, увеличение размера нового FineReader PDF связано с переходом на новые гибридные технологии распознавания с использованием нейросетей. Повышение качество OCR для нас является приоритетом.


4.Программа от версии к версии должна делать лучше свою основную работу, а не растекаться по смежным областям, где нужно конкурировать со сторонним софтом, гораздо лучше заточенным на сторонние функции.

Основная функциональность FineReader PDF — это работа с PDF, поэтому создание и редактирование PDF-форм — это не что-то отвлеченное, а расширение наших функциональных возможностях в распространенных PDF-сценариях.


5.Такие вещи надо описывать детально в Справке/Преимуществах новой версии, а не на маргинальном для большей части простых пользователей Хабре.

Спасибо за фидбэк, учтем. Кстати, в справке на сайте ABBYY эти вещи описаны детально.

А вот можно ли попросить вашего совета про устройство PDF файлов? Если да, я личное сообщение напишу.

PereslavlFoto мы планируем сделать отдельный пост и рассказать про устройство PDF. Если совет нужен сейчас, то пишите, конечно.

Вообразим, что мы с вами начертили прямоугольник и залили его заливкой. Мы сделали это в векторном редакторе. Прямоугольник у нас красного цвета, заливка красного цвета. Мы вывели результат в PDF.

PereslavlFoto К сожалению, мы не имеем точного представления, как LaTex вставляет к себе PDF-документ. PDF-документ — это многослойная структура, и контент страницы — это только его часть, пусть и наиболее существенная. Вероятно, LaTex умеет парсить документ и извлекать этот контент, может, даже преобразует в свой язык. Таким образом, если операндов цвета не встретилось, он сможет использовать свои операнды.


У Вас достаточно специфичный сценарий, вряд ли какая-то программа сможет делать именно то, что вам нужно: так как в PDF отсутствие цвета означает дефолтный черный цвет, многие редакторы все равно его явно запишут в поток команд.


Передадим вас запрос продуктовой команде FineReader.

Я брал decompressed PDF, стирал команды окрашивания векторных рисунков и исправлял bounding box. Байтовое смещение нарушалось, однако это не имело значения.

PereslavlFoto Большинство просмотрщиков умеют восстанавливать байтовые смещения объектов, если они не очень большие. При таком редактировании документа главное не перестараться...


A propos, не знаете ли, какой программой можно оставить в PDF векторный рисунок (обводку и заливку), однако убрать переключения цветов? Задача в том, чтобы переключать цвет не внутри PDF файла, а до того, как он начнёт выводиться. То есть вот в редакторе изначально была обводка и заливка чёрного цвета, а мне надо, чтобы была обводка и заливка незаданного цвета.

PereslavlFoto Уточните, что значит "чтобы была обводка и заливка незаданного цвета"? То есть она как бы была, но прозрачного цвета? Или все-таки ее не было? Или чтобы она была такого цвета, как векторные примитивы, нарисованные до нужного объекта? PDF дает простор для воображения.


В принципе, любую из этих операций можно сделать как вы уже делали, в блокноте. Но как выразился quwy, можно поправить что угодно, вопрос в том, насколько это сложно.

Должно быть, вы говорите про compressed PDF?

PereslavlFoto Нет. Возможно, вас смутила фраза про объекты и смещения? Это характерно абсолютно для всех PDF. Любой PDF можно представить и как compressed, и в обычном, читаемом виде (decompressed). Вопрос только в размере файла, который, очевидно, в сжатом состоянии будет меньше.

Мне доводилось редактировать PDF в текстовом редакторе. Проблемы не возникали.

PereslavlFoto Скорее всего, вы просто меняли один символ один на другой, и при этом сам документ не был заархивирован. Тогда вы понимаете, что редактируете, и как это сделать, не нарушив байтовое смещение PDF-объектов. Но это возможно в очень редких случаях...

Вы уверены? Википедия, вот, приводит пример кода на этом языке:

quwy Пример, который Вы привели, не похож на PDF. В PDF такие команды будут выглядеть так:


BT
72 500 TD
/F1 200 Tf
(Hello, world!) Tj
ET

Как уже выше было сказано, PDF не целиком состоит из таких команд, это всего лишь команды для отображения контента. Помимо него, в PDF записано еще много чего интересного. Кстати, если объекты в PDF запаковать каким-нибудь кодеком, то он станет гораздо больше похож на бинарный файл.

Information

Rating
1,036-th
Location
Россия
Works in
Registered
Activity