Как сделать поиск по документам, накопленным почти за 100 лет. Опыт НПО Энергомаш и ABBYY

    Многие знают, что ABBYY занимается обработкой и извлечением данных из разных документов. Но у наших продуктов есть и другие интересные возможности. В частности, с помощью решения ABBYY Intelligent Search можно быстро и удобно искать информацию по смыслу в электронных документах из корпоративных систем. Этим уже пользуются крупные российские компании, например, производитель ракетных двигателей АО «НПО Энергомаш».

    Многолетняя практика показывает, что время вывода космических двигателей на рынок от момента начала работ составляет от 5 до 7 лет. В то же время для удержания лидирующих позиций необходимо сокращать сроки разработки и изготовления до 3 – 4 лет. Кроме того, усиление конкуренции привело к необходимости существенного снижения стоимости выпускаемых двигателей на 30 – 50%.

    Указанных показателей невозможно достигнуть без внедрения современных цифровых технологий. Наиболее передовые компании используют инновационные подходы не только на всех стадиях производства, но и на всех стадиях жизненного цикла их изделий. Чем больше компании уходят в цифру, тем острее становится вопрос: как использовать большие данные с максимальной для себя выгодой?

    За 90 лет работы НПО Энергомаш накопил вековой объем документов (как бумажных, так и электронных) с ценной информацией о наработках испытателей и конструкторов. Большая часть документов уже хранится в информационных системах компании (ИС). Согласно исследованию IDC, в среднем сотрудники крупных организаций пользуются 5-6 внутренними ИС. Около 36% времени в среднем уходит на поиск информации – в масштабах крупной компании это тысячи рабочих часов в день.

    Сегодня мы расскажем, как помогли НПО Энергомаш создать корпоративную интеллектуальную информационно-поисковую систему (КИИПС) на базе ABBYY Intelligent Search – такую же удобную и быструю, как популярные поисковики.

    Чем занимается Энергомаш и при чем тут Гагарин


    Со дня основания, 15 мая 1929 года, Энергомаш изготовил более 12 тысяч двигателей для ракет-носителей не только российского, но и зарубежного производства. На этих «моторах» был запущен первый искусственный спутник Земли, отправился в космос «Восток-1» с первым космонавтом Юрием Гагариным на борту, совершил полет космоплан «Буран» и до сих пор осуществляются пуски американских ракет-носителей Atlas и Antares. Например, 26 марта 2020 года ракета-носитель Atlas V, оснащенная двигателями российского производства, вывела на орбиту американский военный спутник стратегической системы связи. В первом полугодии 2020 года двигатели разработки Энергомаш успешно отработали в 11 космических пусках, что составляет 24,4% от всех пусков в мире.

    Сегодня Энергомаш входит в госкорпорацию Роскосмос и возглавляет интегрированную структуру ракетного двигателестроения, в которую входят ведущие предприятия этой отрасли.

    В последние годы компания активно внедряет масштабные ИТ-решения, которые широко используют анализ данных, машинное обучение и все возможности технологий обработки естественного языка. Компания поставила стратегическую цель – создать полностью цифровое производство к 2021 году.

    К примеру, в рамках проекта «Цифровые технологии проектирования и производства» одной из ключевых задач являлось внедрение PLM-системы (автоматизированной системы управления жизненным циклом изделий). Ее цель – обеспечить создание электронной конструкторской документации (ЭКД) и моделирование на ее основе работы двигателя и других рабочих процессов в технологических и производственных подразделениях НПО Энергомаш и готовность к обмену ЭКД между предприятиями отрасли.

    Зачем понадобился поиск по вселенной Энергомаша


    Для достижения стратегической цели по созданию цифрового производства компания ведет целый комплекс проектов, в основе которых лежит работа с большими объемами данных. Одним из них является проект создания корпоративной интеллектуальной информационно-поисковой системы.

    Цель проекта – сохранить, приумножить и поставить на службу цифровому производству знания и компетенции предприятия, накопленные за десятилетия работы.

    В рамках проекта решалось две задачи:

    1). Упростить для конструкторов и инженеров поиск полезной информации в документах прошлых лет.

    В СССР было создано много разработок, но не все реализованы, потому что не всегда на них выделяли инвестиции или уровень развития технологий не позволял завершить задуманное. В наше время такие разработки могут обрести вторую жизнь. Для этого компания просит опытных конструкторов делиться своими исследовательскими работами и чертежами, которые еще хранятся на бумаге. Это поможет оцифровать ценные данные, сохранить на долгие годы и передать знания молодому поколению ученых и инженеров.

    Конечно, поиск документов в электронных системах и раньше существовал в Энергомаш, но сотрудникам было непросто найти нужную информацию для работы.

    Под спойлером рассказываем подробнее, как раньше был устроен этот процесс.
    В каждой из 7 информационных систем был встроенный поисковый механизм со своими правилами. Например, где-то нужную информацию искали с помощью тегов, которые сотрудники проставляли к документам, где-то – по ключевым словам, то есть тем, которые встречаются в тексте. Соответственно, качество поиска в разных ИС отличалось, а сотрудники сталкивались с некоторыми трудностями:

    • теги были проставлены не у всех документов;
    • не отслеживалась версионность документов;
    • невозможно было вести поиск по синонимам, гипонимам и прочим конструкциям, которые передавали тот же смысл другими словами.

    Сложность также заключалась в том, что за десятки лет изобретательский язык поменялся, стал более простым, одни термины вышли из употребления, появились другие. В результате специалист способен сформулировать, что именно он хочет найти, но правильный поисковой запрос составить не получается: система не выдает нужных документов. Кроме того, часть исследовательских работ еще хранилась в бумажном виде.

    В результате:

    • на поиск релевантного документа уходило много времени. Не всегда было понятно, как нужно сформулировать поисковый запрос, чтобы найти нужный документ;
    • поисковая выдача содержала только те документы, теги в которых полностью совпадали с текстом запроса, не учитывались варианты с опечатками.

    Приведем пример. В АО «НПО Энергомаш» есть информационная база данных (ИБД) исследовательских, конструкторских и расчетных работ. Сотрудник заходил в нее, вбивал в поиске «рама рд», желая найти полную информацию по запросу в документах, которые размещены в ИБД, а это стандарты организации, технические указания, результаты исследований, методики расчетов и пр. Поиск в системе осуществляется только по тегам, введенным для каждого документа на усмотрение специалиста, вносившего документ в ИБД. В результате поиск выдавал сотруднику только какой-то один документ, в котором встречалось указанное в запросе слово «рама».

    Поэтому понадобился такой поиск, который позволил бы найти документы, соответствующие поисковому запросу не только по содержанию, но и по смыслу, не только по тегам, но и по самому тексту документа.

    2). Упростить и ускорить поиск данных для служебных подразделений: бухгалтерии, юристов и других специалистов, которые составляют, редактируют, согласуют документы в учетных системах и обмениваются информацией.

    Компания хотела, чтобы сотрудники могли собирать и анализировать необходимую для работы информацию о финансах, производстве и другие значимые сведения из разнородных корпоративных систем, просто вводя запросы в одной поисковой строке. Необходимо было создать единую точку доступа к данным, хранящимся в информационных системах компании, с обеспечением разграниченного доступа к информации в зависимости от полномочий пользователя в каждой системе.

    Почему это важно? Через 7 лет более половины всех данных в мире будут храниться в корпоративных системах, следует из отчета Seagate и IDC Data age. Чтобы необходимая информация всегда была под рукой, ее надо быстро находить. Так, по данным исследования IDC и ABBYY «Рынок искусственного интеллекта в России», представители ИТ (48%) и бизнес-подразделений (33%) видят большие возможности в применении ИИ для корпоративного поиска и классификации документов в ближайшие два года.

    Чтобы справиться с этими задачами, компании понадобился удобный сквозной поиск по многочисленным ИС. Энергомаш рассматривал несколько поисковых систем, но в итоге решил попробовать ABBYY Intelligent Search. На выбор повлияло, во-первых, наличие технологий обработки естественного языка, которые позволяют находить документы, релевантные поисковым запросам по смыслу, а не только по ключевым словам. Во-вторых, возможность разграничивать права доступа пользователей к результатам поиска. Подробнее об этом мы расскажем чуть позже, а сейчас – о том, как мы стартовали.

    Первый «выход» в поиск


    Энергомаш решил проверить работу интеллектуального поиска на 3 тысячах документов из информационной базы данных (ИБД) исследовательских, конструкторских и расчетных работ.
    Для этого ABBYY разработала прототип коннектора к ИБД, который связал ABBYY Intelligent Search c базой документов. Коннектор – это java-программа, которая используется для загрузки документов в индекс. Как это работает?

    1). Сначала строим полнотекстовый поисковый индекс


    Полнотекстовый индекс – это, грубо говоря, список всех слов в документе и его метаданные (номер документа, название, дата создания). Полнотекстовый индекс создается довольно быстро и позволяет искать нужную информацию по ключевым словам – тем, которые встречаются в тексте.

    image


    Чтобы построить полнотекстовый индекс, нужен коннектор. Он связывает поисковое решение с определенной информационной системой и собирает («индексирует») характеристики каждого документа, например:

    • название ИС, где хранится файл,
    • дату последней модификации документа,
    • версию документа в источнике,
    • формат документа,
    • коды языков, на которых составлен документ,
    • путь к документу в ИС,
    • дату последней индексации документа
    • и др.

    Эти характеристики в дальнейшем помогут не только ускорить поиск документа, но и упростить для коннектора логику работы с ними. В частности, коннектор анализирует разные версии одного и того же документа, чтобы отдать в индекс только последнюю. Коннектор также получает информацию о документах, которые были удалены из источника.

    Создавать поисковый индекс помогает встроенный в ABBYY Intelligent Search краулер (поисковый робот). Он через равные промежутки времени опрашивает коннекторы, проверяет, появились ли в ИС новые документы, какие документы удалены, как изменились права доступа к документам. Соответственно, с заданной периодичностью индекс обновляется.

    Индексируются не только текстовые документы, но и файлы в графическом формате. Например, это могут быть скан-копии чертежей в JPEG или PDF без текстового слоя. При работе с изображениями, поисковое решение сначала автоматически распознает текст и добавляет его в поисковый индекс.

    Кроме того, система умеет обрабатывать архивные файлы ZIP, RAR, TAR – при условии, что они не защищены паролем. Архивы распаковываются, изображения из них распознаются, текст индексируется.



    Поисковый индекс содержит произвольный набор полей, которые в том числе могут быть использованы для фильтрации результатов поиска (автор документа, дата создания, номер изделия и др.).

    2). Затем применяем технологии обработки естественного языка


    В фоновом режиме происходит обогащение поискового индекса семантической информацией. Для этого мы использовали уже имеющуюся у нас семантико-лингвистическую онтологию – проще говоря, описания предметов и явлений реального мира. О том, как мы создавали эту модель, мы уже рассказывали на Хабре здесь и здесь.

    С помощью машинного обучения и технологий обработки естественного языка в каждом документе анализируется синтаксис предложений, морфология и семантические значения буквально каждого слова из текста. Эта информация дополняет поисковый индекс и дает возможность искать уже не по ключевым словам, а по синонимам, гипонимам и другим конструкциям, которые передают тот же смысл, но другими выражениями. Таким образом, поисковая система точнее ищет информацию в корпоративных источниках.



    Это очень удобно, если наш с вами ровесник сформулировал поисковый запрос своими словами, а найти хочет документы 40-летней давности, где, возможно, нужный ему предмет назывался другими терминами. Например, для запроса «дефект рамы» система подберет все возможные семантические выражения, связанные с этим термином. В результатах могут фигурировать «прогиб», «дыра», «излом» или «факт нарушения конструкторской технологической документации».

    Приведем еще один пример:

    image
    В результатах поиска по запросу «колебания тяги» будут также отображаться тексты, в которых содержится словосочетание «варьирование тяги».

    Технологии обработки естественного языка также помогают поисковой системе автоматически исправлять орфографические опечатки в тексте запроса. Например, система поймет, что в слове «подшибник» есть ошибки, и сразу будет искать документы, в которых упоминается «подшипник».

    Итоги первого запуска


    Чтобы оценить работу интеллектуального поисковика, специалисты Энергомаш выполнили примерно по 30 запросов по документам ИБД с помощью встроенной в ИБД поисковой системы и с помощью ABBYY Intelligent Search. Затем сравнили результаты поисковой выдачи: какие документы удалось найти обеим системам, какие фразы подсвечивались в сниппетах. В итоге, встроенный в ИБД поиск не выдал результатов по некоторым запросам, так как способен обнаружить только ключевые, а не близкие по значению слова. ABBYY Intelligent Search выдал релевантные по всем запросам документы.

    Что касается скорости, то при соблюдении требований к аппаратной платформе поисковый отклик не превышал доли секунды, как у популярных поисковиков. На самые сложные запросы уходило максимум до 3 секунд.

    После успешного пилотного проекта Энергомаш принял решение использовать решение ABBYY Intelligent Search в основе Корпоративной интеллектуальной информационно-поисковой системы.

    Поехали дальше


    Энергомаш подключил к поиску 7 корпоративных источников: систему электронного документооборота LanDocs, файловое хранилище, ИБД, систему поддержки жизненного цикла изделия TeamCenter, систему управления ресурсами Галактика ERP и AMM, информационную систему управления проектами. Для каждой информационной системы создан отдельный индекс. Это делает поисковую систему гибкой в администрировании и дает возможность заново строить индекс по каждой системе в отдельности, задавая новые условия. Доступ в Систему корпоративного поиска организован через внутренний портал предприятия на главной странице. Проект был реализован совместно с партнером – компанией ЛАНИТ – крупнейшей российской многопрофильной группой IT-компаний.

    Основные модули системы корпоративного поиска:

    • главная страница поисковых запросов и результатов поиска;
    • панель администратора (настройка индексов, фильтров, метаданных для каждой информационной системы);
    • статистика количества документов (отображает количество документов в индексе по каждой информационной системе за период).

    Система корпоративного поиска запущена в промышленную эксплуатацию с 1 июля 2020 года. На момент запуска было проиндексировано 500 тысяч документов. Ожидается, что к концу года при активном использовании системы и подключении новых информационных источников количество документов в индексе достигнет более 1 миллиона.

    Как обеспечить безопасность


    Как и у любого крупного бизнеса, у НПО Энергомаш есть документы, не предназначенные для доступа всех сотрудников. Ключевым требованием безопасности при запуске проекта было обеспечение доступа к документам в соответствии с ролевой моделью каждой информационной системы. Для этого было сделано:

    1). Локальное хранение информации


    Поисковое решение ABBYY развернуто на отдельном сервере во внутреннем контуре НПО Энергомаш. Там хранятся все поисковые индексы и их резервные копии на случай потерь и их настройки.

    2). Ролевая модель информационной системы


    Для безопасности организовано разграничение прав доступа пользователей к результатам поиска по каждой информационной системе. Все корпоративные системы, подключенные к ABBYY Intelligent Search, поддерживают доменную авторизацию. Пользователь входит в систему под доменной учетной записью, выполняет запрос, в результатах поиска видит документ с учетом настроек предпросмотра документа по каждой информационной системе и уровнем доступа, выполненными непосредственно в самой системе корпоративного поиска, и с учетом доступа к документу в самой информационной системе-источнике. Если у пользователя есть права на работу с документом в системе-источнике, то переход в оригинал документа можно осуществить непосредственно из системы корпоративного поиска, нажав на ссылку.

    Планы на будущее


    По замыслу Энергомаша, интеллектуальный поиск информации поможет упростить и ускорить бизнес-процессы на предприятии, например, опосредованно ускорить выход новых изделий на рынок, повысить их качество и снизить себестоимость. Идеи и проекты, которые сохранились в старых документах, можно будет использовать в современных разработках предприятия. Например, создавать на основе наработок что-то совсем новое и опережать конкурентов на мировом рынке.

    Упомянем и о планах на будущее:

    • В будущем к системе корпоративного поиска планируется подключать информационные источники других предприятий, входящих в структуру Энергомаша. В этом случае поисковый индекс может расшириться до 2 млн документов.
    • Одна из задач, связанная с развитием проекта, – это регулярное повышение качества поисковой выдачи. Для этого разрабатывается административная консоль, которая позволит с помощью веб-интерфейса анализировать статистику поиска. Например, отбирать запросы пользователей, которые не увенчались успехом: если мы видим, что по какому-то запросу пользователи не находят нужного документа, им можно помочь его найти. Например, за конкретным поисковым запросом можно закрепить необходимые ссылки на документы, которые могут быть никак не связаны с запросом тематически. Разумеется, анализ поисковой выдачи станет востребован в полной мере, когда к системе подключится большое количество пользователей и появится статистика использования поисковой системы.
    • Энергомаш также планирует исследовать возможность построения сложных аналитических отчетов с использованием функции поиска.



    А на ваш взгляд, какие еще задачи можно решить с помощью корпоративного поиска?
    ABBYY
    Решения для интеллектуальной обработки информации

    Комментарии 15

      +2
      Много воды, мало технических деталей. В чем преимущество перед sphinx или elastic (кроме использования нейросетей)? OCR можно подключить любой, за авторством ABBYY скорее всего один из лучших OCR в виду богатого опыта в этой сфере.
      1-2 млн документов — это совсем не много. Самые сложные запросы по 3 секунды — почему? — Оно же проиндексировано: просканировать индекс и отфильтровать сложные критерии по 2 млн документов — кажется это не так много времени должно занимать (+ тот же sphinx умеет параллельно искать по дельтам, у вас не так?).
        +2
        Tatikoma В чем преимущество перед sphinx или elastic (кроме использования нейросетей)?

        К ключевым преимуществам ABBYY Intelligent Search в сравнении с elastic можно отнести:


        1. Наличие распределенной подсистемы обхода источников;
        2. Собственный OCR признанного качества, позволяющий обрабатывать документы на кластере серверов;
        3. Наличие пользовательского интерфейса;
        4. Учет прав доступа, аутентификация, авторизация;
        5. Полноценная поддержка русского языка;
        6. Встроенные возможности семантического и кросс-языкового поиска (с учетом синонимов, гипонимов и общепринятых сокращений);
        7. Возможность применения кастомных онтологий для построения произвольных фильтров (например, по сторонам договора, персонам, организациям, стоимости и т.д.).

        1-2 млн документов — это совсем не много. Самые сложные запросы по 3 секунды — почему? — Оно же проиндексировано: просканировать индекс и отфильтровать сложные критерии по 2 млн документов — кажется это не так много времени должно занимать (+ тот же sphinx умеет параллельно искать по дельтам, у вас не так?).

        Действительно, в данном случае указанное значение – до 3 секунд – это проектное требование. Кроме размера индекса, на время поиска влияет число пользователей, которые одновременно выполняют поиск, и конфигурация аппаратного обеспечения.


        Время поиска по коллекции из 1 млн документов на сервере с 8 логическими ядрами, 32 Гб оперативной памяти составляет:
        • В режиме семантического поиска (в данном режиме, в том числе, выполняется семантический анализ поискового запроса) — 1 секунда с поддержкой возможности 8 запросов в секунду.
        • В режиме полнотекстового поиска – 0,2 секунды с поддержкой возможности 20 запросов в секунду.

        +2
        Проводилось ли какое-нибудь измерение качества, как понять что внедренная поисковая система дает хороший релевантный результат?
          +1
          В статье есть же про это:
          Чтобы оценить работу интеллектуального поисковика, специалисты Энергомаш выполнили примерно по 30 запросов по документам ИБД с помощью встроенной в ИБД поисковой системы и с помощью ABBYY Intelligent Search. Затем сравнили результаты поисковой выдачи: какие документы удалось найти обеим системам, какие фразы подсвечивались в сниппетах. В итоге, встроенный в ИБД поиск не выдал результатов по некоторым запросам, так как способен обнаружить только ключевые, а не близкие по значению слова. ABBYY Intelligent Search выдал релевантные по всем запросам документы.

          Хотя конечно 30 тестов — очень странный охват тестирования. Если я правильно понимаю, новая система выиграла ровно за счёт поддержки синонимов (которые есть и в сфинксе и в эластике).

          Мне кажется методику тестирования следовало строить на основании ТЗ: должно быть явно указано какие кейсы поиск обязан покрывать, было бы интересно узнать насколько хорошо справились с задачей.
            +2
            StanSemenoff Проводилось ли какое-нибудь измерение качества, как понять что внедренная поисковая система дает хороший релевантный результат?

            Тестируя сам продукт ABBYY Intelligent Search, мы выполняем регулярное тестирование качества поиска. Для измерения качества мы используем размеченные коллекции текстов и подготовленные поисковые запросы, исходя из предполагаемых пользовательских сценариев. Текущий объем тестирования включает более 500 запросов по 9 различным коллекциям на русском и английском языках.


            Для оценки работы мы используем такие метрики: точность (precision), полноту (recall) и F-меру (F-measure), поскольку они являются общепринятыми и показательными оценками эффективности поисковой системы.


            Для расчета метрик по всей коллекции документов мы подсчитываем общее число релевантных документов во всей коллекции и количество найденных документов по каждому запросу.


            Объем тестирования качества поиска в рамках конкретного проекта всегда определяется заказчиком.

            0
            1. Много лет назад я слышал нечто подобное про Finereader — особенно про постоянное улучшение качества. Вот только улучшения основной функции нет уже лет так 15… Преимущества нейросетей в последней версии как-то особенно незаметны…
            2. Оценки релевантности простого запроса «Отчёт» у главного конструктора и главного бухгалтера будут разными. Вы на что ориентируетесь? (и как вариант новой функции — подстройка релевантности в зависимости от должности пользователя)
            3. Ваша ОCR уже научилась более менее правильно расставлять блоки на сложных документах и распознавать и распознавать рукописный текст в старой КД? Не заметил. Скажите, где посмотреть?
            4. Закрытость форматов ваших программ (словарей в OCR), традиционное отсутствие поддержки экспорта в предыдущие версии — серьёзная причина очень настороженно подходить к сотрудничеству с Вами.
            5. Вторая причина — если память не изменяет — Abbyy — формально американская компания… При внедрении таких систем на важных предприятиях наверняка может произойти утечка данных… Какие гарантии её исключения? (особенно в свете свежей истории с Амазоном)
            6. Не заметил про скорость (пере)индексирования.
            7. Очень хотелось бы потом увидеть в финансовых цифрах реализацию целей Энергомаша с вменяемыми критериями оценки достижения целей в денежном выражении и сроками окупаемости, с учётом стоимости поддержки.
            8. PS. Интересует вопрос устранения багов /допиливания заброшенного ABBYY Aligner в частном порядке. Люди, знающие концепцию программы и заложенные в ней алгоритмы, еще не посваливали в мир иной?

            И последнее — о смысле: Слов — F — это показатель, а не мера; Текста — если объяснение не понятно даже ребёнку, значит сам автор не понимает то, о чём пишет.

            ИМХО — преимуществ видимо два: 1) иностранцы работать с русским так хорошо, как русские, никогда не будут. 2) курс рубля к евро и доллару…
              +1
              niccolo2019 Много лет назад я слышал нечто подобное про Finereader — особенно про постоянное улучшение качества. Вот только улучшения основной функции нет уже лет так 15… Преимущества нейросетей в последней версии как-то особенно незаметны…

              Команда ABBYY постоянно работает над улучшением качества работы различных функций. Например, о применении нейросетей в ABBYY FineReader и об их преимуществах мы подробно рассказывали в этой статье. Надо отметить, что преимущества нейросетей могут быть малозаметны конечному пользователю при работе с отдельными типами документов или в каких-то специфических случаях.


              Оценки релевантности простого запроса «Отчёт» у главного конструктора и главного бухгалтера будут разными. Вы на что ориентируетесь? (и как вариант новой функции — подстройка релевантности в зависимости от должности пользователя)

              Так как подобные простые запросы возвращают множество релевантных результатов, их можно уточнить с помощью доступных фильтров: например, по источнику, по типу документа, по дате и т.п. Учет прав доступа пользователей, который реализован в нашем продукте, уменьшает число доступных для изучения результатов поиска, оставляя только те документы, которые имеют отношение к профессиональной деятельности пользователя. Использование бухгалтером и конструктором в своих запросах уточняющих слов – финансовый отчет, отчет об испытаниях – также позволяет определить объект поиска, так как ABBYY IntelligentSearch, в том числе, выполняет семантический анализ запроса.


              Ваша ОCR уже научилась более менее правильно расставлять блоки на сложных документах и распознавать и распознавать рукописный текст в старой КД? Не заметил. Скажите, где посмотреть?

              Про блоки мы рассказывали на Хабре. Наши технологии ОСR развиваются, в настоящий момент доступно распознавание документов на 192 языках на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также языках на основе иероглифического письма. В массовых сценариях задачи распознавания рукописного текста встречаются редко. Мы занимаемся развитием наших технологий и в этом направлении, но пока точных сроков назвать не можем.


              Закрытость форматов ваших программ (словарей в OCR), традиционное отсутствие поддержки экспорта в предыдущие версии — серьёзная причина очень настороженно подходить к сотрудничеству с Вами.

              Многие наши продукты поддерживают возможности кастомизации на стороне пользователей, в том числе, в части использования пользовательских словарей. Что касается вопроса открытости, недавно мы опубликовали на GitHub свою библиотеку машинного обучения с открытым кодом. Подробнее недавно рассказывали о ней на Хабре.


              Совместимость с предыдущими версиями, действительно, сложный вопрос с точки зрения развития продуктов. В рамках сотрудничества с клиентами и партнерами мы обсуждаем различные вопросы развития наших продуктов и реализации новых возможностей.


              Вторая причина — если память не изменяет — Abbyy — формально американская компания… При внедрении таких систем на важных предприятиях наверняка может произойти утечка данных… Какие гарантии её исключения?

              ABBYY Intelligent Search находится в едином реестре российских программ. Одно из ключевых преимуществ ABBYY IntelligentSearch – наличие встроенных инструментов, которые не требуют дополнительных настроек с доступом наших специалистов к контенту заказчика. OCR, учет прав доступа, семантический анализ – все это доступно сразу после установки продукта, и не требует изучения документов заказчика. И, как мы уже упоминали в посте, поисковое решение ABBYY развернуто на отдельном сервере во внутреннем контуре НПО Энергомаш.


              Не заметил про скорость (пере)индексирования.

              На время создания индекса влияют следующие факторы:
              • Особенности исходных данных – объем исходных данных, языки документов, доля документов, требующих распознавание.
              • Тип поиска по индексу – полнотекстовый или семантический.
              • Конфигурация аппаратного обеспечения.


              Так как сочетание этих факторов уникально, мы добавили в ABBYY Intelligent Search встроенные возможности для прогнозирования времени индексации. Самая ресурсоемкая операция – построение поискового индекса по всей коллекции документов или полная переиндексация коллекции. Поисковый индекс по коллекции из 1 млн 5-страничных документов на русском языке, в которой доля документов, требующих распознавание, составляет 30%, строится в течение 1,5 дней на восьми 8-ядерных серверах с 16 Гб оперативной памяти. Обогащение полученного индекса семантической информацией выполняется в фоновом режим в течение 14 дней. Для обновления поискового индекса требуются существенно меньшие ресурсы.

                0
                Команда ABBYY постоянно работает над улучшением качества работы различных функций. Например, о применении нейросетей в ABBYY FineReader и об их преимуществах мы подробно рассказывали в этой статье. Надо отметить, что преимущества нейросетей могут быть малозаметны конечному пользователю при работе с отдельными типами документов или в каких-то специфических случаях.

                Правдивее было-бы написать — преимущества НИ будут заметны только отдельным пользователям, работающим со специфичными документами. Оставьте эту постоянную ересь про качество в профессиональном сообществе. Я слышу её постоянно, а потом как ниже читаю, что какая-то функция сломалась, не работает и её никто не собирается исправлять (вот кстати пример file.sampo.ru/s66qjn). Кстати — может дадите ссылку на набор документов, на котором FR демонстрирует стабильное повышение качества распознавания уже 1Х версий? О каких настройках с машинкой вы говорите, когда у Вас вообще одна настройка? Или предлОжите создать отдельные наборы глифов для всех машинок, которые тогда использовались для печати документов? Так даже эта работа была организована у Вас через одно место — подтверждать КАЖДЫЙ глиф(!!!). Может уже что-то изменилось, но что мешало создать библиотеку глифов по распознанному документу, которые бы пользователь мог просто сгруппировать по буквам.
                Так как подобные простые запросы возвращают множество релевантных результатов...

                2. Интересно, насколько дешевле было бы обучение пользователей хитростям построения запросов?
                Про блоки мы рассказывали на Хабре. Наши технологии ОСR развиваются, в настоящий момент доступно распознавание документов на 192 языках на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также языках на основе иероглифического письма

                Зачем рассказывать — если можно взять любую версию — подсунуть ей простой двухколоночный текст и на 200-400 страницах в зависимости от оформления найти 5-10-20 страниц с неверно расставленными или пронумерованными блоками… Подсунуть неразлинованную таблицу с многострочным текстом в ячейках и увидеть, как ФР разобъёт ячейки строками таблицы…
                Проблема объединения слов, концы которых находятся в разных сегментах до сих пор не решена… Про то, что эти блоки могут быть разбиты номерами страниц/колонтитулами, или вклейками особо талантливых DTP-стов — вообще молчу… Полагаю — если в Энергомаше для поиска будут специально выбирать строки, части которых находятся в разных блоках распознавания, вам могут сделать очень больно…
                Про распознавание разреженных чертежей и спецификаций — лучше промолчу. Но тут я не знаю пути решения кроме рук — разве может по непохожести картинок на буквы на уменьшенной копии изображения сразу отсекать графику и искать текст дальше…
                Вы распознаёте простые глифы — по языкам их разносит простой просмотрщик набора глифов на алфавитах указанных пользователем языков по словарям — не самая передовая технология (помню баги сей простой системы на похожих словах — campana (it) — сатрапа (ru), car (EN) — саг (RU) и т.п. Алгоритм отчасти улучшен — но не идеален. НЕ ПРОЩЕ ЛИ СПРОСИТЬ У ПОЛЬЗОВАТЕЛЯ ПО ПОВОДУ ТАКИХ СЛОВ, если работа не на чистом автомате или выводить где-то в интерфейсе список предупреждений?..
                Во всё остальном — КРОМЕ ДОБАВЛЕНИЯ ЯЗЫКОВ — НЕ ВИЖУ НИКАКИХ РЕЗУЛЬТАТОВ УКАЗАННОЙ РАБОТЫ.
                В массовых сценариях задачи распознавания рукописного текста встречаются редко.

                Это даже не смешно… Тут вон недавно про паспорта выписанные вручную говорили… О том, какое количество разных бланков, заполненных вручную, регулярно распознаётся, я вообще молчу…
                Многие наши продукты поддерживают возможности кастомизации на стороне пользователей, в том числе, в части использования пользовательских словарей. Что касается вопроса открытости, недавно мы опубликовали на GitHub свою библиотеку машинного обучения с открытым кодом. Подробнее недавно рассказывали о ней на Хабре.

                Принципы работы с пользовательскими словарями реализованы у вас отвратительно — я бы сравнил их с аналогией копания небольшого бассейна на даче игрушечным детским совочком. До сих пор не понимаю отсутствия функции — исправления неверно распознанного несловарного слова по всему документу/пакету FR (точно так же как и извлечения из пакета списка несловарных слов для проверки и обратного исправления по списку — если нужно быстро исправить текст)?
                Касательно библиотеки — вообще перестаю понимать Абби — в потребительских продуктах — развитие в сторону для одноклеточных, а тут вдруг выкладываете библиотеку для пользования которой требуются хорошие навыки программирования и понимания принципов работы библиотеки (дай Бог, чтобы они были подробно задокументированы с примерами)…
                Совместимость с предыдущими версиями, действительно, сложный вопрос с точки зрения развития продуктов. В рамках сотрудничества с клиентами и партнерами мы обсуждаем различные вопросы развития наших продуктов и реализации новых возможностей.

                Автокад, судя по размеру, продукт более сложный, но тем не менее позволяющий сохранять в последней версии чертежи в форматах первых версий. Что Вам мешает — уже лет 10 не могу услышать конкретного ответа.

                все это доступно сразу после установки продукта, и не требует изучения документов заказчика.

                Я так понимаю — то, что работает без подстройки под реальные условия — обычно работает плохо или средне, крайне редко хорошо и никогда отлично. Это статья о том, что кто-то купил и поставил вашу программу/программно-аппаратный комплекс, или что тогда там делали ваши специалисты?

                На время создания индекса влияют следующие факторы:

                Каким образом контролируются операции? Учитывая то, что для нормального распознавания чертежей, сложноформатированного текста движку ФР до сих пор надо ВРУЧНУЮ РАЗМЕЧАТЬ ДОКУМЕНТЫ ИЛИ ИСПРАВЛЯТЬ БЛОКИ (тетрис-блоки на многоколоночном тексте, неверная нумерация блоков, захват колонтитулов и номеров страницы в блоки текста, проблема с разбивкой на ячейки таблиц — и это проблемы критичные для полноты поиска), ФР до сих пор отвратительно распознает в тех литературе курсивные обозначения на латинице и греческом (и НЕЛЬЗЯ НИГДЕ НАСТРОИТЬ, ЧТОБЫ КУРСИВ В ПЕРВУЮ ОЧЕРЕДЬ РАСПОЗНАВАЛСЯ ЛАТИНИЦЕЙ ИЛИ ГРЕЧЕСКИМ) результат может очень неприятно удивить заказчика.
                И это я не трогаю пока дефекты сканирования…
              +1
              Начните с ценника пожалуйста.
                +1

                2PAE Стоимость поискового решения зависит от ряда параметров: количества индексируемых документов, числа подключаемых источников, используемых онтологий и т.д. Оценка подобных решений участниками рынка есть в статье газеты "Коммерсант".

                +1
                Пару лет назад натравливал Finereader на старые документы, напечатанные на печатной машинке. Очень плохо распознавал.

                А в архиве Энергомаша почти всё должно напечатано именно на машинках.

                Причем я помню, что в 2000х finereader (вроде версии 6) отлично распознавал печатную машинку.
                  +1

                  Javian Доля подобных документов за последние 20 лет существенно снизилась. В новых версиях наших продуктов для обработки таких документов нужно использовать дополнительные настройки.


                  Рекомендуем обратиться с вопросом в техподдержку с примерами ваших документов – вам порекомендуют настройки, которые предпочтительно выставить для получения результата распознавания наилучшего качества в случае документов, созданных на печатной машинке. Для начала можно выставить соответствующий тип документа в настройках — https://help.abbyy.com/ru-ru/finereader/15/user_guide/sourceimage#printtype»

                    0
                    Опция «Пишущая машинка» никак не помогла — это меня удивило и запомнилось.
                  0

                  Кто пишет коннекторы к ИС? Вы сами?


                  А если коннектор понадобится изменить?

                    +1

                    ivanych Коннекторы пишутся на языке Java. Для реализации коннектора требуется Java SE Development Kit 8 (JDK 8). В состав дистрибутива ABBYY IntelligentSearch включены коннекторы к файловой системе, порталу zakupki.gov.ru и Microsoft SharePoint вместе с исходным кодом. В документации к продукту подробно описывается устройство этих коннекторов.


                    Если для индексации документов из других источников вам потребуется реализовать свой коннектор или изменить существующий, это можно сделать на основе примеров коннекторов из дистрибутива.

                  Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                  Самое читаемое