Комментарии / Профиль ContentAI

@ContentAI_Team

Пользователь

1,4

Рейтинг

108

Подписчики

ПрофильСтатьи155ПостыНовости5Комментарии344

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

ContentAI_Team 24 июл 2023 в 15:22

К сожалению, пока технология работает только внутри нашего продукта ContentCapture, который предназначен для потоковой обработки документов в масштабах организации. Распознавать произвольные рукописные тексты наша нейросеть умеет, но пока в массовые продукты такая фича не вошла.

Добрый вечер, здравствуйте

ContentAI_Team 1 фев 2023 в 10:26

Спасибо, мы очень старались :)

Пост действительно без деталей, т. к. он вводный. Спасибо, что интересуетесь нашей работой! Записали ваши вопросы в бэклог.

Про Lingvo у нас уже выходил подробный материал. Его можно почитать тут: https://www.it-world.ru/tech/practice/187497.html

Добрый вечер, здравствуйте

ContentAI_Team 1 фев 2023 в 10:25

Такой подход к корпоративному блогу действительно считается классическим стартом на Хабре. Однако наша ситуация (как и у многих коллег) нестандартная, и нам было крайне важно объяснить сообществу, кто мы такие и почему наш пост размещен в блоге другой компании (и вообще куда он делся).

Также в посте мы не просто объявили о старте блога, но и рассказали, чем занимались весь прошлый год, что сейчас представляет из себя компания и какой пул вопросов освещает. Технические подробности обязательно будут :)

Приплюснутый, плюсы и «кресты»: за что мы любим и ненавидим C++

ContentAI_Team 28 янв 2022 в 11:47

поправили, спасибо за внимательность!

Гость из прошлого

ContentAI_Team 26 янв 2022 в 12:26

К сожалению, с этим вопросом помочь не сможем, т.к. не публикуем декомпиляторы DSL :(

Можем посоветовать заглянуть на один из наших прошлых сайтов "Ассоциация лексикографов Lingvo". Для этого в архиве интернета https://web.archive.org открыть сайт http://www.lingvoda.ru где-то за 2017 год.

Гость из прошлого

ContentAI_Team 25 янв 2022 в 13:27

К сожалению, мы не сможем поделиться этим словарем, но можем подарить вам промокод на английский толковый словарь, в статьях которого указывается этимология слова. Все подробности -- в директе.

Гость из прошлого

ContentAI_Team 25 янв 2022 в 13:21

Спасибо, нам очень приятно, особенно про нашу техподдержку :)

Не скроем, после вашего поста тоже словили эту нотку ламповой ностальгии :)

К сожалению, тот этимологический словарь предложить не сможем, но можем подарить промокод на английский толковый словарь, в статьях которого указывается этимология слова. Все подробности -- в директе.

2021 год в разработке технологий ABBYY – и не только. Подводим итоги года

ContentAI_Team 22 дек 2021 в 10:34

Свяжитесь, пожалуйста, с нами через техподдержку. Мы зададим дополнительные вопросы, чтобы уточнить всю необходимую информацию по возникшим проблемам.

2021 год в разработке технологий ABBYY – и не только. Подводим итоги года

ContentAI_Team 21 дек 2021 в 09:44

Большое спасибо за информацию! Уже передали ваши замечания команде разработчиков. Пришлите, пожалуйста, примеры документов, в которых встречаются указанные ошибки, оформив запрос в службу технической поддержки.

2021 год в разработке технологий ABBYY – и не только. Подводим итоги года

ContentAI_Team 20 дек 2021 в 10:29

Да, конечно, мы регулярно обновляем все наши продукты, в том числе и FineReader PDF.

За всеми апдейтами можно следить тут. Версию FineReader для Mac также обновили.

Если говорить про итоги 2021, то для FineReader PDF мы подвели их в этой статье. Вкратце: появился FineReader PDF для мобильных устройств (теперь можно отправлять сканы из мобильного FineReader в продукт на ПК), улучшили интеграцию с Microsoft Office, а редактировать документы теперь можно с помощью списка ключевых слов.

Что такое ABBYY Vantage и как мы придумали платформу для тех, кто не умеет кодить

ContentAI_Team 13 окт 2021 в 13:00

По метрике - можно завершить 50 wf в секунду, мы считаем по числу завершенных. Производительность без доработок была примерно в два раза меньше.

Мы планируем более подробно рассказать о применении Workflow Core в Vantage и доработках в одном из следующих постов.

А ну-ка, сгруппировались, или как отделить фото котиков от счетов ЖКХ

ContentAI_Team 22 янв 2021 в 13:26

ZayatzTV Спасибо за информацию. Мы следим за подобными вещами, такого быть не должно. Обязательно перепроверим у себя.

Еще уточните, пожалуйста, у вас iOS- или Android-версия приложения?

А ну-ка, сгруппировались, или как отделить фото котиков от счетов ЖКХ

ContentAI_Team 22 янв 2021 в 09:41

LAG_LAGbI4 очень интересная программа. Фото монитора компьютера поместила в группу A4

Да, ошибки бывают. Но надеемся, что большую часть "мусора" FineScanner все же смог отфильтровать. Если вы готовы примерно оценить количество "котиков" и "хлама", которое приложение пропустило, то будем благодарны!

LAG_LAGbI4 А так я уже вижу сценарий применения — удалять фото teamviewer, которые мне присылают.

Спасибо за идею! Мы фокусировались на поиске полезных фотографий документов, а про удаление и "чистку галереи" не думали.

А ну-ка, сгруппировались, или как отделить фото котиков от счетов ЖКХ

ContentAI_Team 22 янв 2021 в 08:54

ZayatzTV Скорее всего, отправляются данные об использовании приложения (какие экраны посещали, какими функциями пользовались). Картинки никуда не отсылаются. Если вы хотите запретить отправку аналитики об использовании приложения, то в меню Settings есть галочки "Show ABBYY News" (различные новости, предложения о скидках и т.д.) и "Improve ABBYY services" (как раз данные аналитики).

Новые пользователи при установке приложения дают согласие на передачу подобных данных (мы молча ничего не включаем). Пользователь соглашается с нашими eula и privacy policy, а еще две галочки отвечают как раз за новости/рекламу и данные об использовании приложения. На рекламу и аналитику можно не соглашаться (эти галочки не обязательные).

А ну-ка, сгруппировались, или как отделить фото котиков от счетов ЖКХ

ContentAI_Team 21 янв 2021 в 13:17

ClearAirTurbulence все происходит локально, на устройстве.

О молодой, но мудрой ФПМИ и её последователе – ABBYY

ContentAI_Team 28 сен 2020 в 10:42

ivanovdev конечно, мы перечислили не всех выпускников. Для всех не хватит и целого поста ;)
Например, по ссылке можно найти выпускников ФУПМ и почитать о них.

Бизнес-процессы на прокачку: как Process Intelligence помогает компаниям определить, что, где и когда автоматизировать

ContentAI_Team 24 авг 2020 в 10:04

Nashev Спасибо вам за внимательность. Поправили.

Как сделать поиск по документам, накопленным почти за 100 лет. Опыт НПО Энергомаш и ABBYY

ContentAI_Team 31 июл 2020 в 12:41

ivanych Коннекторы пишутся на языке Java. Для реализации коннектора требуется Java SE Development Kit 8 (JDK 8). В состав дистрибутива ABBYY IntelligentSearch включены коннекторы к файловой системе, порталу zakupki.gov.ru и Microsoft SharePoint вместе с исходным кодом. В документации к продукту подробно описывается устройство этих коннекторов.

Если для индексации документов из других источников вам потребуется реализовать свой коннектор или изменить существующий, это можно сделать на основе примеров коннекторов из дистрибутива.

Как сделать поиск по документам, накопленным почти за 100 лет. Опыт НПО Энергомаш и ABBYY

ContentAI_Team 30 июл 2020 в 13:07

niccolo2019 Много лет назад я слышал нечто подобное про Finereader — особенно про постоянное улучшение качества. Вот только улучшения основной функции нет уже лет так 15… Преимущества нейросетей в последней версии как-то особенно незаметны…

Команда ABBYY постоянно работает над улучшением качества работы различных функций. Например, о применении нейросетей в ABBYY FineReader и об их преимуществах мы подробно рассказывали в этой статье. Надо отметить, что преимущества нейросетей могут быть малозаметны конечному пользователю при работе с отдельными типами документов или в каких-то специфических случаях.

Оценки релевантности простого запроса «Отчёт» у главного конструктора и главного бухгалтера будут разными. Вы на что ориентируетесь? (и как вариант новой функции — подстройка релевантности в зависимости от должности пользователя)

Так как подобные простые запросы возвращают множество релевантных результатов, их можно уточнить с помощью доступных фильтров: например, по источнику, по типу документа, по дате и т.п. Учет прав доступа пользователей, который реализован в нашем продукте, уменьшает число доступных для изучения результатов поиска, оставляя только те документы, которые имеют отношение к профессиональной деятельности пользователя. Использование бухгалтером и конструктором в своих запросах уточняющих слов – финансовый отчет, отчет об испытаниях – также позволяет определить объект поиска, так как ABBYY IntelligentSearch, в том числе, выполняет семантический анализ запроса.

Ваша ОCR уже научилась более менее правильно расставлять блоки на сложных документах и распознавать и распознавать рукописный текст в старой КД? Не заметил. Скажите, где посмотреть?

Про блоки мы рассказывали на Хабре. Наши технологии ОСR развиваются, в настоящий момент доступно распознавание документов на 192 языках на основе кириллицы, латиницы, греческого, армянского и арабского алфавитов, а также языках на основе иероглифического письма. В массовых сценариях задачи распознавания рукописного текста встречаются редко. Мы занимаемся развитием наших технологий и в этом направлении, но пока точных сроков назвать не можем.

Закрытость форматов ваших программ (словарей в OCR), традиционное отсутствие поддержки экспорта в предыдущие версии — серьёзная причина очень настороженно подходить к сотрудничеству с Вами.

Многие наши продукты поддерживают возможности кастомизации на стороне пользователей, в том числе, в части использования пользовательских словарей. Что касается вопроса открытости, недавно мы опубликовали на GitHub свою библиотеку машинного обучения с открытым кодом. Подробнее недавно рассказывали о ней на Хабре.

Совместимость с предыдущими версиями, действительно, сложный вопрос с точки зрения развития продуктов. В рамках сотрудничества с клиентами и партнерами мы обсуждаем различные вопросы развития наших продуктов и реализации новых возможностей.

Вторая причина — если память не изменяет — Abbyy — формально американская компания… При внедрении таких систем на важных предприятиях наверняка может произойти утечка данных… Какие гарантии её исключения?

ABBYY Intelligent Search находится в едином реестре российских программ. Одно из ключевых преимуществ ABBYY IntelligentSearch – наличие встроенных инструментов, которые не требуют дополнительных настроек с доступом наших специалистов к контенту заказчика. OCR, учет прав доступа, семантический анализ – все это доступно сразу после установки продукта, и не требует изучения документов заказчика. И, как мы уже упоминали в посте, поисковое решение ABBYY развернуто на отдельном сервере во внутреннем контуре НПО Энергомаш.

Не заметил про скорость (пере)индексирования.

На время создания индекса влияют следующие факторы:
• Особенности исходных данных – объем исходных данных, языки документов, доля документов, требующих распознавание.
• Тип поиска по индексу – полнотекстовый или семантический.
• Конфигурация аппаратного обеспечения.

Так как сочетание этих факторов уникально, мы добавили в ABBYY Intelligent Search встроенные возможности для прогнозирования времени индексации. Самая ресурсоемкая операция – построение поискового индекса по всей коллекции документов или полная переиндексация коллекции. Поисковый индекс по коллекции из 1 млн 5-страничных документов на русском языке, в которой доля документов, требующих распознавание, составляет 30%, строится в течение 1,5 дней на восьми 8-ядерных серверах с 16 Гб оперативной памяти. Обогащение полученного индекса семантической информацией выполняется в фоновом режим в течение 14 дней. Для обновления поискового индекса требуются существенно меньшие ресурсы.

Как сделать поиск по документам, накопленным почти за 100 лет. Опыт НПО Энергомаш и ABBYY

ContentAI_Team 30 июл 2020 в 12:59

Javian Доля подобных документов за последние 20 лет существенно снизилась. В новых версиях наших продуктов для обработки таких документов нужно использовать дополнительные настройки.

Рекомендуем обратиться с вопросом в техподдержку с примерами ваших документов – вам порекомендуют настройки, которые предпочтительно выставить для получения результата распознавания наилучшего качества в случае документов, созданных на печатной машинке. Для начала можно выставить соответствующий тип документа в настройках — https://help.abbyy.com/ru-ru/finereader/15/user_guide/sourceimage#printtype»

3 4 ...

17 18