Как стать автором
Обновить
73.25
Content AI
Решения для интеллектуальной обработки информации
Сначала показывать

Как мы делали технологию, которая умеет верифицировать подписи в документах

Время на прочтение4 мин
Количество просмотров745

Верификация подписи — новая полезная фича для работы с документами, которая войдет в наш кросс-платформенный продукт ContentCapture для интеллектуаль­ной обработки информации. 

Задача технологии — помогать пользователям проверять подлинность подписи на документах в автоматическом режиме, тем самым упрощая ежедневные бизнес-процессы и обеспечивая более высокий уровень безопасности.

Ниже рассказываем, как мы создавали эту технологию.

Читать далее

Автоматизация без кода: как FastML справляется с документами за несколько кликов

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров895

Привет, Хабр!

В этом посте хотим рассказать, как технология FastML (о самой разработке уже рассказывали здесь) начала работать на российских документах разного типа в контуре нашего продукта ContentCapture и что из этого вышло.

Вкратце введем в курс дела. Многие компании сталкиваются с необходимостью обрабатывать большое количество однотипных (не одинаковых) документов, извлекать из них нужную информацию и экспортировать. Естественно, это долго, мучительно, а иногда еще и с ошибками. Для автоматизации такой рутины и используется ContentCapture, а точнее, встроенные в него две технологии — гибкие описания и теперь еще и FastML. 

Гибкие описания — это универсальный подход к извлечению данных, особенно если речь идет о сложных документах. Однако для их создания нужно время и навыки работы со специальным инструментом — Content AI Layout Studio. Для тех, у кого таких скиллов нет, и был создан FastML, с которым сможет справиться любой пользователь, независимо от техподготовки. С помощью FastML модели для новых типов документов создаются в несколько кликов на основе нескольких примеров, что значительно сокращает время их внедрения в контур компании и бизнес-процессы. 

Под катом рассказываем и показываем, какие теперь документы могут автоматически обрабатывать пользователи ContentCapture с помощью встроенного в него FastML, а также делимся данными тестирования и объясняем, в чем могут возникнуть сложности.

Читать далее

ARR: что это такое и чем он полезен бизнесу

Время на прочтение10 мин
Количество просмотров4.9K

Работая в условиях жесткой конкуренции и турбулентной экономики, бизнесу постоянно необходимо искать новые методы и подходы для увеличения дохода. Для тех, кто работает с клиентами по подписочной модели, одним из таких инструментов является ARR (Annual Recurring Revenue), который помогает рассчитать ежегодную повторяемую выручку,  оценить долгосрочный потенциал сделки, эффективность работы сейлз-команды и маркетинговых кампаний.

Для полноты картины бизнесу также необходимы расчеты метрик юнит-экономики, которые являются взаимодополняющими инструментами ARR  — CAC (Customer Acquisition Cost), Retention cost, Gross Profit, LTV (Lifetime Value), Payback period. Все это позволяет достоверно оценить эффективность каждого отдельного продукта или услуги компании.

ARR и юнит-экономика помогают определить, какие продукты или услуги приносят максимальную прибыль, что можно улучшить для достижения еще больших результатов, а также в целом принимать обоснованные решения об инвестициях и развитии компании.

Поскольку у нас в Content AI о сложных процессах могут рассказывать не только разработчики, под катом своими знаниями делятся наши финансисты — что это за метрики, как их рассчитать и где применить.

Читать далее

Шутим в комментариях к коду

Время на прочтение2 мин
Количество просмотров4.4K

Написанием кода занимается далеко не один разработчик, это совместная работа нескольких команд, а порой и целых подразделений (и это еще не упоминая о смене кадров). Код может жить в компании годами и переиспользоваться в новых продуктах.

По этим причинам важно, чтобы любой кусок кода, который может вызвать вопросы у стороннего читателя, был объяснен его автором. Для этого разработчики оставляют в коде комментарии. Как правило, они абсолютно безвредны для кода, почти незаметны и никак не влияют на компиляцию. 

При этом комментарии помогают не только сохранить знания внутри компании, упростить понимание кода и намного быстрее производить дебаггинг, но и порой просто повеселить его читателя.

Под катом собрали и пояснили 13 примеров полезных и забавных комментариев, которые оставили наши коллеги в исходниках продуктов Content AI.

Читать далее

Как мы делали подсказки в продукте для корпоративного поиска на базе Elasticsearch

Время на прочтение3 мин
Количество просмотров3.8K

Казалось бы поисковые подсказки (автокомплит) простая и понятная вещь, реализованная во множестве проектов и работающая из коробки. 

Как бы не так. 

Под катом расскажем про существующие подходы, их ограничения, и как мы вышли из положения для реализации подсказок в продукте для корпоративного поиска Content AI Intelligent Search

Читать далее

Лицензирование софта: типы, нюансы, сложности

Время на прочтение10 мин
Количество просмотров6.6K

У каждого разработчика хотя бы раз возникала мечта создать крутой продукт, который обязательно захотят купить (а не спиратить) все пользователи, а сам он станет богаче Илона Маска и будет запускать свои Falcon, но конечно же намного удачнее. Но чаще всего эта мечта спустя время разбивается о суровую реальность: софт почти никому не нужен из-за переполненного рынка, а если и нужен, то его постоянно пиратят, безжалостно и беспощадно. 

Если с первой проблемой помогут справиться талант и удача, то разобраться со второй — попробуем помочь мы. Ниже рассказываем о нюансах лицензирования, с которыми сталкивается разработка. 

Читать далее

История FineReader: так создавалась легенда (часть II)

Время на прочтение10 мин
Количество просмотров4.5K

Мы продолжаем изучать летопись функционального развития легендарного редактора FineReader PDF. Первую часть 30-летней истории можно прочитать здесь. А сейчас перенесемся в середину нулевых. 

Читать далее

История FineReader: так создавалась легенда (часть I)

Время на прочтение9 мин
Количество просмотров8K

Не секрет, что многофункциональный редактор ContentReader PDF является технологическим наследником популярного решения компании ABBYY – FineReader PDF. После модификации исходного продукта его новую историю на российском рынке пишет Content AI. Между тем, легендарному редактору PDF в этом году исполнилось 30 лет. И это достойный повод, чтобы вспомнить, как все начиналось и как развивался продукт, ставший незаменимым инструментом для всех, кто работает с документами. 

Для полного погружения мы смогли найти ноутбук IBM ThinkPad T61 c Windows XP, установили на него все версии FineReader с 1 по 13 и сделали аутентичные скриншоты. Пристегнитесь, запускаем машину времени через три…два…один. 

Читать далее

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

Время на прочтение6 мин
Количество просмотров45K

Технологии распознавания печатного текста появились около 30 лет назад, существенно облегчив жизнь и ускорив многие бизнес-процессы. В то же время распознавание курсива оказалось куда более сложной задачей, которую удалось решить лишь благодаря развитию нейросетей.

В этом посте рассказываем о собственной технологии Content AI — распознавании русского рукописного текста, которая уже вошла в новую версию нашего продукта ContentCapture — универсальную платформу для интеллектуальной обработки информации.

Читать далее

10 болей Windows-разработчика, портирующего на Linux

Время на прочтение9 мин
Количество просмотров7.6K

За последний год многим разработчикам пришлось осваивать работу с Linux, погружаться в тему кросс-платформенности и портирования существующих продуктов в новую инфраструктуру. Несмотря на то что часть наших продуктов написана под Linux, мы не стали исключением, и нашему RnD в прошлом году тоже пришлось значительно перестраивать свою работу.

Споры о том, под какой ОС проще кодить – бесконечны, примерно как дискуссии об Android vs iOS или PlayStation vs Xbox. Поэтому начинать мы ее не будем, хотя очень хочется.

В посте рассказываем исключительно об опыте нашей компании: на какие грабли наступили и в каких местах обожглись, работая над портированием продуктов с Windows на Linux. И все это собрали в 10 основных пунктов-болей наших разработчиков под катом. 

Читать далее

Очень странные дела: разработчики обсуждают итоги года и осторожно заглядывают в будущее

Время на прочтение7 мин
Количество просмотров3K

Вот уже почти год, как российский ИТ-рынок вошел в затянувшуюся зону турбулентности. Иногда казалось, что над сценариями развития ситуации работали профессиональные фантасты, прогнозирующие варианты по всей длине шкалы — от полного прекращения поставок «железа» и схлопывания рынка из-за отсутствия доступа к инструментам разработки до нового ИТ-ренессанса в связи с уходом международных компаний, прежде занимавших ведущие позиции.

Эксперты Content AI, наблюдавшие за ситуацией внутри воронки смерча, поговорили «за ИТ» уже из дня сегодняшнего: с чем в итоге подошел отечественный рынок к 2023 году, какие тренды наметились в области разработки ПО и в какую сторону дальше будет двигаться российская сфера ИТ. 

Как говорится, запомните этот твит. 

Читать далее

Добрый вечер, здравствуйте

Время на прочтение2 мин
Количество просмотров4.8K

Если вы программист, тестировщик или другой обитатель мира IT, то, возможно, ранее вы следили за деятельностью компании ABBYY, ведущего мирового разработчика решений в области интеллектуальной обработки информации и анализа бизнес-процессов. Весной 2022 года ABBYY приняла решение уйти из России, а мы — команда разработки и менеджмента бывшего российского офиса ABBYY — создали новую компанию Content AI. Мы посчитали важным сохранить многолетний архив этого блога, ведь в нем отражается путь не только одной компании, но и всей сферы AI российского IT.

И мы начинаем новую главу этой истории. 

Читать далее

Приплюснутый, плюсы и «кресты»: за что мы любим и ненавидим C++

Время на прочтение8 мин
Количество просмотров21K

В конце прошлого года 71 год исполнился Бьерну Страуструпу – создателю C++, одного из самых сложных и интересных языков программирования. Мы в ABBYY любим C++, ведь он лежит в основе и наших технологий компьютерного зрения, и используется в алгоритмах обработки естественного языка, да и опенсорсная библиотека ABBYY NeoML опирается на «плюсы».

По случаю дня рождения Бьерна Страуструпа мы поговорили с Дмитрием, руководителем группы разработчиков, которые создают в компании технологии для интеллектуального анализа бизнес-процессов. Мы уже немного рассказывали об этом решении в одном из постов. Дима работает на C++ уже 15 лет, начинал еще до того, как появился так называемый modern C++ (C++11/14 и выше). Он рассказал о том, как впервые столкнулся с C++, какие возможности есть у этого языка и что советует тем, кто только начинает погружаться в его основы или хочет прокачаться в теме.

Читать далее

ABBYY FastML: новый подход к машинному обучению на стороне клиента для обработки большого потока документов

Время на прочтение10 мин
Количество просмотров7.8K

Привет, Хабр!

Нашим заказчикам часто приходится работать с большим потоком документов, многие из которых очень похожи друг на друга, но не одинаковы. Поскольку обрабатывать такое количество информации с каждым годом становилось все сложнее, мы придумали технологическое решение, которое способно автоматизировать эту задачу с высокой точностью.

Например, представим, что на обработку поступают десятки тысяч инвойсов от сотен разных контрагентов. Раньше, чтобы автоматизировать их классификацию и извлечение информации, требовалось наработать базу поставщиков, а для каждого из типов документов — создать вручную гибкое описание (задать информацию о линейных отношениях полей относительно друг друга). Внедрение такого решения у клиента длилось от 3 до 6 месяцев.

Чтобы упростить и ускорить эту задачу и в целом облегчить работу нашим заказчикам, мы создали новый механизм кластеризации и разработали технологию FastML, а затем объединили их работу.

В нашем решении кластеризация избавляет от необходимости вести базу данных вендоров, а FastML способен работать, основываясь на пользовательском обучении: технология делит поток документов на определенные группы, на каждой из которых учит свою модель поиска. В результате новое решение лучше адаптируется к внешним отличиям документов и работает в несколько раз быстрее.

Но обо всем по порядку.

Читать далее

Ближайшие события

Как мы проводим соревнования по NLP в рамках Dialogue Evaluation

Время на прочтение13 мин
Количество просмотров1.7K

Близится Новый год, а это значит, что работа над конференцией по компьютерной лингвистике, NLP и интеллектуальным технологиям «Диалог» уже в разгаре. О том, что это такое и почему ABBYY его основной организатор, можно прочитать тут.

Одно из важнейших событий для NLP-комьюнити в рамках «Диалога» — проведение shared tasks на Dialogue Evaluation (DE), или «соревнований», посвященных разным практическим задачам из области NLP для русского языка. И это уже тринадцатый сезон DE! Совсем скоро мы объявим задания для участников следующего года.

Мы стараемся регулярно писать про итоги DE, но еще никогда не рассказывали о том, как все устроено изнутри: кто придумывает задания, как готовятся «соревнования», кто и как их проводит, сколько нужно времени, чтобы подготовить одно соревнование (спойлер: это дело не быстрое), и многое-многое другое. Обо всем об этом и многом другом расскажем в нашем новом посте. Добро пожаловать под кат!

Читать далее

ICDAR: новости анализа и распознавания документов в преддверии 2022 года

Время на прочтение8 мин
Количество просмотров2.7K

Декабрь – пора подводить итоги года. В этом посте постараемся рассказать читателям Хабра о новых интересных идеях, которые появились в области анализа и распознавания изображений документов.

В сентябре прошла очередная, 16-я конференция ICDAR-2021 – главное событие в области анализа и распознавания документов. Конференция проводится раз в два года, в этом году ABBYY также принимала участие с докладом, но сейчас речь пойдет не о нашей работе, а о других интересных, на наш взгляд, публикациях с этой конференции. К сожалению, не все работы легко найти в свободном доступе, поэтому под катом будет множество полезных ссылок для ознакомления. Поехали!

Читать далее

2021 год в разработке технологий ABBYY – и не только. Подводим итоги года

Время на прочтение8 мин
Количество просмотров2.1K

С наступающим новым годом, Хабр! Чтобы не быть занудами, постараемся подвести короткие итоги 2021 года, потому что без них никуда :)

Вот несколько главных событий, которыми гордится вся наша команда:

     Создали low-code/no-code платформу, которая позволяет автоматизировать обработку документов и применять машинное обучение даже сотрудникам без навыков программирования. Микросервисная архитектура, Kubernetes, Docker-контейнеры, облако – в общем, классный и сложный продукт, который сделает жизнь для тех, кто много работает с информацией, чуточку проще.

   Создали уникальную технологию FastML, которая в связке с алгоритмом кластеризации позволяет гораздо точнее определять классы документов, даже если у вас их очень-очень много. Это принципиально новый подход, и мы считаем, что за ним – будущее. Пока об этом можно почитать в патенте, а вообще планируем об этом большой пост сразу после того, как все закончат есть оливье и выйдут из праздничного анабиоза.

   Обновили библиотеку машинного обучения NeoML – теперь она работает до 10 раз быстрее и поддерживает Python. Приглашаем всех питонистов (и не только) оценить всю мощь обновленной NeoML!

А еще мы попросили руководителей направлений поделиться, что самое важное их команды сделали в 2021 году, какие события в своей профессиональной области им запомнились и какие планы у них на следующий год. Вот что они рассказали.

Читать далее

Что такое ABBYY Vantage и как мы придумали платформу для тех, кто не умеет кодить

Время на прочтение9 мин
Количество просмотров9.8K

ABBYY представила Vantage – low-code/no-code платформу нового поколения для интеллектуальной обработки документов с набором готовых обученных когнитивных сервисов (навыков или скиллов) для распознавания, классификации и извлечения данных из документов любой сложности.

Это значимое событие по ряду причин. Во-первых, в разработке мы использовали самый современный стек технологий (REST API, Cloud-native, микросервисная архитектура с Docker-контейнерами, которые управляются с помощью Kubernetes). Во-вторых, запустили Marketplace – онлайн-площадку, на которой клиенты могут приобретать готовые навыки для обработки документов и обмениваться ими с другими компаниями. В-третьих, добавили в продукт машинное обучение на стороне клиента. То есть система сама постоянно дообучается и повышает качество работы сервисов на основании того, как с ней взаимодействует клиент. Например, когда вносит исправления в результаты распознавания. Но обо всем по порядку.

Мы расскажем о разных составляющих Vantage в серии постов. Первый из них об общей концепции платформы. В этом посте мы покажем интерфейс и обозначим технологии, которые используются в платформе. Скорее под кат!

Читать далее

Стажировка в ABBYY-2021: гибридный формат, больше машинного обучения и планы на будущее

Время на прочтение9 мин
Количество просмотров3.2K

Мы в ABBYY понимаем, как важно начинать строить карьеру в интересном для себя направлении еще в студенческие годы. Поэтому помогаем талантливым ребятам пробовать свои силы и развиваться уже на третьем курсе университета. Мы проводим летние стажировки, где даем ребятам настоящие «боевые» задачи. По итогам лучшие студенты получают предложения о работе.

Летняя стажировка помогает будущим сотрудникам не только получить опыт и проявить себя, но и изучить внутренние стандарты и процессы разработки компании. Кроме того, это еще и отличная возможность получить предложение о постоянной работе уже на четвертом курсе. Как правило, ABBYY предлагает стажерам частичную занятость для комфортного совмещения с учебой.

Мы уже не раз подводили итоги летних стажировок в ABBYY (тут, тут и тут), но еще никогда не рассказывали о том, как в целом это проходит в нашей компании, какие тестовые задания и задачи выполняли стажеры, и что думают о стажировке менторы. Все подробности – под катом.

Читать далее

Словарь визуальных слов: как создать, зачем использовать, где применять

Время на прочтение15 мин
Количество просмотров3.6K

Автоматическое извлечение информации из деловых документов (счетов-фактур, квитанций, ID) все еще остается сложной задачей из-за отсутствия единого стандарта оформления: несмотря на то, что любой подобный документ содержит определенный набор полей, которые можно извлечь (дата, валюта, общая сумма), расположение элементов сильно отличается в зависимости от типа документа или компании. Также определенные трудности вызывают неоднозначное расположение границ документа, например, из-за смещения изображения на скан-копии. Этот фактор тоже может повлиять на положение искомых областей.

Использование словарей (кодовых книг) визуальных слов, аналогичных Bag-of-Words (BoW), раньше было довольно популярно для обработки изображений (к примеру, для поиска или классификации изображений документов). Мы решили создать принципиально новое решение для извлечения информации из документов, которое бы решало перечисленные выше проблемы предшествующих подходов и базировалось бы на построении и использовании оптимизированного словаря визуальных слов. При этом дополнительным достоинством нашей разработки является то, что обнаружение полей основано только на данных изображения и не требует больших размеченных наборов данных для обучения (fine-tuning) системы на стороне пользователя.

Подробно о том, как был создан словарь визуальных слов, его работе и результатах читайте тут, а переведенный сокращенный вариант — под катом.

Читать далее
1
23 ...

Информация

Сайт
www.contentai.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия