Pull to refresh
16K+
137

Пользователь

0,2
Rating
109
Subscribers
Send message

Как мы делали подсказки в продукте для корпоративного поиска на базе Elasticsearch

Reading time3 min
Reach and readers5.1K

Казалось бы поисковые подсказки (автокомплит) простая и понятная вещь, реализованная во множестве проектов и работающая из коробки. 

Как бы не так. 

Под катом расскажем про существующие подходы, их ограничения, и как мы вышли из положения для реализации подсказок в продукте для корпоративного поиска Content AI Intelligent Search

Читать далее

Лицензирование софта: типы, нюансы, сложности

Reading time10 min
Reach and readers12K

У каждого разработчика хотя бы раз возникала мечта создать крутой продукт, который обязательно захотят купить (а не спиратить) все пользователи, а сам он станет богаче Илона Маска и будет запускать свои Falcon, но конечно же намного удачнее. Но чаще всего эта мечта спустя время разбивается о суровую реальность: софт почти никому не нужен из-за переполненного рынка, а если и нужен, то его постоянно пиратят, безжалостно и беспощадно. 

Если с первой проблемой помогут справиться талант и удача, то разобраться со второй — попробуем помочь мы. Ниже рассказываем о нюансах лицензирования, с которыми сталкивается разработка. 

Читать далее

История FineReader: так создавалась легенда (часть II)

Reading time10 min
Reach and readers7.7K

Мы продолжаем изучать летопись функционального развития легендарного редактора FineReader PDF. Первую часть 30-летней истории можно прочитать здесь. А сейчас перенесемся в середину нулевых. 

Читать далее

История FineReader: так создавалась легенда (часть I)

Reading time9 min
Reach and readers13K

Не секрет, что многофункциональный редактор ContentReader PDF является технологическим наследником популярного решения компании ABBYY – FineReader PDF. После модификации исходного продукта его новую историю на российском рынке пишет Content AI. Между тем, легендарному редактору PDF в этом году исполнилось 30 лет. И это достойный повод, чтобы вспомнить, как все начиналось и как развивался продукт, ставший незаменимым инструментом для всех, кто работает с документами. 

Для полного погружения мы смогли найти ноутбук IBM ThinkPad T61 c Windows XP, установили на него все версии FineReader с 1 по 13 и сделали аутентичные скриншоты. Пристегнитесь, запускаем машину времени через три…два…один. 

Читать далее

Поймет даже почерк врача: все о нашей технологии распознавания русского рукописного текста

Reading time6 min
Reach and readers74K

Технологии распознавания печатного текста появились около 30 лет назад, существенно облегчив жизнь и ускорив многие бизнес-процессы. В то же время распознавание курсива оказалось куда более сложной задачей, которую удалось решить лишь благодаря развитию нейросетей.

В этом посте рассказываем о собственной технологии Content AI — распознавании русского рукописного текста, которая уже вошла в новую версию нашего продукта ContentCapture — универсальную платформу для интеллектуальной обработки информации.

Читать далее

10 болей Windows-разработчика, портирующего на Linux

Reading time9 min
Reach and readers8.1K

За последний год многим разработчикам пришлось осваивать работу с Linux, погружаться в тему кросс-платформенности и портирования существующих продуктов в новую инфраструктуру. Несмотря на то что часть наших продуктов написана под Linux, мы не стали исключением, и нашему RnD в прошлом году тоже пришлось значительно перестраивать свою работу.

Споры о том, под какой ОС проще кодить – бесконечны, примерно как дискуссии об Android vs iOS или PlayStation vs Xbox. Поэтому начинать мы ее не будем, хотя очень хочется.

В посте рассказываем исключительно об опыте нашей компании: на какие грабли наступили и в каких местах обожглись, работая над портированием продуктов с Windows на Linux. И все это собрали в 10 основных пунктов-болей наших разработчиков под катом. 

Читать далее

Очень странные дела: разработчики обсуждают итоги года и осторожно заглядывают в будущее

Reading time7 min
Reach and readers3.2K

Вот уже почти год, как российский ИТ-рынок вошел в затянувшуюся зону турбулентности. Иногда казалось, что над сценариями развития ситуации работали профессиональные фантасты, прогнозирующие варианты по всей длине шкалы — от полного прекращения поставок «железа» и схлопывания рынка из-за отсутствия доступа к инструментам разработки до нового ИТ-ренессанса в связи с уходом международных компаний, прежде занимавших ведущие позиции.

Эксперты Content AI, наблюдавшие за ситуацией внутри воронки смерча, поговорили «за ИТ» уже из дня сегодняшнего: с чем в итоге подошел отечественный рынок к 2023 году, какие тренды наметились в области разработки ПО и в какую сторону дальше будет двигаться российская сфера ИТ. 

Как говорится, запомните этот твит. 

Читать далее

Добрый вечер, здравствуйте

Reading time2 min
Reach and readers6.3K

Если вы программист, тестировщик или другой обитатель мира IT, то, возможно, ранее вы следили за деятельностью компании ABBYY, ведущего мирового разработчика решений в области интеллектуальной обработки информации и анализа бизнес-процессов. Весной 2022 года ABBYY приняла решение уйти из России, а мы — команда разработки и менеджмента бывшего российского офиса ABBYY — создали новую компанию Content AI. Мы посчитали важным сохранить многолетний архив этого блога, ведь в нем отражается путь не только одной компании, но и всей сферы AI российского IT.

И мы начинаем новую главу этой истории. 

Читать далее

Приплюснутый, плюсы и «кресты»: за что мы любим и ненавидим C++

Reading time8 min
Reach and readers21K

В конце прошлого года 71 год исполнился Бьерну Страуструпу – создателю C++, одного из самых сложных и интересных языков программирования. Мы в ABBYY любим C++, ведь он лежит в основе и наших технологий компьютерного зрения, и используется в алгоритмах обработки естественного языка, да и опенсорсная библиотека ABBYY NeoML опирается на «плюсы».

По случаю дня рождения Бьерна Страуструпа мы поговорили с Дмитрием, руководителем группы разработчиков, которые создают в компании технологии для интеллектуального анализа бизнес-процессов. Мы уже немного рассказывали об этом решении в одном из постов. Дима работает на C++ уже 15 лет, начинал еще до того, как появился так называемый modern C++ (C++11/14 и выше). Он рассказал о том, как впервые столкнулся с C++, какие возможности есть у этого языка и что советует тем, кто только начинает погружаться в его основы или хочет прокачаться в теме.

Читать далее

ABBYY FastML: новый подход к машинному обучению на стороне клиента для обработки большого потока документов

Reading time10 min
Reach and readers8.3K

Привет, Хабр!

Нашим заказчикам часто приходится работать с большим потоком документов, многие из которых очень похожи друг на друга, но не одинаковы. Поскольку обрабатывать такое количество информации с каждым годом становилось все сложнее, мы придумали технологическое решение, которое способно автоматизировать эту задачу с высокой точностью.

Например, представим, что на обработку поступают десятки тысяч инвойсов от сотен разных контрагентов. Раньше, чтобы автоматизировать их классификацию и извлечение информации, требовалось наработать базу поставщиков, а для каждого из типов документов — создать вручную гибкое описание (задать информацию о линейных отношениях полей относительно друг друга). Внедрение такого решения у клиента длилось от 3 до 6 месяцев.

Чтобы упростить и ускорить эту задачу и в целом облегчить работу нашим заказчикам, мы создали новый механизм кластеризации и разработали технологию FastML, а затем объединили их работу.

В нашем решении кластеризация избавляет от необходимости вести базу данных вендоров, а FastML способен работать, основываясь на пользовательском обучении: технология делит поток документов на определенные группы, на каждой из которых учит свою модель поиска. В результате новое решение лучше адаптируется к внешним отличиям документов и работает в несколько раз быстрее.

Но обо всем по порядку.

Читать далее

2021 год в разработке технологий ABBYY – и не только. Подводим итоги года

Reading time8 min
Reach and readers2.2K

С наступающим новым годом, Хабр! Чтобы не быть занудами, постараемся подвести короткие итоги 2021 года, потому что без них никуда :)

Вот несколько главных событий, которыми гордится вся наша команда:

     Создали low-code/no-code платформу, которая позволяет автоматизировать обработку документов и применять машинное обучение даже сотрудникам без навыков программирования. Микросервисная архитектура, Kubernetes, Docker-контейнеры, облако – в общем, классный и сложный продукт, который сделает жизнь для тех, кто много работает с информацией, чуточку проще.

   Создали уникальную технологию FastML, которая в связке с алгоритмом кластеризации позволяет гораздо точнее определять классы документов, даже если у вас их очень-очень много. Это принципиально новый подход, и мы считаем, что за ним – будущее. Пока об этом можно почитать в патенте, а вообще планируем об этом большой пост сразу после того, как все закончат есть оливье и выйдут из праздничного анабиоза.

   Обновили библиотеку машинного обучения NeoML – теперь она работает до 10 раз быстрее и поддерживает Python. Приглашаем всех питонистов (и не только) оценить всю мощь обновленной NeoML!

А еще мы попросили руководителей направлений поделиться, что самое важное их команды сделали в 2021 году, какие события в своей профессиональной области им запомнились и какие планы у них на следующий год. Вот что они рассказали.

Читать далее

Что такое ABBYY Vantage и как мы придумали платформу для тех, кто не умеет кодить

Reading time9 min
Reach and readers11K

ABBYY представила Vantage – low-code/no-code платформу нового поколения для интеллектуальной обработки документов с набором готовых обученных когнитивных сервисов (навыков или скиллов) для распознавания, классификации и извлечения данных из документов любой сложности.

Это значимое событие по ряду причин. Во-первых, в разработке мы использовали самый современный стек технологий (REST API, Cloud-native, микросервисная архитектура с Docker-контейнерами, которые управляются с помощью Kubernetes). Во-вторых, запустили Marketplace – онлайн-площадку, на которой клиенты могут приобретать готовые навыки для обработки документов и обмениваться ими с другими компаниями. В-третьих, добавили в продукт машинное обучение на стороне клиента. То есть система сама постоянно дообучается и повышает качество работы сервисов на основании того, как с ней взаимодействует клиент. Например, когда вносит исправления в результаты распознавания. Но обо всем по порядку.

Мы расскажем о разных составляющих Vantage в серии постов. Первый из них об общей концепции платформы. В этом посте мы покажем интерфейс и обозначим технологии, которые используются в платформе. Скорее под кат!

Читать далее

Стажировка в ABBYY-2021: гибридный формат, больше машинного обучения и планы на будущее

Reading time9 min
Reach and readers3.3K

Мы в ABBYY понимаем, как важно начинать строить карьеру в интересном для себя направлении еще в студенческие годы. Поэтому помогаем талантливым ребятам пробовать свои силы и развиваться уже на третьем курсе университета. Мы проводим летние стажировки, где даем ребятам настоящие «боевые» задачи. По итогам лучшие студенты получают предложения о работе.

Летняя стажировка помогает будущим сотрудникам не только получить опыт и проявить себя, но и изучить внутренние стандарты и процессы разработки компании. Кроме того, это еще и отличная возможность получить предложение о постоянной работе уже на четвертом курсе. Как правило, ABBYY предлагает стажерам частичную занятость для комфортного совмещения с учебой.

Мы уже не раз подводили итоги летних стажировок в ABBYY (тут, тут и тут), но еще никогда не рассказывали о том, как в целом это проходит в нашей компании, какие тестовые задания и задачи выполняли стажеры, и что думают о стажировке менторы. Все подробности – под катом.

Читать далее

FlexiNLP: какие технологии для анализа естественного языка используются в ABBYY

Reading time10 min
Reach and readers3.7K
Мы в ABBYY уже давно занимаемся решением задач Natural Language Processing (NLP). Технологии обработки естественного языка лежат в основе многих NLP-решений ABBYY для поиска и извлечения данных. С их помощью мы помогли индустриальному гиганту НПО «Энергомаш» сделать поиск по документам, накопленным на предприятии почти за 100 лет, а один из крупных банков использует наши технологии, чтобы мониторить гигантский поток новостей и управлять рисками. В этом посте мы расскажем, как устроены изнутри наши NLP-технологии для извлечения информации из сплошного текста. Будем говорить не про текст в таблицах и четко структурированных бланках, как например, товарные накладные, а про многостраничные неструктурированные документы: договоры аренды, истории болезни и многое другое.

Затем мы покажем, как это работает на практике. Например, как за Х минут извлечь Х сущностей из 200-страничного банковского договора. Или убедиться в верности юридического контракта, или оперативно добыть информацию о редких побочных эффектах из собрания медицинских статей. Наш опыт показывает, что компаниям необходимо получать такие данные быстро и без ошибок, так как от этого зависит благополучие и бизнеса, и людей.

В конце поста упомянем о нескольких трудностях, с которыми мы сталкивались при ведении таких проектов, и поделимся опытом, как удалось их разрешить. Ну, добро пожаловать под кат.
Читать дальше →

Гитара, инвойс и робот: как Fender настроился на интеллектуальные технологии

Reading time7 min
Reach and readers2.4K

Вы знали, что 2020 год стал самым успешным по объему продаж за 75-летнюю историю американского производителя гитар Fender? Чтобы не сойти с ума в карантин, люди находили спасение в музыке: кто-то пел на балконе, а кто-то брался за гитару, смотрел видеоуроки и учился играть.В такой урожайный год у компании Fender было много работы.  Чтобы создавать знаменитые Telecaster’ы, Stratocaster’ы, а также продукцию для поглощенных ранее брендов (Jackson, Gretsch, Charvel, Hamer, Squier), корпорация сотрудничает с двумя тысячами поставщиков по всему миру. Это производители древесины из разных стран, включая Россию, изготовители динамиков из Италии, лакокрасочных покрытий, ламповых усилителей и многого другого. Каждый месяц несколько сотрудников финансового отдела Fender в Скоттсдейле, Аризона, получают около сотни электронных писем с инвойсами (счета-фактуры от поставщиков) и перепечатывают информацию из них в учетные системы, чтобы вовремя рассчитываться с партнерами. Вы удивитесь, но совсем недавно всю эту кропотливую работу делали вручную. Это вызывало немало неудобств, которые мы перечислим ниже. И Fender, который уже давно использует современные технологии для изготовления инструментов, разрабатывает мобильные приложения для настройки гитар и обучению игре, решил внедрить инновации и в расчеты с поставщиками.

Сегодня мы расскажем, как технологии ABBYY для интеллектуальной обработки информации и программные роботы UiPath помогли упростить работу сотрудников финансового отдела Fender: почти исключить досадные ошибки при вводе данных в учётные системы, быстрее рассчитываться с поставщиками и уделять больше внимания развитию новых проектов.

Читать далее

Ваш звонок очень важен для нас: как перестать разочаровываться в контакт-центрах и начать жить

Reading time12 min
Reach and readers4.2K
Как часто вы разочаровывались в контакт-центрах? Как это бывает, позвонили узнать о минимальном платеже по кредитке или выяснить, как разблокировать доступ в интернет-банк. Но сразу решить вопрос не удалось. Запутались в дебрях голосового меню. Поняли, что любая кнопка все равно приведет в никуда к замученному неправильным скриптом оператору. Ждали на линии «первого освободившегося сотрудника». Затем 8 раз слушали «Blue Da Ba Dee», когда он ставил звонок на удержание. В результате бросили трубку и запланировали поездку в офис банка.

Вы никогда не задумывались о том, почему в век мессенджеров люди пользуются голосовой связью? По данным Национальной ассоциации контактных центров (НАКЦ), в России за время пандемии 25% контакт-центров не зафиксировали уменьшения количества звонков, а 27% — отметили рост объема обращений на 25%. Понятно, из-за COVID-19 у всех появилось больше поводов для беспокойства: «Когда доставят мой заказ?», «Что с моими ваучерами?», «Вернут ли мне деньги?». Компании вкладывают сотни тысяч рублей в автоматизацию контакт-центров и обучение сотрудников, но что-то идет не так.

Возможно, проблема в подходе. Решения об автоматизации принимаются интуитивно, на основе наблюдений или «методом научного тыка». Между тем в работе контакт-центра много неочевидных закономерностей, за которыми полезно наблюдать не в ручном режиме, а с применением технологий интеллектуального анализа бизнес-процессов (Process Intelligence). В информационных системах контакт-центров собирается много полезных данных – «блуждания» клиентов по IVR (Interactive Voice Response), логи телефонных разговоров (время и длительность, с какого номера звонили) и др.

Сегодня мы разберем на примере контакт-центра банка, как с помощью платформы для анализа бизнес-процессов ABBYY Timeline обратить данные на пользу и способствовать тому, чтобы люди не висели на линии, интеллектуальный ассистент помогал, а не вредил, а операторы быстро решали проблемы пользователей и получали за это премии.
Читать дальше →

О молодой, но мудрой ФПМИ и её последователе – ABBYY

Reading time8 min
Reach and readers18K
Сентябрь – волнительное время не только для школьников и студентов, но и для нас в ABBYY. Осенью студенты наших кафедр на Физтехе вернулись к учебе, а десятки наших коллег – к преподаванию. Каким будет этот учебный год – не загадываем. Просто пусть все будет хорошо. А в этом посте мы расскажем интересные подробности о Физтех-школе прикладной математики и информатики (ФПМИ МФТИ) и о том, как вместе с ней мы уже не первый год готовим крутых специалистов в области Natural Language Processing (NLP) и Computer Vision (CV).

image
Первокурсники ФПМИ на фоне самого популярного корпуса МФТИ для совместных фотографий.
Читать дальше →

ABBYY FineReader Server против хаоса. Как наше решение удаляет дубликаты и наводит порядок в бизнес-документах?

Reading time8 min
Reach and readers6.4K

image


Привет, Хабр! Наверняка вы помните посты о том, как наш ABBYY Recognition Server помогал в оцифровке материалов и каталогов библиотек на Сахалине, в Латвии, Великобритании и в других странах. Мы давно не рассказывали об этом продукте, а ведь все это время он развивался. Мы обучили его новым способностям, прокачали его навыки с помощью интеллектуальных OCR-технологий последнего поколения и даже дали новое имя – ABBYY FineReader Server. Объясняем: под общим брендом FineReader мы объединили все продукты для распознавания, конвертации и редактирования документов.


Сегодня ABBYY FineReader Server помогает не только оцифровывать материалы из библиотек и архивов, но и упорядочивать хранение информации в крупных компаниях. Например, группа FESCO оцифровывает бухгалтерские счета и транспортные накладные и отправляет их в единый электронный архив, чтобы быстрее проводить транзакции, а сотрудники PwC прямо с мобильного телефона конвертируют фотографии счетов, договоров и других документов в PDF с возможностью полнотекстового поиска и отправляют их в корпоративные системы. В США юридическая фирма Kantor & Kantor использует это решение, чтобы быстрее находить значимую информацию в тысячах страниц судебных дел.


В этом посте мы расскажем о нескольких новых возможностях ABBYY FineReader Server: как они технически реализованы и для чего крупные компании пользуются ими.

Читать дальше →

Бизнес-процессы на прокачку: как Process Intelligence помогает компаниям определить, что, где и когда автоматизировать

Reading time15 min
Reach and readers9.6K

Как вы, возможно, слышали, в прошлом году ABBYY приобрела компанию TimelinePI – разработчика платформ Process Intelligence. Теперь, помимо интеллектуальной обработки информации, продукты ABBYY помогают компаниям решать новый класс задач – анализировать бизнес-процессы, понимать, как они устроены изнутри и как их изменить в лучшую сторону.

Для нас это логичный шаг. В недрах крупных компаний непрерывно генерируются и обрабатываются огромные объемы данных. Наши решения для корпоративных заказчиков помогают приводить в структурированный вид разнообразные сведения из бухгалтерских, кадровых, логистических и других документов и удобнее работать с ними. А почему бы не только упорядочивать информацию, но и делать на ее основе полезные выводы для бизнеса? Например, понимать, как устроены процессы, выявлять в них неочевидные закономерности, анализировать те метрики, которые раньше не учитывали, да еще и предсказывать, что будет, если автоматизировать процессы с помощью той или иной технологии?

Сегодня мы расскажем, что такое платформа для интеллектуального анализа бизнес-процессов ABBYY Timeline, для чего она нужна, и приведем примеры, как это решение работает и где оно полезно.
Читать дальше →

Чем занимается главный архитектор в ABBYY? Интервью с Владимиром Юневым

Reading time9 min
Reach and readers4K
Так устроена наша компания, что она не может не развиваться. В прошлом году ABBYY приобрела TimelinePI – разработчика платформы для анализа бизнес-процессов и вышла на новый рынок. А сейчас мы активно переходим на современные облачные архитектуры.

Конечно, пока за рубежом cloud-сервисами пользуются активнее, чем в России. По данным Gartner, в 2019 года мировой рынок публичных облаков составил $242,7 млрд, а в нашей стране – пока 73 млрд рублей (~$1 млрд), следует из отчета «ТМТ Консалтинг», хотя в России этот рынок растет быстрыми темпами.

Наши международные клиенты уже пользуются решениями, которые работают в облаке, например, ABBYY FlexiCapture и Cloud OCR SDK. Они помогают заказчикам автоматически распознавать штрихкоды, извлекать из товарных накладных суммы и даты и многое другое – и делать все это со всевозможных устройств, различных операционных систем, удобно и безопасно. Нам бы хотелось, чтобы наши интеллектуальные решения становились еще доступнее для пользователей. Ведь даже в пандемию компаниям во всем мире все равно нужно обрабатывать счета, готовить налоговую отчетность, сравнивать написанное мелким шрифтом в разных версиях кредитных договоров, а также внедрять решения для удаленного обслуживания клиентов. Чтобы все эти задачи можно было решить в любое время, где угодно и в необходимом объеме, мы взяли курс на интеграцию наших продуктов с облачными технологиями.

Именно поэтому в 2019 году в нашей команде появился главный архитектор – человек с хорошим знанием подходов к созданию архитектуры программного обеспечения в компании сегмента B2B и с большим опытом в построении и развитии облачных сервисов. Им стал Владимир Юнев, в прошлом – облачный архитектор и эксперт по стратегическим технологиям Microsoft, известный в сообществе на Хабре как @XaocCPS.

Мы поговорили с Володей о том, чем занимается главный архитектор ABBYY и его команда, какими навыками и знаниями важно обладать такому специалисту и за какими ИТ-архитектурами будущее.
Читать дальше →

Information

Rating
3,336-th
Location
Россия
Works in
Registered
Activity