How to become an author

@ContentAI_Team

Пользователь

Profile Publications 140Comments 329Bookmarks 7

ContentAI_Team Dec 25 2018 at 15:30

Secret Santa, квесты, квиз и каток – как мы встречали ABBYY New Year

4 min

4K

Content AI corporate blogOffices of IT companies

Скоро новый год, и, чтобы поднять всем праздничное настроение, мы решили запилить этот пост и показать, что творилось в стенах ABBYY последние пару месяцев. Хотите узнать, как выглядят аббишные новогодние эльфы, какие тайны сокрыты в посылках Секретного Санты из Австралии, сколько килограммов оливье мы съели за один день и чем можно разнообразить катание на льду в -13 градусов? Тогда поехали!

Под катом много фоток (~ 5 Мб)

Читать дальше →

+18

ContentAI_Team Dec 4 2018 at 11:01

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

11 min

7.2K

Content AI corporate blogImage processing*Artificial IntelligenceNatural Language Processing*

Недавно системный аналитик технологического департамента компании ABBYY Егор Будников выступил в «Яндексе» на конференции «Data & Science: закон и делопроизводство». Он рассказал, как работает компьютерное зрение, происходит обработка текстов, на что важно обращать внимание при извлечении информации из юридических документов и о многом другом.

— У компании могут быть развитые методологии анализа данных и электронный документооборот, при этом от клиентов или от соседних отделов в компанию могут приходить документы, созданные в Word, при этом распечатанные, отксерокопированные, отсканированные и принесенные на флешке.

Что же делать с документооборотом, который есть сейчас, с «грязными» документами, с бумажным хранением, вплоть до того, что документы могут храниться до 70 лет, прежде чем они отсканированы и должны быть распознаны?

Читать дальше →

+16

ContentAI_Team Sep 13 2018 at 12:30

Как я стал разработчиком в ABBYY

10 min

7.9K

Content AI corporate blogProgramming*IT careerArtificial IntelligenceInterview

В этот замечательный 256-ой день года поздравляем всех причастных c Днем программиста! И не только тех, кто работает по специальности, но и всех, кто увлекается программированием. По данным исследователей из Evans Data Corporation, в мире 23 миллиона разработчиков. И, наверное, совсем не важно, много это или мало ~~хотя это сопоставимо с населением всей Австралии.~~ Главное, что люди этой профессии каждый день делают вклад в яркое и технологичное будущее.

Желаем всем девелоперам значимых и интересных проектов, побольше хорошего кода, успешных релизов и благодарных клиентов, и, конечно же, отлично отметить свой День, устроив веселый праздник! И по такому поводу наши разработчики рассказывают, как проходит их рабочий день в ABBYY, какими проектами они занимаются и чем увлекаются. Добро пожаловать под кат!

Читать дальше →

+21

ContentAI_Team Aug 29 2018 at 13:08

Чем на самом деле занимаются стажеры в ABBYY

9 min

5.2K

Content AI corporate blogProgramming*Studying in ITIT career

ABBYY уделяет большое внимание подготовке квалифицированных IT-специалистов и развитию их способностей. Мы считаем, что уже с первых курсов института очень важно привлекать ребят к решению реальных задач в областях OCR, машинного обучения, NLP и к участию в существующих проектах, потому что теория не возможна без практики. Поэтому мы приглашаем талантливых студентов МФТИ, МГУ, ВШЭ и других ВУЗов к нам на стажировки. Это может быть практика не только на лето, но на более длительное время. В любом случае у студента в ABBYY есть хорошая возможность проявить себя, поучаствовать в работе над реальными продуктами, получить новые знания, полезные навыки и присоединиться к нашей команде. Ребята всегда могут договориться со своими наставниками и совмещать практику с учебой. В этом посте мы расскажем, как проходят стажировки в ABBYY и чем на самом деле занимаются здесь студенты ;)

Читать дальше →

+20

ContentAI_Team Jun 28 2018 at 13:29

Сколько жизней у электролома, старой одежды и крышечек от бутылок?

6 min

8.2K

Content AI corporate blogECM*Offices of IT companiesEcology

Мы в ABBYY стараемся приносить пользу не только бизнесу и людям, но и нашей планете. Уже давно в офисе и вне его следуем нескольким правилам, которые помогают беречь природу: экономнее использовать бумагу, сдавать старые батарейки и энергосберегающие лампочки, участвовать в субботниках. Наше дело живет и развивается: сотрудники предлагают новые идеи, а компания их подхватывает и помогает претворять в жизнь. В этом посте мы расскажем, какие эко-инициативы есть в ABBYY и какие результаты это приносит. А еще поделимся с вами информацией, где вы можете сдать разные материалы на переработку.

Читать дальше →

+46

ContentAI_Team May 14 2018 at 12:45

Как проходит набор на кафедры ABBYY в МФТИ

6 min

9.3K

Content AI corporate blogIT career

В этом году кафедре ABBYY на факультете инноваций и высоких технологий (ФИВТ) Московского физико-технического института исполнилось 12 лет. За это время мы подготовили более 240 квалифицированных IT-специалистов, почти сотня из которых работают в компании. Наши разработчики создают уникальные технологии интеллектуальной обработки информации, которыми пользуются более 50 миллионов пользователей свыше чем в 200 странах мира. Сохраняя традицию, в апреле мы провели набор студентов на следующий, 2019 год. Сегодня мы расскажем о том, как ищем талантливых ребят, чему их учим и почему они хотят работать в нашей компании.

Читать дальше →

+18

ContentAI_Team Apr 2 2018 at 12:44

Открываем историю Большого театра. Часть первая

7 min

4.6K

Content AI corporate blogImage processing*

Вы когда-нибудь собирали театральные программки? Если да, то, наверное, в вашей коллекции их десятки, а может, наберется и сотня. А теперь представьте, что в вашем распоряжении 120 тысяч программок, 48 тысяч афиш и 100 тысяч исторических фотографий. Столько бумажных документов сохранил с середины XIX века Большой театр. Самые древние и ценные из них уже пожелтели и стали ветхими, а на поиск информации в театральном архиве уходили часы. Чтобы сохранить эти сокровища, сотрудники театрального музея начали вручную переводить документы в электронный вид, но оказалось, что на это могут уйти годы.

Поэтому в сентябре 2016 года вместе с Большим театром и при активной поддержке Феклы Толстой, праправнучки Льва Николаевича Толстого, мы запустили краудсорсинговый проект по оцифровке истории главного театра страны. В этом посте мы расскажем о подробностях первого этапа проекта и о его технических деталях: как мы оцифровывали уникальные документы с помощью ABBYY FineReader и как волонтеры помогали проверять результаты распознавания.

Читать дальше →

+31

ContentAI_Team Feb 15 2018 at 12:03

Как мы помогали оцифровать вековую историю наблюдений за погодой в Бразилии

5 min

6.1K

Content AI corporate blogImage processing*

Ученые Национального института метеорологии Бразилии с 1909 года записывают всю информацию о погодных условиях и изменениях климата в стране. Исследователи анализируют эти данные и строят на их основе прогнозы. За сто лет специалисты собрали более 3 миллионов страниц записей о погоде в знойном Рио-де-Жанейро, на грохочущих водопадах Игуасу, в сумрачных лесах Амазонки и в туманном Сан-Паулу. Но вся информация хранилась в бумажном виде. С каждым годом ее копилось все больше, а старые записи приходили в негодность. Исследователям становилось все сложнее работать с документами.

Сегодня мы расскажем о том, как с помощью нашей технологии ABBYY FlexiCapture Engine Национальный институт метеорологии Бразилии оцифровал архив наблюдений за погодой, который ученые собирали более 100 лет.

Читать дальше →

+33

ContentAI_Team Mar 29 2017 at 13:41

«Предъявите документы» или что поможет распознать паспорт

6 min

13K

Content AI corporate blogDevelopment of mobile applications*Image processing*

Мы уже говорили о распознавании текста из видеопотока, его преимуществах по сравнению с обработкой фотографии и сценариях, где это особенно полезно.

Сегодня мы запускаем ABBYY Real-Time Recognition SDK для мобильных платформ Android и iOS. Поэтому хотим поговорить об особенностях распознавания данных на мобильном устройстве, а именно, об извлечении информации в видеопотоке на примере одного из самых сложных документов – гражданского паспорта.

Всем нам часто приходится использовать свои паспортные данные. Паспорт нужен для регистрации в мобильном банке или платёжной системе, покупки билетов, аренды машины. Сейчас многие используют для этих задач смартфон. Набирать информацию на маленькой клавиатуре мобильного устройства очень неудобно. Особенно неприятное поле для ввода – это данные о месте выдачи паспорта: обычно они занимают пару-тройку строк и содержат множество аббревиатур.

Читать дальше →

+28

ContentAI_Team Jan 10 2017 at 23:33

Мобильный OCR. Как всё начиналось (часть 2)

6 min

5.9K

Content AI corporate blogDevelopment for iOS*Development of mobile applications*Image processing*

В предыдущем посте мы начали рассказывать, как OCR-технологии «переезжали» с настольных компьютеров в смартфоны – а началось всё с приложения для сканирования визиток Business Card Reader. Но сканирование визиток – это только один сценарий, где нужно мобильное распознавание. О том, как решались другие задачи ~~хотелки~~ пользователей, – читайте ниже.

Как мы уже говорили, перенос технологии распознавания на смартфоны связан с кучей ограничений и сложностей. Главной была и остаётся ресурсоёмкость технологии – невозможно перенести ее в мобильное устройство как есть. Но у нас уже с 2007 года был готовый инструментарий разработчика ABBYY Mobile OCR Engine, который позволял на мобильном оцифровать изображение и выдать результат в формате TXT без сохранения форматирования. И для начала в 2011 году мы решили воплотить в жизнь небольшие пользовательские сценарии, в которых такое «элементарное» распознавание вполне подходило.

Читать дальше →

+27

ContentAI_Team Dec 8 2016 at 13:30

Lingvo API: словари ABBYY в облаке Windows Azure

6 min

8.2K

Content AI corporate blogAPI*Microsoft Azure*

Думаем, читателям нашего блога не нужно рассказывать подробно, что такое словарь ABBYY Lingvo. C этого продукта началась компания ABBYY 27 лет назад. Сначала словарь можно было использовать только на компьютерах, потом появились мобильные приложения и онлайн-сервисы. Недавно мы открыли доступ к словарям Lingvo для сторонних разработчиков на сайте https://developers.lingvolive.com – пока в бесплатном бета режиме.

Под катом мы подробнее расскажем о том, как мы работали над этим сервисом и как его можно использовать.

Читать дальше →

+22

ContentAI_Team Apr 20 2016 at 00:14

Распознавание текста из видеопотока: будущее мобильного OCR

6 min

19K

Content AI corporate blog

В последнее время мы довольно часто рассказываем в блоге о наших технологиях распознавания, которые работают на мобильных устройствах и распознают фотографии, сделанные камерами этих устройств. Сейчас мы движемся дальше и учимся работать не с фотографиями, а с видеопотоком. И сегодня мы хотим рассказать вам чуть подробней, что это означает и где в повседневной жизни может пригодиться распознавание текста из видеопотока.

Кстати, сейчас мы расширяем команду, занимающуюся созданием продукта для распознавания текста из видеопотока на смартфонах. Если вы Android или iOS-разработчик с опытом написания высоконагруженных приложений и у вас есть желание разрабатывать новые технологии вместе с нами, спешите откликнуться на вакансию.

О видеопотоке и распознавании

Для начала скажем, с каким именно видеопотоком мы работаем.

Читать дальше →

+27

ContentAI_Team Apr 1 2016 at 13:24

Мобильный OCR. Как всё начиналось

6 min

11K

Content AI corporate blogDevelopment for iOS*Development of mobile applications*Development for Android*

Перенос OCR-технологий (технологий оптического распознавания) с ПК на мобильные устройства обсуждался, пожалуй, с момента их появления. Ещё в конце 90-х, когда «умные» устройства можно было пересчитать по пальцам, мы задумывались о создании программы, извлекающей данные из визитной карточки, – Business Card Reader, или сокращённо BCR. Эта идея, что называется, витала в воздухе, но ни возможности камер, ни вычислительная мощность устройств не позволяли тогда реализовать её. Выбирать особо не приходилось: либо обычный телефон с хорошей камерой «для обычных людей», либо продвинутый бизнес-наладонник «для профессионалов» (а зачем вообще бизнесменам нужны камеры на устройстве — себя, что ли, фотографировать?)

Но время шло, запросы людей росли, и худо-бедно приличные камеры начали появляться во всех устройствах. Как только возможности устройств «подтянулись», разработчики портировали нашу технологию распознавания, учитывая массу ограничений, свойственных мобильным операционным системам: размер библиотек (попробуй впихнуть OCR с базой изображений в 500 килобайт на носителе), скорость работы на малопроизводительных процессорах. Ещё пришлось учитывать, что распознавать предстояло не идеальные изображения со сканера, а фотографии, сделанные зачастую с перекосами, в условиях плохого освещения и т. п.

Читать дальше →

+27

ContentAI_Team Mar 4 2016 at 10:52

Продвигаем мобильные приложения в AppStore и Google Play: как правильно использовать методику featuring

5 min

16K

Content AI corporate blogDevelopment of mobile applications*

В этой статье мы бы хотели обратить внимание разработчиков приложений на такой неоднозначный механизм продвижения, как фичеринг в магазинах мобильных приложений (AppStore и Google Play). Да, нашему редактору тоже не нравится слово «фичеринг» (featuring), но адекватного русского аналога нет, поэтому будем использовать кальку с английского.

Apple или Google featuring – это методика, когда сам Apple или Google выбирает приложения, соответствующие текущим маркетинговым приоритетам этих компаний. Такие приложения выделяются на определенный период с помощью внутренних маркетинговых инструментов App Store/Google Play (прежде всего, это размещение баннера на главной странице App Store/Google Play, или размещение в тематичиской подборке на «видном месте»).

Читать дальше →

+13

ContentAI_Team Jan 21 2016 at 16:48

Как камерой смартфона сделать фотографии, пригодные для OCR, или кое-что об ABBYY Mobile Imaging SDK

5 min

13K

Content AI corporate blogERP-systems*ECM*

Количество программ — мобильных клиентов, привязанных к различным системам автоматизации деятельности предприятий, постоянно растёт. Согласно исследованию компании IDC, к 2016 году оно увеличится в 4 раза (по сравнению с 2014 годом). Конечно, ABBYY не могла остаться в стороне от этих тенденций, и у нас есть мобильные продукты, ориентированные на корпоративных пользователей. Об одном из них – ABBYY Mobile Imaging SDK (MI SDK) – мы ещё ни разу не рассказывали в блоге, исправляемся.

Наши пользователи привыкли, что мобильные продукты ABBYY – это либо про словари, либо про распознавание. Сразу оговоримся – в ABBYY Mobile Imaging SDK нет ни того, ни другого. Спрашивается, почему нам понадобилось выпускать такое приложение? Ответ – конечно, чтобы продать OCR ещё большему числу клиентов :). Ведь ABBYY Mobile Imaging SDK обычно используется в связке с нашими «корпоративными» решениями для распознавания данных (например, ABBYY Recognition Server) или извлечения данных (например, ABBYY FlexiCapture). Этот небольшой продукт призван помочь нашим «большим» решениям работать лучше, распознавать точнее.

Жизнь изменилась, и если раньше основным устройством, с которого мы получали изображение для распознавания, был сканер, то теперь его всё чаще заменяет мобильный телефон. Чем он отличается от сканера? Конечно, тем, что получить с него изображение хорошего качества гораздо сложнее (разумеется, в данном случае хорошее качество = достаточное для того, чтобы наши OCR-технологии могли распознать текст на фото).

Читать дальше →

+23

ContentAI_Team Dec 10 2015 at 13:19

«Задачник» для ABBYY Compreno

9 min

9.1K

Content AI corporate blogSearch engines*Semantics*

Привет! В прошлый раз мы рассказали о том, как устроена технология понимания и анализа текстов на естественных языках ABBYY Compreno. Многие спрашивают нас – сколько уже можно разрабатывать технологию и где уже, наконец, продукты на базе Compreno. Как и обещали, сегодняшний материал посвящен продуктам и тому, какие именно задачи бизнеса они решают уже сегодня.

На основе нашей технологии можно создать ряд решений для разного типа задач. Но фокус нашего внимания сегодня – это корпоративный рынок, компании, которым необходимо в сжатые сроки получать значимую информацию из массивов данных. Это направление перспективно для нас и с точки зрения востребованности таких технологий клиентами, и с точки зрения скорейшего возврата наших инвестиций в технологию.

Сразу отметим, что решения на базе технологии Compreno – это аппликационные или технологические модули, которые встраиваются в любые решения, добавляя им возможности.

Читать дальше →

+20

ContentAI_Team Nov 25 2015 at 13:42

Интенсив по немецкому: как ABBYY Compreno учит новые языки

11 min

9.3K

Content AI corporate blogSemantics*Machine learning*

Как вы знаете, ABBYY занимается разработкой технологии анализа естественных языков Compreno. Сейчас система работает на английском и русском языках, и активно используется во многих проектах. Однако изначально сама технология была задумана как многоязычная, поэтому мы много внимания уделяем и «обучению» другим иностранным языкам. И тут можно провести некоторую аналогию с человеком: после изучения одного иностранного языка другие даются легче. В частности, сейчас мы добавляем в технологию немецкий язык и параллельно исследуем возможности рынка – есть ли интерес к этому направлению. Сразу оговоримся – пока речь о продуктах, поддерживающих немецкий, не идёт, мы в самом начале пути.

Читать дальше →

+29

ContentAI_Team Sep 16 2015 at 22:21

ABBYY помогает в оцифровке редких изданий Сахалинской библиотеки

3 min

9.6K

Content AI corporate blogImage processing*

Сегодня мы расскажем вам, как помогали оцифровывать Сахалинскую областную универсальную научную библиотеку. Переводить библиотеки в электронный вид мы начали довольно давно. Постоянные читатели блога наверняка помнят обзорный пост по нашим библиотечным проектам, а также топики, посвященные оцифровке библиотеки Хартли и созданию каталога Королевского ботанического сада Эдинбурга. Итак, поехали.

Сахалинская областная универсальная научная библиотека существует уже 67 лет и остается одним из основных информационных, культурных и научно-исследовательских центров Дальнего Востока. Сегодня в библиотеке хранится около 617 тысяч различных изданий.

Читать дальше →

+26

ContentAI_Team May 29 2015 at 12:43

Как крупные компании организуют Общий центр обслуживания клиентов (ОЦО)

5 min

9.4K

Content AI corporate blog

Современный мир требует от бизнеса быстрого взаимодействия с клиентами. Чтобы обслужить как можно больше пользователей, компании стараются снимать нагрузку с фронт-офисов, перенося обработку документов в бэк-офисы. Для этого бизнес создает центры – shared services centers или общие центры обслуживания, где происходит обработка и проверка документов и данных, которые пришли из офисов, взаимодействующих с клиентами.

Такой же подход к организации обработки документов применяют и наши заказчики. Продукты ABBYY позволяют реализовать различные сценарии обработки документов, при этом учитывая особенности бизнес-процессов компании. Мы расскажем о нескольких моделях общих центров обслуживания клиентов, реализованных с помощью ABBYY FlexiCapture, – решения, которое позволяет извлекать данные из структурированных и неструктурированных документов и сохранять их в информационных системах компаний.

Читать дальше →

+14

ContentAI_Team Oct 1 2014 at 15:10

История про realloc (и лень)

9 min

47K

Content AI corporate blogProgramming*C*

Translation

Простой макрос

Все началось с простого макроса: (приблизительный код)

#define ADD_BYTE(C) do {            \
  if (offset == capa) {             \
    if (capa < 16) {                \
      capa = 16;                    \
    } else {                        \
      capa <<= 1;                   \
    }                               \
    buffer = realloc(buffer, capa); \
    assert(buffer != NULL);         \
  }                                 \
  buffer[offset++] = (C);           \
} while(0)

Для тех, кто не знаком с языком программирования C, поясню: этот простой макрос добавляет байт «C» в динамически выделяемый буфер (buffer), размер которого (в байтах) равен capa. Следующая позиция для записи определяется при помощи параметра offset. При каждом заполнении буфера происходит двукратное увеличение его объема (начиная с минимального размера в 16 байт).

Мы добавляем байты в динамический буфер — это одна из наиболее распространенных операций практически в любой программе (для работы со строками, массивами и т. п.).

Но как понять, насколько эффективна стратегия перераспределения?

Читать дальше →

+101

3