Pull to refresh
137
0

Пользователь

Send message

Secret Santa, квесты, квиз и каток – как мы встречали ABBYY New Year

Reading time4 min
Views4K
Скоро новый год, и, чтобы поднять всем праздничное настроение, мы решили запилить этот пост и показать, что творилось в стенах ABBYY последние пару месяцев. Хотите узнать, как выглядят аббишные новогодние эльфы, какие тайны сокрыты в посылках Секретного Санты из Австралии, сколько килограммов оливье мы съели за один день и чем можно разнообразить катание на льду в -13 градусов? Тогда поехали!

Под катом много фоток (~ 5 Мб)
Читать дальше →
Total votes 20: ↑19 and ↓1+18
Comments0

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Reading time11 min
Views7.2K
Недавно системный аналитик технологического департамента компании ABBYY Егор Будников выступил в «Яндексе» на конференции «Data & Science: закон и делопроизводство». Он рассказал, как работает компьютерное зрение, происходит обработка текстов, на что важно обращать внимание при извлечении информации из юридических документов и о многом другом.


— У компании могут быть развитые методологии анализа данных и электронный документооборот, при этом от клиентов или от соседних отделов в компанию могут приходить документы, созданные в Word, при этом распечатанные, отксерокопированные, отсканированные и принесенные на флешке.

Что же делать с документооборотом, который есть сейчас, с «грязными» документами, с бумажным хранением, вплоть до того, что документы могут храниться до 70 лет, прежде чем они отсканированы и должны быть распознаны?
Читать дальше →
Total votes 16: ↑16 and ↓0+16
Comments1

Как я стал разработчиком в ABBYY

Reading time10 min
Views7.9K
В этот замечательный 256-ой день года поздравляем всех причастных c Днем программиста! И не только тех, кто работает по специальности, но и всех, кто увлекается программированием. По данным исследователей из Evans Data Corporation, в мире 23 миллиона разработчиков. И, наверное, совсем не важно, много это или мало хотя это сопоставимо с населением всей Австралии. Главное, что люди этой профессии каждый день делают вклад в яркое и технологичное будущее.

Желаем всем девелоперам значимых и интересных проектов, побольше хорошего кода, успешных релизов и благодарных клиентов, и, конечно же, отлично отметить свой День, устроив веселый праздник! И по такому поводу наши разработчики рассказывают, как проходит их рабочий день в ABBYY, какими проектами они занимаются и чем увлекаются. Добро пожаловать под кат!
Читать дальше →
Total votes 25: ↑23 and ↓2+21
Comments12

Чем на самом деле занимаются стажеры в ABBYY

Reading time9 min
Views5.2K
ABBYY уделяет большое внимание подготовке квалифицированных IT-специалистов и развитию их способностей. Мы считаем, что уже с первых курсов института очень важно привлекать ребят к решению реальных задач в областях OCR, машинного обучения, NLP и к участию в существующих проектах, потому что теория не возможна без практики. Поэтому мы приглашаем талантливых студентов МФТИ, МГУ, ВШЭ и других ВУЗов к нам на стажировки. Это может быть практика не только на лето, но на более длительное время. В любом случае у студента в ABBYY есть хорошая возможность проявить себя, поучаствовать в работе над реальными продуктами, получить новые знания, полезные навыки и присоединиться к нашей команде. Ребята всегда могут договориться со своими наставниками и совмещать практику с учебой. В этом посте мы расскажем, как проходят стажировки в ABBYY и чем на самом деле занимаются здесь студенты ;)
Читать дальше →
Total votes 20: ↑20 and ↓0+20
Comments2

Сколько жизней у электролома, старой одежды и крышечек от бутылок?

Reading time6 min
Views8.2K
image

Мы в ABBYY стараемся приносить пользу не только бизнесу и людям, но и нашей планете. Уже давно в офисе и вне его следуем нескольким правилам, которые помогают беречь природу: экономнее использовать бумагу, сдавать старые батарейки и энергосберегающие лампочки, участвовать в субботниках. Наше дело живет и развивается: сотрудники предлагают новые идеи, а компания их подхватывает и помогает претворять в жизнь. В этом посте мы расскажем, какие эко-инициативы есть в ABBYY и какие результаты это приносит. А еще поделимся с вами информацией, где вы можете сдать разные материалы на переработку.
Читать дальше →
Total votes 52: ↑49 and ↓3+46
Comments16

Как проходит набор на кафедры ABBYY в МФТИ

Reading time6 min
Views9.3K
В этом году кафедре ABBYY на факультете инноваций и высоких технологий (ФИВТ) Московского физико-технического института исполнилось 12 лет. За это время мы подготовили более 240 квалифицированных IT-специалистов, почти сотня из которых работают в компании. Наши разработчики создают уникальные технологии интеллектуальной обработки информации, которыми пользуются более 50 миллионов пользователей свыше чем в 200 странах мира. Сохраняя традицию, в апреле мы провели набор студентов на следующий, 2019 год. Сегодня мы расскажем о том, как ищем талантливых ребят, чему их учим и почему они хотят работать в нашей компании.

image
Читать дальше →
Total votes 22: ↑20 and ↓2+18
Comments5

Открываем историю Большого театра. Часть первая

Reading time7 min
Views4.6K
image

Вы когда-нибудь собирали театральные программки? Если да, то, наверное, в вашей коллекции их десятки, а может, наберется и сотня. А теперь представьте, что в вашем распоряжении 120 тысяч программок, 48 тысяч афиш и 100 тысяч исторических фотографий. Столько бумажных документов сохранил с середины XIX века Большой театр. Самые древние и ценные из них уже пожелтели и стали ветхими, а на поиск информации в театральном архиве уходили часы. Чтобы сохранить эти сокровища, сотрудники театрального музея начали вручную переводить документы в электронный вид, но оказалось, что на это могут уйти годы.

Поэтому в сентябре 2016 года вместе с Большим театром и при активной поддержке Феклы Толстой, праправнучки Льва Николаевича Толстого, мы запустили краудсорсинговый проект по оцифровке истории главного театра страны. В этом посте мы расскажем о подробностях первого этапа проекта и о его технических деталях: как мы оцифровывали уникальные документы с помощью ABBYY FineReader и как волонтеры помогали проверять результаты распознавания.
Читать дальше →
Total votes 31: ↑31 and ↓0+31
Comments8

Как мы помогали оцифровать вековую историю наблюдений за погодой в Бразилии

Reading time5 min
Views6.1K
image

Ученые Национального института метеорологии Бразилии с 1909 года записывают всю информацию о погодных условиях и изменениях климата в стране. Исследователи анализируют эти данные и строят на их основе прогнозы. За сто лет специалисты собрали более 3 миллионов страниц записей о погоде в знойном Рио-де-Жанейро, на грохочущих водопадах Игуасу, в сумрачных лесах Амазонки и в туманном Сан-Паулу. Но вся информация хранилась в бумажном виде. С каждым годом ее копилось все больше, а старые записи приходили в негодность. Исследователям становилось все сложнее работать с документами.

Сегодня мы расскажем о том, как с помощью нашей технологии ABBYY FlexiCapture Engine Национальный институт метеорологии Бразилии оцифровал архив наблюдений за погодой, который ученые собирали более 100 лет.
Читать дальше →
Total votes 35: ↑34 and ↓1+33
Comments2

«Предъявите документы» или что поможет распознать паспорт

Reading time6 min
Views13K
Мы уже говорили о распознавании текста из видеопотока, его преимуществах по сравнению с обработкой фотографии и сценариях, где это особенно полезно.

Сегодня мы запускаем ABBYY Real-Time Recognition SDK для мобильных платформ Android и iOS. Поэтому хотим поговорить об особенностях распознавания данных на мобильном устройстве, а именно, об извлечении информации в видеопотоке на примере одного из самых сложных документов – гражданского паспорта.

Всем нам часто приходится использовать свои паспортные данные. Паспорт нужен для регистрации в мобильном банке или платёжной системе, покупки билетов, аренды машины. Сейчас многие используют для этих задач смартфон. Набирать информацию на маленькой клавиатуре мобильного устройства очень неудобно. Особенно неприятное поле для ввода – это данные о месте выдачи паспорта: обычно они занимают пару-тройку строк и содержат множество аббревиатур.
Читать дальше →
Total votes 42: ↑35 and ↓7+28
Comments17

Мобильный OCR. Как всё начиналось (часть 2)

Reading time6 min
Views5.9K
В предыдущем посте мы начали рассказывать, как OCR-технологии «переезжали» с настольных компьютеров в смартфоны – а началось всё с приложения для сканирования визиток Business Card Reader. Но сканирование визиток – это только один сценарий, где нужно мобильное распознавание. О том, как решались другие задачи хотелки пользователей, – читайте ниже.

Как мы уже говорили, перенос технологии распознавания на смартфоны связан с кучей ограничений и сложностей. Главной была и остаётся ресурсоёмкость технологии – невозможно перенести ее в мобильное устройство как есть. Но у нас уже с 2007 года был готовый инструментарий разработчика ABBYY Mobile OCR Engine, который позволял на мобильном оцифровать изображение и выдать результат в формате TXT без сохранения форматирования. И для начала в 2011 году мы решили воплотить в жизнь небольшие пользовательские сценарии, в которых такое «элементарное» распознавание вполне подходило.
Читать дальше →
Total votes 27: ↑27 and ↓0+27
Comments3

Lingvo API: словари ABBYY в облаке Windows Azure

Reading time6 min
Views8.2K
Думаем, читателям нашего блога не нужно рассказывать подробно, что такое словарь ABBYY Lingvo. C этого продукта началась компания ABBYY 27 лет назад. Сначала словарь можно было использовать только на компьютерах, потом появились мобильные приложения и онлайн-сервисы. Недавно мы открыли доступ к словарям Lingvo для сторонних разработчиков на сайте https://developers.lingvolive.com – пока в бесплатном бета режиме.

Под катом мы подробнее расскажем о том, как мы работали над этим сервисом и как его можно использовать.
Читать дальше →
Total votes 22: ↑22 and ↓0+22
Comments9

Распознавание текста из видеопотока: будущее мобильного OCR

Reading time6 min
Views19K
В последнее время мы довольно часто рассказываем в блоге о наших технологиях распознавания, которые работают на мобильных устройствах и распознают фотографии, сделанные камерами этих устройств. Сейчас мы движемся дальше и учимся работать не с фотографиями, а с видеопотоком. И сегодня мы хотим рассказать вам чуть подробней, что это означает и где в повседневной жизни может пригодиться распознавание текста из видеопотока.

Кстати, сейчас мы расширяем команду, занимающуюся созданием продукта для распознавания текста из видеопотока на смартфонах. Если вы Android или iOS-разработчик с опытом написания высоконагруженных приложений и у вас есть желание разрабатывать новые технологии вместе с нами, спешите откликнуться на вакансию.

О видеопотоке и распознавании


Для начала скажем, с каким именно видеопотоком мы работаем.
Читать дальше →
Total votes 31: ↑29 and ↓2+27
Comments15

Мобильный OCR. Как всё начиналось

Reading time6 min
Views11K
Перенос OCR-технологий (технологий оптического распознавания) с ПК на мобильные устройства обсуждался, пожалуй, с момента их появления. Ещё в конце 90-х, когда «умные» устройства можно было пересчитать по пальцам, мы задумывались о создании программы, извлекающей данные из визитной карточки, – Business Card Reader, или сокращённо BCR. Эта идея, что называется, витала в воздухе, но ни возможности камер, ни вычислительная мощность устройств не позволяли тогда реализовать её. Выбирать особо не приходилось: либо обычный телефон с хорошей камерой «для обычных людей», либо продвинутый бизнес-наладонник «для профессионалов» (а зачем вообще бизнесменам нужны камеры на устройстве — себя, что ли, фотографировать?)

Но время шло, запросы людей росли, и худо-бедно приличные камеры начали появляться во всех устройствах. Как только возможности устройств «подтянулись», разработчики портировали нашу технологию распознавания, учитывая массу ограничений, свойственных мобильным операционным системам: размер библиотек (попробуй впихнуть OCR с базой изображений в 500 килобайт на носителе), скорость работы на малопроизводительных процессорах. Ещё пришлось учитывать, что распознавать предстояло не идеальные изображения со сканера, а фотографии, сделанные зачастую с перекосами, в условиях плохого освещения и т. п.
Читать дальше →
Total votes 27: ↑27 and ↓0+27
Comments0

Продвигаем мобильные приложения в AppStore и Google Play: как правильно использовать методику featuring

Reading time5 min
Views16K
В этой статье мы бы хотели обратить внимание разработчиков приложений на такой неоднозначный механизм продвижения, как фичеринг в магазинах мобильных приложений (AppStore и Google Play). Да, нашему редактору тоже не нравится слово «фичеринг» (featuring), но адекватного русского аналога нет, поэтому будем использовать кальку с английского.

Apple или Google featuring – это методика, когда сам Apple или Google выбирает приложения, соответствующие текущим маркетинговым приоритетам этих компаний. Такие приложения выделяются на определенный период с помощью внутренних маркетинговых инструментов App Store/Google Play (прежде всего, это размещение баннера на главной странице App Store/Google Play, или размещение в тематичиской подборке на «видном месте»).
Читать дальше →
Total votes 19: ↑16 and ↓3+13
Comments2

Как камерой смартфона сделать фотографии, пригодные для OCR, или кое-что об ABBYY Mobile Imaging SDK

Reading time5 min
Views13K
Количество программ — мобильных клиентов, привязанных к различным системам автоматизации деятельности предприятий, постоянно растёт. Согласно исследованию компании IDC, к 2016 году оно увеличится в 4 раза (по сравнению с 2014 годом). Конечно, ABBYY не могла остаться в стороне от этих тенденций, и у нас есть мобильные продукты, ориентированные на корпоративных пользователей. Об одном из них – ABBYY Mobile Imaging SDK (MI SDK) – мы ещё ни разу не рассказывали в блоге, исправляемся.

Наши пользователи привыкли, что мобильные продукты ABBYY – это либо про словари, либо про распознавание. Сразу оговоримся – в ABBYY Mobile Imaging SDK нет ни того, ни другого. Спрашивается, почему нам понадобилось выпускать такое приложение? Ответ – конечно, чтобы продать OCR ещё большему числу клиентов :). Ведь ABBYY Mobile Imaging SDK обычно используется в связке с нашими «корпоративными» решениями для распознавания данных (например, ABBYY Recognition Server) или извлечения данных (например, ABBYY FlexiCapture). Этот небольшой продукт призван помочь нашим «большим» решениям работать лучше, распознавать точнее.

Жизнь изменилась, и если раньше основным устройством, с которого мы получали изображение для распознавания, был сканер, то теперь его всё чаще заменяет мобильный телефон. Чем он отличается от сканера? Конечно, тем, что получить с него изображение хорошего качества гораздо сложнее (разумеется, в данном случае хорошее качество = достаточное для того, чтобы наши OCR-технологии могли распознать текст на фото).
Читать дальше →
Total votes 25: ↑24 and ↓1+23
Comments9

«Задачник» для ABBYY Compreno

Reading time9 min
Views9.1K
Привет! В прошлый раз мы рассказали о том, как устроена технология понимания и анализа текстов на естественных языках ABBYY Compreno. Многие спрашивают нас – сколько уже можно разрабатывать технологию и где уже, наконец, продукты на базе Compreno. Как и обещали, сегодняшний материал посвящен продуктам и тому, какие именно задачи бизнеса они решают уже сегодня.

На основе нашей технологии можно создать ряд решений для разного типа задач. Но фокус нашего внимания сегодня – это корпоративный рынок, компании, которым необходимо в сжатые сроки получать значимую информацию из массивов данных. Это направление перспективно для нас и с точки зрения востребованности таких технологий клиентами, и с точки зрения скорейшего возврата наших инвестиций в технологию.

Сразу отметим, что решения на базе технологии Compreno – это аппликационные или технологические модули, которые встраиваются в любые решения, добавляя им возможности.
Читать дальше →
Total votes 20: ↑20 and ↓0+20
Comments12

Интенсив по немецкому: как ABBYY Compreno учит новые языки

Reading time11 min
Views9.3K
Как вы знаете, ABBYY занимается разработкой технологии анализа естественных языков Compreno. Сейчас система работает на английском и русском языках, и активно используется во многих проектах. Однако изначально сама технология была задумана как многоязычная, поэтому мы много внимания уделяем и «обучению» другим иностранным языкам. И тут можно провести некоторую аналогию с человеком: после изучения одного иностранного языка другие даются легче. В частности, сейчас мы добавляем в технологию немецкий язык и параллельно исследуем возможности рынка – есть ли интерес к этому направлению. Сразу оговоримся – пока речь о продуктах, поддерживающих немецкий, не идёт, мы в самом начале пути.
Читать дальше →
Total votes 29: ↑29 and ↓0+29
Comments13

ABBYY помогает в оцифровке редких изданий Сахалинской библиотеки

Reading time3 min
Views9.6K
Сегодня мы расскажем вам, как помогали оцифровывать Сахалинскую областную универсальную научную библиотеку. Переводить библиотеки в электронный вид мы начали довольно давно. Постоянные читатели блога наверняка помнят обзорный пост по нашим библиотечным проектам, а также топики, посвященные оцифровке библиотеки Хартли и созданию каталога Королевского ботанического сада Эдинбурга. Итак, поехали.

Сахалинская областная универсальная научная библиотека существует уже 67 лет и остается одним из основных информационных, культурных и научно-исследовательских центров Дальнего Востока. Сегодня в библиотеке хранится около 617 тысяч различных изданий.
Читать дальше →
Total votes 26: ↑26 and ↓0+26
Comments12

Как крупные компании организуют Общий центр обслуживания клиентов (ОЦО)

Reading time5 min
Views9.4K
Современный мир требует от бизнеса быстрого взаимодействия с клиентами. Чтобы обслужить как можно больше пользователей, компании стараются снимать нагрузку с фронт-офисов, перенося обработку документов в бэк-офисы. Для этого бизнес создает центры – shared services centers или общие центры обслуживания, где происходит обработка и проверка документов и данных, которые пришли из офисов, взаимодействующих с клиентами.

Такой же подход к организации обработки документов применяют и наши заказчики. Продукты ABBYY позволяют реализовать различные сценарии обработки документов, при этом учитывая особенности бизнес-процессов компании. Мы расскажем о нескольких моделях общих центров обслуживания клиентов, реализованных с помощью ABBYY FlexiCapture, – решения, которое позволяет извлекать данные из структурированных и неструктурированных документов и сохранять их в информационных системах компаний.
Читать дальше →
Total votes 16: ↑15 and ↓1+14
Comments0

История про realloc (и лень)

Reading time9 min
Views47K

Простой макрос


Все началось с простого макроса: (приблизительный код)
#define ADD_BYTE(C) do {            \
  if (offset == capa) {             \
    if (capa < 16) {                \
      capa = 16;                    \
    } else {                        \
      capa <<= 1;                   \
    }                               \
    buffer = realloc(buffer, capa); \
    assert(buffer != NULL);         \
  }                                 \
  buffer[offset++] = (C);           \
} while(0)


Для тех, кто не знаком с языком программирования C, поясню: этот простой макрос добавляет байт «C» в динамически выделяемый буфер (buffer), размер которого (в байтах) равен capa. Следующая позиция для записи определяется при помощи параметра offset. При каждом заполнении буфера происходит двукратное увеличение его объема (начиная с минимального размера в 16 байт).

Мы добавляем байты в динамический буфер — это одна из наиболее распространенных операций практически в любой программе (для работы со строками, массивами и т. п.).

Но как понять, насколько эффективна стратегия перераспределения?
Читать дальше →
Total votes 103: ↑102 and ↓1+101
Comments51

Information

Rating
Does not participate
Location
Россия
Registered
Activity