• Как технологии ABBYY помогают улучшить работу систем обнаружения утечек данных

      Несмотря на прогнозы о скором наступлении светлого безбумажного будущего, объём бумажных документов всё ещё огромен. Часть из них сканируется и продолжает свою «жизнь» уже в электронном варианте – но только в виде изображений. В среднем в организациях объем сканированных копий составляет 30% от всех документов, которые хранятся в электронном виде. В госсекторе он достигает 41,5%, в ритейле – 17%, в сфере услуг – 23%, в банках и телеком-сфере приближается к 45%. Когда сканы документов лежат себе в нужной папке или делают работу, для которой они предназначены, – это хорошо. Плохо, когда кто-то пытается использовать данные из этих сканов в мошеннических схемах или как-то иначе злоупотреблять ими. Чтобы конфиденциальная информация не «утекла», в информационные системы компаний устанавливают DLP – системы предотвращения утечек.

      Сегодня мы расскажем, как в одну из таких программ – Контур информационной безопасности SearchInform – был интегрирован SDK-продукт ABBYY FineReader Engine и что из этого получилось.
      Читать дальше →
      • +32
      • 8.4k
      • 7
    • Как мы помогали проводить медицинскую перепись в Республике Бангладеш



        Бангладеш – государство в юго-восточной Азии, занимает восьмое место в мире по численности населения (Россия, по данным Википедии, сейчас на 9 месте), граничит с Индией и Бирмой. Подавляющее большинство бангладешцев – сельские жители (135 миллионов из 160), и условия их жизни, мягко говоря, далеки от идеальных. Не во всех домохозяйствах есть доступ к питьевой воде, санитарные условия оставляют желать лучшего.

        Сегодняшний наш материал о том, как при помощи нашего ABBYY FlexiCapture министерство здравоохранения Бангладеш обработало результаты медицинской переписи — такая перепись нужна, чтобы принимать правильные стратегические решения в области здравоохранения.

        Читать дальше →
      • Как мы помогли крупному бразильскому банку справиться с последствиями деноминации

          Новейшая история денежного обращения в Бразилии – это череда деноминаций, первая из которых была проведена в 1942 году, а последняя – в 1994 году. К 1994 году национальная валюта Бразилии – крузейро – была настолько слабой, что в магазинах цены назначались в условных единицах, рядом с цифрами писали слово “real” – «настоящая» цена. В 1994 от лишних нулей решили избавиться, а слово “real”, к которому все привыкли, стало названием новой валюты – реал (впрочем, точно так же называлась денежная единица Бразилии до 1942 года).

          Сегодня мы расскажем, как один из наших продуктов – ABBYY FineReader Engine помог крупнейшему частному бразильскому банку справиться с последствиями деноминации. Не представляете, как такое может быть? Добро пожаловать под кат.
          Читать дальше →
        • ABBYY: экологичность++. Четыре года спустя

            Несколько лет назад в нашем блоге был пост об экологических инициативах, которые мы придумали и сделали у нас в ABBYY. Поскольку сотрудники у нас неугомонные инициативные всё время придумывают что-то новое, с тех пор возникли новые эко-проекты, и мы решили вернуться к этой теме. Если у вас в офисе тоже заботятся об экологии, давайте обмениваться опытом. Расскажите в комментариях, как у вас. Кстати, не знаете ли, когда у нас все-таки начнут перерабатывать использованные батарейки?
            Читать дальше →
          • Распознавание бирманского языка: теперь мы умеем даже это



              Может, кому-то из вас покажется это удивительным, но текст, аналогичный тому, что вы видите на картинке (а это бирманский язык) тоже можно распознать. Некоторое время назад по интернету ходил забавный комикс про различие азиатских языков, но он слишком неприличный, чтобы публиковать его в корпоративном блоге :) О том, зачем нам понадобилось распознавать бирманский и с какими проблемами пришлось при этом столкнуться, – под катом.
              Читать дальше →
            • ABBYY помогает стартапам



                Сегодня мы хотим рассказать вам, что решили принять участие в проекте «Хабрахабра» «Помощь стартапам». Суть затеи в том, что IT-cтартапы с доходом не больше 20 млн рублей в год, прошедшие наш отбор, смогут получить бесплатный доступ к нашим технологиям распознавания, а победители проекта — дополнительно и маркетинговую поддержку. Все подробности читайте здесь, заявки принимаются до 22 ноября 2015 года.
              • Как ABBYY Cloud OCR SDK помогает ловить дешёвые авиабилеты

                  Как знают наши постоянные читатели, некоторое время назад у нас появился ABBYY Cloud OCR SDK, сервис распознавания для разработчиков, «облачный брат» ABBYY FineReader Engine. Сервис работает настолько просто, что вашему редактору (тм) редко удаётся уговорить разработчиков написать про него пост на Хабр – технических подробностей не хватает на целую статью. Вот разве что был самый первый пост о бета-тестировании.

                  Сегодня мы расскажем, как использует сервис один из наших клиентов — Aviasales. Это один из крупнейших поисковиков авиабилетов в мире (на зарубежных рынках компания работает под именем JetRadar), в месяц им пользуется около 10 миллионов человек, а количество поисковых сессий в сутки приближается к миллиону. Уже довольно давно Aviasales, как и любой уважающий себя сервис, выпустил мобильные приложения для поиска и покупки авиабилетов.
                  Читать дальше →
                • «Весь Толстой в один клик»: как мы это делали



                    Некоторое время назад мы организовали оцифровку 90-томного собрания сочинений Льва Николаевича Толстого, в этом нам помогали более 3 тысяч волонтеров. Публикаций об этом краудсорсинговом проекте было много, но ни одна из них не касалась технической части – именно о ней и пойдет речь в этой статье.

                    Итак, перед нами стояла задача перевести в форматы электронных книг (ePub, fb2, html, mobi), а также в PDF с текстовым слоем самое полное собрание сочинений Толстого. Оно выпускалось в течение 30 лет: с 1928 по 1958 год, каждый том выходил тиражом 5 тыс. экземпляров. До выпуска электронного издания это собрание сочинений не переиздавалось и уже стало труднодоступным раритетом. В 90-томник входят: художественные произведения (1–45 тома), дневники и записные книжки (46–58 тома), письма (59–90 тома). Был ещё секретный 91-й том, который состоял целиком из указателей и поэтому доставил нашим редакторам много бессонных ночей поводов проявить профессионализм. Конечно, многие творения классика существовали в электронном виде и раньше, но далеко не все.
                    Читать дальше →
                  • Открыта регистрация на конференцию по компьютерной лингвистике «Диалог»

                      С 27 по 30 мая в Российском государственном гуманитарном университете (РГГУ) пройдет международная научная конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы писали здесь .

                      Основные темы конференции этого года:

                      Анализ текстов социальных медиа. С одной стороны, лингвистов интересует живой динамичный язык социальных сетей, а с другой, эти сети порождают огромное количество актуальной информации, в том числе – оценочной, которая интересует всех, от политиков до создателей фотокамер и кинофильмов.

                      Проблемы связывания различных лингвистических ресурсов, созданных для разных языков, в единое информационное целое (т.н. Linked Data).

                      Поскольку «Диалог» – международная конференция, традиционно в ней принимают участие специалисты по компьютерной лингвистике мирового масштаба
                      Читать дальше →
                    • Тестирование лингвистических технологий: соревнования по автоматическому разрешению кореферентности и анафоры

                        Итак, как и обещали, рассказываем: недавно были подведены итоги соревнований по автоматическому разрешению анафоры и кореферентности. Такие соревнования для русского языка проводились впервые а организовала их команда из ВШЭ-МГУ.

                        Мы уверены, что среди наших читателей много лингвистов, которые и без нас отлично знают, что такое анафора и кореференция, остальным рассказываем. Один и тот же объект реального мира может упоминаться в тексте несколько раз разными способами. «Вася – миллионер, он хочет купить остров». В этой фразе местоимение «он» и существительное «Вася» относятся к одному человеку (т.е. имеют одного и того же референта). Если система анализа текста понимает, что «он» – это и есть «Вася», значит, она умеет разрешать анафору.

                        Сложнее, когда Вася появляется в тексте еще несколько раз – например, как «Иванов», «клиент», «глава компании» или «футболист». Тогда речь идет уже не о местоименной анафоре, а о кореферентности именных групп. Задача системы в этом случае – объединить все слова, за которыми скрывается этот человек, в одну кореферентную цепочку. Приведем несколько примеров, а заодно покажем, как это делает наша технология Compreno.
                        Читать дальше →
                      • Инженеры и лингвисты снова вступили в Диалог

                          В начале июня в подмосковном «Бекасово» состоялась международная конференция по компьютерной лингвистике «Диалог», которую уже много лет делает наша компания. О том, что представляет собой «Диалог», мы писали здесь, поэтому не будем повторяться, а расскажем, что было нового.

                          Пожалуй, одно из самых важных для нас событий – сборник научных трудов «Диалога» наконец-то будет индексироваться SCOPUS, самой крупной международной системой цитирования. Эта система – не просто индекс научных статей, это своего рода авторитетное подтверждение научной значимости издания, входящего в SCOPUS. Почему это важно? Для подтверждения своего статуса все ученые должны иметь набор публикаций в признанных авторитетными изданиях. Причем для подтверждения собственного научного авторитета за рубежом и продвижения собственных идей и разработок важно иметь публикации в источниках, которые признаны именно международными индексами, типа SCOPUS. Кроме того, войдя в SCOPUS издания автоматически попадают в список ВАК (Высшей аттестационной комиссии). Это дает возможность российским ученым иметь публикации, признанные авторитетными как в мире, так и в России. Скопусовский статус сборника Диалога, придает конференции более высокий статус и мы рады, что теперь участие в «Диалоге» будет придавать больше «веса» научным трудам наших докладчиков.

                          В этом году одной из доминант «Диалога» была вычислительная семантика, ей был посвящен первый день конференции. Эта область компьютерной лингвистики изучает различные способы компьютерного моделирования значений слов, фраз, предложений, целых текстов.
                          Читать дальше →
                          • +30
                          • 6.5k
                          • 6
                        • Вышла первая версия модуля интеграции Cppcheck в Visual Studio с открытым кодом

                            Здравствуйте, с вами снова говорит редактор блога ABBYY. На днях ко мне пришли разработчики и принесли с необъятных просторов ГитХаба новость, которая не имеет прямого отношения к нашей компании, но, по их словам, порадует всех наших разработчиков, а заодно и многих не наших. Коллегам они уже рассказали на кухне, для остальных — этот пост.

                            Продолжаем стихийный сериал о статическом анализе кода на C++ (предыдущие серии: один, два, три, четыре, пять, шесть, семь). Бесплатный анализатор с открытым кодом Cppcheck до недавнего времени отличался фатальным недостатком – не было модуля для его интеграции в Visual Studio.
                            NO MOAR!
                          • ЕСМ-системы: можно ли осваивать играючи, или пять копеек в защиту геймификации

                              Тема геймификации поднималась на Хабре уже неоднократно. Высказывались разные мнения о том, как ее правильно понимать, где и как она применяется и вообще – стоящая ли это затея. Наши коллеги из проекта DOCFLOW взялись выяснить, может ли геймификация помочь простым пользователям осваивать системы электронного документооборота (как показывает практика, обычно простые пользователи в компаниях не любят изучать новое сложное ПО, а уж если изучили, то используют далеко не все его возможности). Этой теме был посвящен недавний вебинар «Корпоративные игры – возможности и сложности геймификации ЕСМ-систем».

                              Геймификация – это применение подходов, характерных для компьютерных игр, в неигровых процессах с целью привлечения пользователей и потребителей, повышения их вовлечённости в решение прикладных задач, использование продуктов, услуг.

                              Чтобы понять, работает ли это на практике, на вебинар пригласили эксперта из компании-разработчика СЭД, которая недавно провела на своих сотрудниках эксперимент, связанный с геймификацией. В чём он заключался?

                              Читать дальше →
                            • Образовательные проекты в ABBYY: что нового?

                                Начало нового учебного года – хороший повод. Так подумал ваш редактор и отправился в отдел, который у нас в ABBYY занимается образовательными проектами – узнать, что интересного произошло в последнее время и что планируется на будущее.

                                Прежде всего, мне рассказали, что в июле прошёл очередной ABBYY Cup – олимпиада по спортивному программированию, которую мы делаем уже в третий раз. В этом году мы завоевали почти весь мир – только африканским программистам в следующем году стоит выступить более массово :)

                                Организаторы отмечают более высокий, по сравнению с прошлогодним, уровень конкурсантов – в ABBYY Cup-2013 участвовали звёзды спортивного программирования мировой величины.
                                Читать дальше →
                              • Enterprise-версия программы FizzBuzz с правильной архитектурой

                                  Здравствуй, хабрачитатель. Я – редактор блога ABBYY. Сегодня утром ко мне пришли разработчики, принесли вот этот текст и попросили напечатать. Я не смогла придумать, почему этот текст должен появиться в корпоративном блоге, но разработчики говорят, что он смешной и принесёт радость людям. Так тому и быть!

                                  Устали от полных кривизны и костылей сложных в поддержке программ? Постоянно слышите о правильной архитектуре, но так и не видели ее? Встречайте на Гитхабе Enterprise-версию программы FizzBuzz, показывающую, как должно выглядеть серьезное решение с правильной архитектурой.
                                  Читать дальше →
                                • ABBYY FineScanner: iPhone вместо сканера


                                    Недавно наш мобильный департамент выпустил новое приложение для iPhone – называется ABBYY FineScanner. Программа умеет делать очень простую, но нужную вещь – фотографировать документы и обрабатывать фотографии так, чтобы получившиеся электронные копии (по сути – сканы) были удобны для работы – чтения, печати или хранения/пересылки в удобочитаемом виде. Это может пригодиться, если вам, например, нужно переслать скан нескольких страниц загранпаспорта в турагентство или загрузить в Dropbox расписание уроков ребенка – чтобы все члены семьи были в курсе.

                                    Вы спросите, почему бы это не делать просто фотокамерой iPhone? Ответ – потому что она не умеет находить края страницы, исправлять трапециевидные искажения и улучшать качество изображения. Кстати, объединять несколько фотографий в многостраничные PDF-файлы она тоже не может. О том, как всё это делает FineScanner, под катом.
                                    Читать дальше →
                                  • Как мы помогали переписывать население Кувейта

                                      В этом выпуске:
                                      • IT-интегратор, переквалифицировавшийся из HR-агентства
                                      • Люди в длинных одеждах в офисе Аби*
                                      • 6-летний водитель самосвала
                                      • Скандалы, интриги, расследования

                                      А если серьёзно, то расскажем в общих чертах о переписи в стране с особым восточным колоритом.

                                      Как знают постоянные читатели нашего блога, мы делаем не только Lingvo и FineReader, но и программы, которые извлекают данные из форм. Некоторое время назад их стали активно использовать для обработки переписей населения: мы помогали считать переписные листы в Греции, Литве, Саудовской Аравии, Таджикистане и Кувейте. В Кувейте проект получился, пожалуй, самым интересным – о нем мы и расскажем под катом.
                                      * Реальных фото не сохранилось, а выложенное воспроизвели по памяти
                                      Читать дальше →
                                    • Открыта регистрация на конференцию по компьютерной лингвистике «Диалог»

                                        image30 мая – 3 июня в подмосковном пансионате «Бекасово» пройдет крупнейшая российская конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы подробно писали здесь.

                                        В этом году главными темами станут:

                                        Оценка тональности текста (sentiment analysis). Для решения этой проблемы (как понять отношение автора к тому, что он описывает) используются как методы, основанные на лингвистических правилах, так и методы компьютерного обучения на больших тестовых коллекциях документов (в которых эксперты вручную расставили оценки тональности, а компьютер пытается разобраться, какие именно свойста тестового текста связаны с оценкой, чтобы на их основе оценивать новые тексты). Думаю, многие сталкивались с «правильными» оценками тональности статей в российских системах мониторинга СМИ (не будем называть имён), так что тема очень актуальная.
                                        Что ещё?
                                      • ABBYY Airlines — как это было

                                          Мы помним, что на Хабре не очень любят посты про корпоративные праздники, поэтому коротенечко. Вчера мы поздравляли наших мужчин с 23 февраля и придумали для этого целую авиакомпанию — ABBYY Airlines. Ну и журнальчик выпустили. Подумали — вам тоже понравится (обложка под катом). С праздником!
                                          Читать дальше →
                                        • Сегментно-статистический подход к интернету как корпусу — новый семинар в серии ABBYY Open

                                            imageМы продолжаем серию семинаров по компьютерной лингвистике ABBYY Open. Очередное мероприятие пройдет 31 января в 17.00 в московском офисе ABBYY. Тема – «Сегментно-статистический подход к интернету как корпусу (на примере анализа блогосферы)». На семинаре выступит Владимир Беликов – доктор филологических наук, доцент Отделения теоретической и прикладной лингвистики филфака МГУ, ведущий научный сотрудник Института русского языка РАН.
                                            Читать дальше →