Pull to refresh
67
0
Светлана Лузгина @luciana

Внутренние коммуникации в Nebius

Send message

Как технологии ABBYY помогают улучшить работу систем обнаружения утечек данных

Reading time 10 min
Views 9.6K
Несмотря на прогнозы о скором наступлении светлого безбумажного будущего, объём бумажных документов всё ещё огромен. Часть из них сканируется и продолжает свою «жизнь» уже в электронном варианте – но только в виде изображений. В среднем в организациях объем сканированных копий составляет 30% от всех документов, которые хранятся в электронном виде. В госсекторе он достигает 41,5%, в ритейле – 17%, в сфере услуг – 23%, в банках и телеком-сфере приближается к 45%. Когда сканы документов лежат себе в нужной папке или делают работу, для которой они предназначены, – это хорошо. Плохо, когда кто-то пытается использовать данные из этих сканов в мошеннических схемах или как-то иначе злоупотреблять ими. Чтобы конфиденциальная информация не «утекла», в информационные системы компаний устанавливают DLP – системы предотвращения утечек.

Сегодня мы расскажем, как в одну из таких программ – Контур информационной безопасности SearchInform – был интегрирован SDK-продукт ABBYY FineReader Engine и что из этого получилось.
Читать дальше →
Total votes 34: ↑33 and ↓1 +32
Comments 7

Как мы помогали проводить медицинскую перепись в Республике Бангладеш

Reading time 7 min
Views 6.9K


Бангладеш – государство в юго-восточной Азии, занимает восьмое место в мире по численности населения (Россия, по данным Википедии, сейчас на 9 месте), граничит с Индией и Бирмой. Подавляющее большинство бангладешцев – сельские жители (135 миллионов из 160), и условия их жизни, мягко говоря, далеки от идеальных. Не во всех домохозяйствах есть доступ к питьевой воде, санитарные условия оставляют желать лучшего.

Сегодняшний наш материал о том, как при помощи нашего ABBYY FlexiCapture министерство здравоохранения Бангладеш обработало результаты медицинской переписи — такая перепись нужна, чтобы принимать правильные стратегические решения в области здравоохранения.

Читать дальше →
Total votes 57: ↑57 and ↓0 +57
Comments 21

Как мы помогли крупному бразильскому банку справиться с последствиями деноминации

Reading time 5 min
Views 16K
Новейшая история денежного обращения в Бразилии – это череда деноминаций, первая из которых была проведена в 1942 году, а последняя – в 1994 году. К 1994 году национальная валюта Бразилии – крузейро – была настолько слабой, что в магазинах цены назначались в условных единицах, рядом с цифрами писали слово “real” – «настоящая» цена. В 1994 от лишних нулей решили избавиться, а слово “real”, к которому все привыкли, стало названием новой валюты – реал (впрочем, точно так же называлась денежная единица Бразилии до 1942 года).

Сегодня мы расскажем, как один из наших продуктов – ABBYY FineReader Engine помог крупнейшему частному бразильскому банку справиться с последствиями деноминации. Не представляете, как такое может быть? Добро пожаловать под кат.
Читать дальше →
Total votes 53: ↑53 and ↓0 +53
Comments 19

ABBYY: экологичность++. Четыре года спустя

Reading time 4 min
Views 6K
Несколько лет назад в нашем блоге был пост об экологических инициативах, которые мы придумали и сделали у нас в ABBYY. Поскольку сотрудники у нас неугомонные инициативные всё время придумывают что-то новое, с тех пор возникли новые эко-проекты, и мы решили вернуться к этой теме. Если у вас в офисе тоже заботятся об экологии, давайте обмениваться опытом. Расскажите в комментариях, как у вас. Кстати, не знаете ли, когда у нас все-таки начнут перерабатывать использованные батарейки?
Читать дальше →
Total votes 25: ↑23 and ↓2 +21
Comments 10

Распознавание бирманского языка: теперь мы умеем даже это

Reading time 6 min
Views 24K


Может, кому-то из вас покажется это удивительным, но текст, аналогичный тому, что вы видите на картинке (а это бирманский язык) тоже можно распознать. Некоторое время назад по интернету ходил забавный комикс про различие азиатских языков, но он слишком неприличный, чтобы публиковать его в корпоративном блоге :) О том, зачем нам понадобилось распознавать бирманский и с какими проблемами пришлось при этом столкнуться, – под катом.
Читать дальше →
Total votes 64: ↑62 and ↓2 +60
Comments 26

ABBYY помогает стартапам

Reading time 1 min
Views 4.2K


Сегодня мы хотим рассказать вам, что решили принять участие в проекте «Хабрахабра» «Помощь стартапам». Суть затеи в том, что IT-cтартапы с доходом не больше 20 млн рублей в год, прошедшие наш отбор, смогут получить бесплатный доступ к нашим технологиям распознавания, а победители проекта — дополнительно и маркетинговую поддержку. Все подробности читайте здесь, заявки принимаются до 22 ноября 2015 года.
Total votes 23: ↑22 and ↓1 +21
Comments 0

Как ABBYY Cloud OCR SDK помогает ловить дешёвые авиабилеты

Reading time 4 min
Views 17K
Как знают наши постоянные читатели, некоторое время назад у нас появился ABBYY Cloud OCR SDK, сервис распознавания для разработчиков, «облачный брат» ABBYY FineReader Engine. Сервис работает настолько просто, что вашему редактору (тм) редко удаётся уговорить разработчиков написать про него пост на Хабр – технических подробностей не хватает на целую статью. Вот разве что был самый первый пост о бета-тестировании.

Сегодня мы расскажем, как использует сервис один из наших клиентов — Aviasales. Это один из крупнейших поисковиков авиабилетов в мире (на зарубежных рынках компания работает под именем JetRadar), в месяц им пользуется около 10 миллионов человек, а количество поисковых сессий в сутки приближается к миллиону. Уже довольно давно Aviasales, как и любой уважающий себя сервис, выпустил мобильные приложения для поиска и покупки авиабилетов.
Читать дальше →
Total votes 38: ↑36 and ↓2 +34
Comments 16

«Весь Толстой в один клик»: как мы это делали

Reading time 8 min
Views 25K


Некоторое время назад мы организовали оцифровку 90-томного собрания сочинений Льва Николаевича Толстого, в этом нам помогали более 3 тысяч волонтеров. Публикаций об этом краудсорсинговом проекте было много, но ни одна из них не касалась технической части – именно о ней и пойдет речь в этой статье.

Итак, перед нами стояла задача перевести в форматы электронных книг (ePub, fb2, html, mobi), а также в PDF с текстовым слоем самое полное собрание сочинений Толстого. Оно выпускалось в течение 30 лет: с 1928 по 1958 год, каждый том выходил тиражом 5 тыс. экземпляров. До выпуска электронного издания это собрание сочинений не переиздавалось и уже стало труднодоступным раритетом. В 90-томник входят: художественные произведения (1–45 тома), дневники и записные книжки (46–58 тома), письма (59–90 тома). Был ещё секретный 91-й том, который состоял целиком из указателей и поэтому доставил нашим редакторам много бессонных ночей поводов проявить профессионализм. Конечно, многие творения классика существовали в электронном виде и раньше, но далеко не все.
Читать дальше →
Total votes 67: ↑66 and ↓1 +65
Comments 17

Открыта регистрация на конференцию по компьютерной лингвистике «Диалог»

Reading time 3 min
Views 4.2K
С 27 по 30 мая в Российском государственном гуманитарном университете (РГГУ) пройдет международная научная конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы писали здесь .

Основные темы конференции этого года:

Анализ текстов социальных медиа. С одной стороны, лингвистов интересует живой динамичный язык социальных сетей, а с другой, эти сети порождают огромное количество актуальной информации, в том числе – оценочной, которая интересует всех, от политиков до создателей фотокамер и кинофильмов.

Проблемы связывания различных лингвистических ресурсов, созданных для разных языков, в единое информационное целое (т.н. Linked Data).

Поскольку «Диалог» – международная конференция, традиционно в ней принимают участие специалисты по компьютерной лингвистике мирового масштаба
Читать дальше →
Total votes 26: ↑24 and ↓2 +22
Comments 4

Тестирование лингвистических технологий: соревнования по автоматическому разрешению кореферентности и анафоры

Reading time 5 min
Views 8.4K
Итак, как и обещали, рассказываем: недавно были подведены итоги соревнований по автоматическому разрешению анафоры и кореферентности. Такие соревнования для русского языка проводились впервые а организовала их команда из ВШЭ-МГУ.

Мы уверены, что среди наших читателей много лингвистов, которые и без нас отлично знают, что такое анафора и кореференция, остальным рассказываем. Один и тот же объект реального мира может упоминаться в тексте несколько раз разными способами. «Вася – миллионер, он хочет купить остров». В этой фразе местоимение «он» и существительное «Вася» относятся к одному человеку (т.е. имеют одного и того же референта). Если система анализа текста понимает, что «он» – это и есть «Вася», значит, она умеет разрешать анафору.

Сложнее, когда Вася появляется в тексте еще несколько раз – например, как «Иванов», «клиент», «глава компании» или «футболист». Тогда речь идет уже не о местоименной анафоре, а о кореферентности именных групп. Задача системы в этом случае – объединить все слова, за которыми скрывается этот человек, в одну кореферентную цепочку. Приведем несколько примеров, а заодно покажем, как это делает наша технология Compreno.
Читать дальше →
Total votes 29: ↑28 and ↓1 +27
Comments 14

Инженеры и лингвисты снова вступили в Диалог

Reading time 3 min
Views 6.9K
В начале июня в подмосковном «Бекасово» состоялась международная конференция по компьютерной лингвистике «Диалог», которую уже много лет делает наша компания. О том, что представляет собой «Диалог», мы писали здесь, поэтому не будем повторяться, а расскажем, что было нового.

Пожалуй, одно из самых важных для нас событий – сборник научных трудов «Диалога» наконец-то будет индексироваться SCOPUS, самой крупной международной системой цитирования. Эта система – не просто индекс научных статей, это своего рода авторитетное подтверждение научной значимости издания, входящего в SCOPUS. Почему это важно? Для подтверждения своего статуса все ученые должны иметь набор публикаций в признанных авторитетными изданиях. Причем для подтверждения собственного научного авторитета за рубежом и продвижения собственных идей и разработок важно иметь публикации в источниках, которые признаны именно международными индексами, типа SCOPUS. Кроме того, войдя в SCOPUS издания автоматически попадают в список ВАК (Высшей аттестационной комиссии). Это дает возможность российским ученым иметь публикации, признанные авторитетными как в мире, так и в России. Скопусовский статус сборника Диалога, придает конференции более высокий статус и мы рады, что теперь участие в «Диалоге» будет придавать больше «веса» научным трудам наших докладчиков.

В этом году одной из доминант «Диалога» была вычислительная семантика, ей был посвящен первый день конференции. Эта область компьютерной лингвистики изучает различные способы компьютерного моделирования значений слов, фраз, предложений, целых текстов.
Читать дальше →
Total votes 34: ↑32 and ↓2 +30
Comments 6

Вышла первая версия модуля интеграции Cppcheck в Visual Studio с открытым кодом

Reading time 1 min
Views 9.7K
Здравствуйте, с вами снова говорит редактор блога ABBYY. На днях ко мне пришли разработчики и принесли с необъятных просторов ГитХаба новость, которая не имеет прямого отношения к нашей компании, но, по их словам, порадует всех наших разработчиков, а заодно и многих не наших. Коллегам они уже рассказали на кухне, для остальных — этот пост.

Продолжаем стихийный сериал о статическом анализе кода на C++ (предыдущие серии: один, два, три, четыре, пять, шесть, семь). Бесплатный анализатор с открытым кодом Cppcheck до недавнего времени отличался фатальным недостатком – не было модуля для его интеграции в Visual Studio.
NO MOAR!
Total votes 52: ↑47 and ↓5 +42
Comments 14

ЕСМ-системы: можно ли осваивать играючи, или пять копеек в защиту геймификации

Reading time 4 min
Views 10K
Тема геймификации поднималась на Хабре уже неоднократно. Высказывались разные мнения о том, как ее правильно понимать, где и как она применяется и вообще – стоящая ли это затея. Наши коллеги из проекта DOCFLOW взялись выяснить, может ли геймификация помочь простым пользователям осваивать системы электронного документооборота (как показывает практика, обычно простые пользователи в компаниях не любят изучать новое сложное ПО, а уж если изучили, то используют далеко не все его возможности). Этой теме был посвящен недавний вебинар «Корпоративные игры – возможности и сложности геймификации ЕСМ-систем».

Геймификация – это применение подходов, характерных для компьютерных игр, в неигровых процессах с целью привлечения пользователей и потребителей, повышения их вовлечённости в решение прикладных задач, использование продуктов, услуг.

Чтобы понять, работает ли это на практике, на вебинар пригласили эксперта из компании-разработчика СЭД, которая недавно провела на своих сотрудниках эксперимент, связанный с геймификацией. В чём он заключался?

Читать дальше →
Total votes 30: ↑25 and ↓5 +20
Comments 15

Образовательные проекты в ABBYY: что нового?

Reading time 2 min
Views 6.1K
Начало нового учебного года – хороший повод. Так подумал ваш редактор и отправился в отдел, который у нас в ABBYY занимается образовательными проектами – узнать, что интересного произошло в последнее время и что планируется на будущее.

Прежде всего, мне рассказали, что в июле прошёл очередной ABBYY Cup – олимпиада по спортивному программированию, которую мы делаем уже в третий раз. В этом году мы завоевали почти весь мир – только африканским программистам в следующем году стоит выступить более массово :)

Организаторы отмечают более высокий, по сравнению с прошлогодним, уровень конкурсантов – в ABBYY Cup-2013 участвовали звёзды спортивного программирования мировой величины.
Читать дальше →
Total votes 25: ↑20 and ↓5 +15
Comments 0

Enterprise-версия программы FizzBuzz с правильной архитектурой

Reading time 2 min
Views 30K
Здравствуй, хабрачитатель. Я – редактор блога ABBYY. Сегодня утром ко мне пришли разработчики, принесли вот этот текст и попросили напечатать. Я не смогла придумать, почему этот текст должен появиться в корпоративном блоге, но разработчики говорят, что он смешной и принесёт радость людям. Так тому и быть!

Устали от полных кривизны и костылей сложных в поддержке программ? Постоянно слышите о правильной архитектуре, но так и не видели ее? Встречайте на Гитхабе Enterprise-версию программы FizzBuzz, показывающую, как должно выглядеть серьезное решение с правильной архитектурой.
Читать дальше →
Total votes 82: ↑70 and ↓12 +58
Comments 34

ABBYY FineScanner: iPhone вместо сканера

Reading time 2 min
Views 21K

Недавно наш мобильный департамент выпустил новое приложение для iPhone – называется ABBYY FineScanner. Программа умеет делать очень простую, но нужную вещь – фотографировать документы и обрабатывать фотографии так, чтобы получившиеся электронные копии (по сути – сканы) были удобны для работы – чтения, печати или хранения/пересылки в удобочитаемом виде. Это может пригодиться, если вам, например, нужно переслать скан нескольких страниц загранпаспорта в турагентство или загрузить в Dropbox расписание уроков ребенка – чтобы все члены семьи были в курсе.

Вы спросите, почему бы это не делать просто фотокамерой iPhone? Ответ – потому что она не умеет находить края страницы, исправлять трапециевидные искажения и улучшать качество изображения. Кстати, объединять несколько фотографий в многостраничные PDF-файлы она тоже не может. О том, как всё это делает FineScanner, под катом.
Читать дальше →
Total votes 58: ↑39 and ↓19 +20
Comments 70

Как мы помогали переписывать население Кувейта

Reading time 6 min
Views 15K
В этом выпуске:
  • IT-интегратор, переквалифицировавшийся из HR-агентства
  • Люди в длинных одеждах в офисе Аби*
  • 6-летний водитель самосвала
  • Скандалы, интриги, расследования

А если серьёзно, то расскажем в общих чертах о переписи в стране с особым восточным колоритом.

Как знают постоянные читатели нашего блога, мы делаем не только Lingvo и FineReader, но и программы, которые извлекают данные из форм. Некоторое время назад их стали активно использовать для обработки переписей населения: мы помогали считать переписные листы в Греции, Литве, Саудовской Аравии, Таджикистане и Кувейте. В Кувейте проект получился, пожалуй, самым интересным – о нем мы и расскажем под катом.
* Реальных фото не сохранилось, а выложенное воспроизвели по памяти
Читать дальше →
Total votes 79: ↑73 and ↓6 +67
Comments 28

Открыта регистрация на конференцию по компьютерной лингвистике «Диалог»

Reading time 2 min
Views 2.9K
image30 мая – 3 июня в подмосковном пансионате «Бекасово» пройдет крупнейшая российская конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы подробно писали здесь.

В этом году главными темами станут:

Оценка тональности текста (sentiment analysis). Для решения этой проблемы (как понять отношение автора к тому, что он описывает) используются как методы, основанные на лингвистических правилах, так и методы компьютерного обучения на больших тестовых коллекциях документов (в которых эксперты вручную расставили оценки тональности, а компьютер пытается разобраться, какие именно свойста тестового текста связаны с оценкой, чтобы на их основе оценивать новые тексты). Думаю, многие сталкивались с «правильными» оценками тональности статей в российских системах мониторинга СМИ (не будем называть имён), так что тема очень актуальная.
Что ещё?
Total votes 18: ↑18 and ↓0 +18
Comments 0

ABBYY Airlines — как это было

Reading time 1 min
Views 16K
Мы помним, что на Хабре не очень любят посты про корпоративные праздники, поэтому коротенечко. Вчера мы поздравляли наших мужчин с 23 февраля и придумали для этого целую авиакомпанию — ABBYY Airlines. Ну и журнальчик выпустили. Подумали — вам тоже понравится (обложка под катом). С праздником!
Читать дальше →
Total votes 42: ↑31 and ↓11 +20
Comments 12

Сегментно-статистический подход к интернету как корпусу — новый семинар в серии ABBYY Open

Reading time 1 min
Views 2.1K
imageМы продолжаем серию семинаров по компьютерной лингвистике ABBYY Open. Очередное мероприятие пройдет 31 января в 17.00 в московском офисе ABBYY. Тема – «Сегментно-статистический подход к интернету как корпусу (на примере анализа блогосферы)». На семинаре выступит Владимир Беликов – доктор филологических наук, доцент Отделения теоретической и прикладной лингвистики филфака МГУ, ведущий научный сотрудник Института русского языка РАН.
Читать дальше →
Total votes 14: ↑12 and ↓2 +10
Comments 10
1

Information

Rating
Does not participate
Registered
Activity