Как стать автором
Обновить
67
0
Светлана Лузгина @luciana

Внутренние коммуникации в Nebius

Отправить сообщение

Как технологии ABBYY помогают улучшить работу систем обнаружения утечек данных

Время на прочтение10 мин
Количество просмотров9.6K
Несмотря на прогнозы о скором наступлении светлого безбумажного будущего, объём бумажных документов всё ещё огромен. Часть из них сканируется и продолжает свою «жизнь» уже в электронном варианте – но только в виде изображений. В среднем в организациях объем сканированных копий составляет 30% от всех документов, которые хранятся в электронном виде. В госсекторе он достигает 41,5%, в ритейле – 17%, в сфере услуг – 23%, в банках и телеком-сфере приближается к 45%. Когда сканы документов лежат себе в нужной папке или делают работу, для которой они предназначены, – это хорошо. Плохо, когда кто-то пытается использовать данные из этих сканов в мошеннических схемах или как-то иначе злоупотреблять ими. Чтобы конфиденциальная информация не «утекла», в информационные системы компаний устанавливают DLP – системы предотвращения утечек.

Сегодня мы расскажем, как в одну из таких программ – Контур информационной безопасности SearchInform – был интегрирован SDK-продукт ABBYY FineReader Engine и что из этого получилось.
Читать дальше →
Всего голосов 34: ↑33 и ↓1+32
Комментарии7

Как мы помогали проводить медицинскую перепись в Республике Бангладеш

Время на прочтение7 мин
Количество просмотров7K


Бангладеш – государство в юго-восточной Азии, занимает восьмое место в мире по численности населения (Россия, по данным Википедии, сейчас на 9 месте), граничит с Индией и Бирмой. Подавляющее большинство бангладешцев – сельские жители (135 миллионов из 160), и условия их жизни, мягко говоря, далеки от идеальных. Не во всех домохозяйствах есть доступ к питьевой воде, санитарные условия оставляют желать лучшего.

Сегодняшний наш материал о том, как при помощи нашего ABBYY FlexiCapture министерство здравоохранения Бангладеш обработало результаты медицинской переписи — такая перепись нужна, чтобы принимать правильные стратегические решения в области здравоохранения.

Читать дальше →
Всего голосов 57: ↑57 и ↓0+57
Комментарии21

Как мы помогли крупному бразильскому банку справиться с последствиями деноминации

Время на прочтение5 мин
Количество просмотров16K
Новейшая история денежного обращения в Бразилии – это череда деноминаций, первая из которых была проведена в 1942 году, а последняя – в 1994 году. К 1994 году национальная валюта Бразилии – крузейро – была настолько слабой, что в магазинах цены назначались в условных единицах, рядом с цифрами писали слово “real” – «настоящая» цена. В 1994 от лишних нулей решили избавиться, а слово “real”, к которому все привыкли, стало названием новой валюты – реал (впрочем, точно так же называлась денежная единица Бразилии до 1942 года).

Сегодня мы расскажем, как один из наших продуктов – ABBYY FineReader Engine помог крупнейшему частному бразильскому банку справиться с последствиями деноминации. Не представляете, как такое может быть? Добро пожаловать под кат.
Читать дальше →
Всего голосов 53: ↑53 и ↓0+53
Комментарии19

ABBYY: экологичность++. Четыре года спустя

Время на прочтение4 мин
Количество просмотров6K
Несколько лет назад в нашем блоге был пост об экологических инициативах, которые мы придумали и сделали у нас в ABBYY. Поскольку сотрудники у нас неугомонные инициативные всё время придумывают что-то новое, с тех пор возникли новые эко-проекты, и мы решили вернуться к этой теме. Если у вас в офисе тоже заботятся об экологии, давайте обмениваться опытом. Расскажите в комментариях, как у вас. Кстати, не знаете ли, когда у нас все-таки начнут перерабатывать использованные батарейки?
Читать дальше →
Всего голосов 25: ↑23 и ↓2+21
Комментарии10

Распознавание бирманского языка: теперь мы умеем даже это

Время на прочтение6 мин
Количество просмотров24K


Может, кому-то из вас покажется это удивительным, но текст, аналогичный тому, что вы видите на картинке (а это бирманский язык) тоже можно распознать. Некоторое время назад по интернету ходил забавный комикс про различие азиатских языков, но он слишком неприличный, чтобы публиковать его в корпоративном блоге :) О том, зачем нам понадобилось распознавать бирманский и с какими проблемами пришлось при этом столкнуться, – под катом.
Читать дальше →
Всего голосов 64: ↑62 и ↓2+60
Комментарии26

ABBYY помогает стартапам

Время на прочтение1 мин
Количество просмотров4.2K


Сегодня мы хотим рассказать вам, что решили принять участие в проекте «Хабрахабра» «Помощь стартапам». Суть затеи в том, что IT-cтартапы с доходом не больше 20 млн рублей в год, прошедшие наш отбор, смогут получить бесплатный доступ к нашим технологиям распознавания, а победители проекта — дополнительно и маркетинговую поддержку. Все подробности читайте здесь, заявки принимаются до 22 ноября 2015 года.
Всего голосов 23: ↑22 и ↓1+21
Комментарии0

Как ABBYY Cloud OCR SDK помогает ловить дешёвые авиабилеты

Время на прочтение4 мин
Количество просмотров17K
Как знают наши постоянные читатели, некоторое время назад у нас появился ABBYY Cloud OCR SDK, сервис распознавания для разработчиков, «облачный брат» ABBYY FineReader Engine. Сервис работает настолько просто, что вашему редактору (тм) редко удаётся уговорить разработчиков написать про него пост на Хабр – технических подробностей не хватает на целую статью. Вот разве что был самый первый пост о бета-тестировании.

Сегодня мы расскажем, как использует сервис один из наших клиентов — Aviasales. Это один из крупнейших поисковиков авиабилетов в мире (на зарубежных рынках компания работает под именем JetRadar), в месяц им пользуется около 10 миллионов человек, а количество поисковых сессий в сутки приближается к миллиону. Уже довольно давно Aviasales, как и любой уважающий себя сервис, выпустил мобильные приложения для поиска и покупки авиабилетов.
Читать дальше →
Всего голосов 38: ↑36 и ↓2+34
Комментарии16

«Весь Толстой в один клик»: как мы это делали

Время на прочтение8 мин
Количество просмотров25K


Некоторое время назад мы организовали оцифровку 90-томного собрания сочинений Льва Николаевича Толстого, в этом нам помогали более 3 тысяч волонтеров. Публикаций об этом краудсорсинговом проекте было много, но ни одна из них не касалась технической части – именно о ней и пойдет речь в этой статье.

Итак, перед нами стояла задача перевести в форматы электронных книг (ePub, fb2, html, mobi), а также в PDF с текстовым слоем самое полное собрание сочинений Толстого. Оно выпускалось в течение 30 лет: с 1928 по 1958 год, каждый том выходил тиражом 5 тыс. экземпляров. До выпуска электронного издания это собрание сочинений не переиздавалось и уже стало труднодоступным раритетом. В 90-томник входят: художественные произведения (1–45 тома), дневники и записные книжки (46–58 тома), письма (59–90 тома). Был ещё секретный 91-й том, который состоял целиком из указателей и поэтому доставил нашим редакторам много бессонных ночей поводов проявить профессионализм. Конечно, многие творения классика существовали в электронном виде и раньше, но далеко не все.
Читать дальше →
Всего голосов 67: ↑66 и ↓1+65
Комментарии17

Открыта регистрация на конференцию по компьютерной лингвистике «Диалог»

Время на прочтение3 мин
Количество просмотров4.2K
С 27 по 30 мая в Российском государственном гуманитарном университете (РГГУ) пройдет международная научная конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы писали здесь .

Основные темы конференции этого года:

Анализ текстов социальных медиа. С одной стороны, лингвистов интересует живой динамичный язык социальных сетей, а с другой, эти сети порождают огромное количество актуальной информации, в том числе – оценочной, которая интересует всех, от политиков до создателей фотокамер и кинофильмов.

Проблемы связывания различных лингвистических ресурсов, созданных для разных языков, в единое информационное целое (т.н. Linked Data).

Поскольку «Диалог» – международная конференция, традиционно в ней принимают участие специалисты по компьютерной лингвистике мирового масштаба
Читать дальше →
Всего голосов 26: ↑24 и ↓2+22
Комментарии4

Тестирование лингвистических технологий: соревнования по автоматическому разрешению кореферентности и анафоры

Время на прочтение5 мин
Количество просмотров8.4K
Итак, как и обещали, рассказываем: недавно были подведены итоги соревнований по автоматическому разрешению анафоры и кореферентности. Такие соревнования для русского языка проводились впервые а организовала их команда из ВШЭ-МГУ.

Мы уверены, что среди наших читателей много лингвистов, которые и без нас отлично знают, что такое анафора и кореференция, остальным рассказываем. Один и тот же объект реального мира может упоминаться в тексте несколько раз разными способами. «Вася – миллионер, он хочет купить остров». В этой фразе местоимение «он» и существительное «Вася» относятся к одному человеку (т.е. имеют одного и того же референта). Если система анализа текста понимает, что «он» – это и есть «Вася», значит, она умеет разрешать анафору.

Сложнее, когда Вася появляется в тексте еще несколько раз – например, как «Иванов», «клиент», «глава компании» или «футболист». Тогда речь идет уже не о местоименной анафоре, а о кореферентности именных групп. Задача системы в этом случае – объединить все слова, за которыми скрывается этот человек, в одну кореферентную цепочку. Приведем несколько примеров, а заодно покажем, как это делает наша технология Compreno.
Читать дальше →
Всего голосов 29: ↑28 и ↓1+27
Комментарии14

Инженеры и лингвисты снова вступили в Диалог

Время на прочтение3 мин
Количество просмотров6.9K
В начале июня в подмосковном «Бекасово» состоялась международная конференция по компьютерной лингвистике «Диалог», которую уже много лет делает наша компания. О том, что представляет собой «Диалог», мы писали здесь, поэтому не будем повторяться, а расскажем, что было нового.

Пожалуй, одно из самых важных для нас событий – сборник научных трудов «Диалога» наконец-то будет индексироваться SCOPUS, самой крупной международной системой цитирования. Эта система – не просто индекс научных статей, это своего рода авторитетное подтверждение научной значимости издания, входящего в SCOPUS. Почему это важно? Для подтверждения своего статуса все ученые должны иметь набор публикаций в признанных авторитетными изданиях. Причем для подтверждения собственного научного авторитета за рубежом и продвижения собственных идей и разработок важно иметь публикации в источниках, которые признаны именно международными индексами, типа SCOPUS. Кроме того, войдя в SCOPUS издания автоматически попадают в список ВАК (Высшей аттестационной комиссии). Это дает возможность российским ученым иметь публикации, признанные авторитетными как в мире, так и в России. Скопусовский статус сборника Диалога, придает конференции более высокий статус и мы рады, что теперь участие в «Диалоге» будет придавать больше «веса» научным трудам наших докладчиков.

В этом году одной из доминант «Диалога» была вычислительная семантика, ей был посвящен первый день конференции. Эта область компьютерной лингвистики изучает различные способы компьютерного моделирования значений слов, фраз, предложений, целых текстов.
Читать дальше →
Всего голосов 34: ↑32 и ↓2+30
Комментарии6

Вышла первая версия модуля интеграции Cppcheck в Visual Studio с открытым кодом

Время на прочтение1 мин
Количество просмотров9.7K
Здравствуйте, с вами снова говорит редактор блога ABBYY. На днях ко мне пришли разработчики и принесли с необъятных просторов ГитХаба новость, которая не имеет прямого отношения к нашей компании, но, по их словам, порадует всех наших разработчиков, а заодно и многих не наших. Коллегам они уже рассказали на кухне, для остальных — этот пост.

Продолжаем стихийный сериал о статическом анализе кода на C++ (предыдущие серии: один, два, три, четыре, пять, шесть, семь). Бесплатный анализатор с открытым кодом Cppcheck до недавнего времени отличался фатальным недостатком – не было модуля для его интеграции в Visual Studio.
NO MOAR!
Всего голосов 52: ↑47 и ↓5+42
Комментарии14

ЕСМ-системы: можно ли осваивать играючи, или пять копеек в защиту геймификации

Время на прочтение4 мин
Количество просмотров10K
Тема геймификации поднималась на Хабре уже неоднократно. Высказывались разные мнения о том, как ее правильно понимать, где и как она применяется и вообще – стоящая ли это затея. Наши коллеги из проекта DOCFLOW взялись выяснить, может ли геймификация помочь простым пользователям осваивать системы электронного документооборота (как показывает практика, обычно простые пользователи в компаниях не любят изучать новое сложное ПО, а уж если изучили, то используют далеко не все его возможности). Этой теме был посвящен недавний вебинар «Корпоративные игры – возможности и сложности геймификации ЕСМ-систем».

Геймификация – это применение подходов, характерных для компьютерных игр, в неигровых процессах с целью привлечения пользователей и потребителей, повышения их вовлечённости в решение прикладных задач, использование продуктов, услуг.

Чтобы понять, работает ли это на практике, на вебинар пригласили эксперта из компании-разработчика СЭД, которая недавно провела на своих сотрудниках эксперимент, связанный с геймификацией. В чём он заключался?

Читать дальше →
Всего голосов 30: ↑25 и ↓5+20
Комментарии15

Образовательные проекты в ABBYY: что нового?

Время на прочтение2 мин
Количество просмотров6.1K
Начало нового учебного года – хороший повод. Так подумал ваш редактор и отправился в отдел, который у нас в ABBYY занимается образовательными проектами – узнать, что интересного произошло в последнее время и что планируется на будущее.

Прежде всего, мне рассказали, что в июле прошёл очередной ABBYY Cup – олимпиада по спортивному программированию, которую мы делаем уже в третий раз. В этом году мы завоевали почти весь мир – только африканским программистам в следующем году стоит выступить более массово :)

Организаторы отмечают более высокий, по сравнению с прошлогодним, уровень конкурсантов – в ABBYY Cup-2013 участвовали звёзды спортивного программирования мировой величины.
Читать дальше →
Всего голосов 25: ↑20 и ↓5+15
Комментарии0

Enterprise-версия программы FizzBuzz с правильной архитектурой

Время на прочтение2 мин
Количество просмотров30K
Здравствуй, хабрачитатель. Я – редактор блога ABBYY. Сегодня утром ко мне пришли разработчики, принесли вот этот текст и попросили напечатать. Я не смогла придумать, почему этот текст должен появиться в корпоративном блоге, но разработчики говорят, что он смешной и принесёт радость людям. Так тому и быть!

Устали от полных кривизны и костылей сложных в поддержке программ? Постоянно слышите о правильной архитектуре, но так и не видели ее? Встречайте на Гитхабе Enterprise-версию программы FizzBuzz, показывающую, как должно выглядеть серьезное решение с правильной архитектурой.
Читать дальше →
Всего голосов 82: ↑70 и ↓12+58
Комментарии34

ABBYY FineScanner: iPhone вместо сканера

Время на прочтение2 мин
Количество просмотров21K

Недавно наш мобильный департамент выпустил новое приложение для iPhone – называется ABBYY FineScanner. Программа умеет делать очень простую, но нужную вещь – фотографировать документы и обрабатывать фотографии так, чтобы получившиеся электронные копии (по сути – сканы) были удобны для работы – чтения, печати или хранения/пересылки в удобочитаемом виде. Это может пригодиться, если вам, например, нужно переслать скан нескольких страниц загранпаспорта в турагентство или загрузить в Dropbox расписание уроков ребенка – чтобы все члены семьи были в курсе.

Вы спросите, почему бы это не делать просто фотокамерой iPhone? Ответ – потому что она не умеет находить края страницы, исправлять трапециевидные искажения и улучшать качество изображения. Кстати, объединять несколько фотографий в многостраничные PDF-файлы она тоже не может. О том, как всё это делает FineScanner, под катом.
Читать дальше →
Всего голосов 58: ↑39 и ↓19+20
Комментарии70

Как мы помогали переписывать население Кувейта

Время на прочтение6 мин
Количество просмотров15K
В этом выпуске:
  • IT-интегратор, переквалифицировавшийся из HR-агентства
  • Люди в длинных одеждах в офисе Аби*
  • 6-летний водитель самосвала
  • Скандалы, интриги, расследования

А если серьёзно, то расскажем в общих чертах о переписи в стране с особым восточным колоритом.

Как знают постоянные читатели нашего блога, мы делаем не только Lingvo и FineReader, но и программы, которые извлекают данные из форм. Некоторое время назад их стали активно использовать для обработки переписей населения: мы помогали считать переписные листы в Греции, Литве, Саудовской Аравии, Таджикистане и Кувейте. В Кувейте проект получился, пожалуй, самым интересным – о нем мы и расскажем под катом.
* Реальных фото не сохранилось, а выложенное воспроизвели по памяти
Читать дальше →
Всего голосов 79: ↑73 и ↓6+67
Комментарии28

Открыта регистрация на конференцию по компьютерной лингвистике «Диалог»

Время на прочтение2 мин
Количество просмотров2.9K
image30 мая – 3 июня в подмосковном пансионате «Бекасово» пройдет крупнейшая российская конференция по компьютерной лингвистике «Диалог». Подробно о том, что такое «Диалог» и почему ABBYY организует эту конференцию, мы подробно писали здесь.

В этом году главными темами станут:

Оценка тональности текста (sentiment analysis). Для решения этой проблемы (как понять отношение автора к тому, что он описывает) используются как методы, основанные на лингвистических правилах, так и методы компьютерного обучения на больших тестовых коллекциях документов (в которых эксперты вручную расставили оценки тональности, а компьютер пытается разобраться, какие именно свойста тестового текста связаны с оценкой, чтобы на их основе оценивать новые тексты). Думаю, многие сталкивались с «правильными» оценками тональности статей в российских системах мониторинга СМИ (не будем называть имён), так что тема очень актуальная.
Что ещё?
Всего голосов 18: ↑18 и ↓0+18
Комментарии0

ABBYY Airlines — как это было

Время на прочтение1 мин
Количество просмотров16K
Мы помним, что на Хабре не очень любят посты про корпоративные праздники, поэтому коротенечко. Вчера мы поздравляли наших мужчин с 23 февраля и придумали для этого целую авиакомпанию — ABBYY Airlines. Ну и журнальчик выпустили. Подумали — вам тоже понравится (обложка под катом). С праздником!
Читать дальше →
Всего голосов 42: ↑31 и ↓11+20
Комментарии12

Сегментно-статистический подход к интернету как корпусу — новый семинар в серии ABBYY Open

Время на прочтение1 мин
Количество просмотров2.2K
imageМы продолжаем серию семинаров по компьютерной лингвистике ABBYY Open. Очередное мероприятие пройдет 31 января в 17.00 в московском офисе ABBYY. Тема – «Сегментно-статистический подход к интернету как корпусу (на примере анализа блогосферы)». На семинаре выступит Владимир Беликов – доктор филологических наук, доцент Отделения теоретической и прикладной лингвистики филфака МГУ, ведущий научный сотрудник Института русского языка РАН.
Читать дальше →
Всего голосов 14: ↑12 и ↓2+10
Комментарии10
1

Информация

В рейтинге
Не участвует
Зарегистрирована
Активность