Обновить
137
9

Пользователь

Отправить сообщение

«Диалог» компьютерных лингвистов и специалистов по анализу данных впервые пройдет онлайн и бесплатно

Время на прочтение4 мин
Количество просмотров2.1K
Текущая ситуация в мире не повод останавливать диалог, особенно если его можно вести онлайн. С 17 по 20 июня состоится 26-ая Международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог». В этот раз она пройдет онлайн и будет бесплатной. Много лет основным организатором конференции выступает ABBYY: мы заинтересованы в развитии компьютерной лингвистики, обработки естественного языка (Natural Language Processing, NLP) и проведении исследований в этих областях. Подробнее о том, что такое «Диалог» и зачем он нужен, мы уже говорили на Хабре.

Сегодня расскажем об интересных событиях, которые запланированы на предстоящей конференции: докладах, темах дискуссий и трех технологических соревнованиях в рамках Dialogue Evaluation – по извлечению семантических отношений из деловых текстов, автоматическому поиску гиперонимов и морфосинтаксическому анализу текстов. Поехали!
Читать дальше →

Как мы научили ABBYY FineReader PDF редактировать целые абзацы

Время на прочтение6 мин
Количество просмотров21K

Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.

Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.

Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.

В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!
Читать дальше →

Как мы технически обеспечиваем работу офисов ABBYY во время карантина

Время на прочтение7 мин
Количество просмотров4.3K
Хабр, привет! Меня зовут Олег, и я отвечаю за IT-службу в группе компаний ABBYY. Больше месяца назад сотрудники ABBYY по всему миру начали работать и жить только дома. Больше никакого опенспейса и командировок. Поменялась ли моя работа? Нет. Хотя вообще-то да, но она изменилась еще 2-3 года назад. А сейчас мы технически обеспечиваем работу офисов в 13 странах так же, как и раньше. Просто теперь мы делаем это сидя дома – на кухне, на диване или на балконе, а в офисе только один дежурный. Кстати, вот и он:


Сегодня я расскажу о том, какие задачи сейчас приходится решать IT-службе ABBYY, как нас спасают дежурные в офисах, почему MS Teams и Zoom теперь наше всё, и о многом другом. Добро пожаловать под кат.
Читать дальше →

Как DLP-система и модуль OCR помешали сотрудникам подделывать сканы паспортов

Время на прочтение6 мин
Количество просмотров12K
Помните историю с утечкой паспортных данных у 500 млн клиентов сети отелей Marriott? Данные могли оказаться у злоумышленников, и гостиничная группа даже обещала оплатить пострадавшим постояльцам расходы на смену паспортов. Подобных случаев происходит немало. Понятно, почему: на сегодняшний день более 50% компаний хранит больше половины своих документов в виде сканов, скриншотов, PDF. Еще три года назад таких документов в организациях было не более трети. По данным нового исследования «СёрчИнформ», 51% компаний отметили, что количество документов в формате изображений увеличилось.

В последнее время чаще всего утечкам в виде изображений подвергаются юридически значимые документы, например, договоры. На втором месте в «группе риска» — финансовые документы: бухгалтерские балансы, отчеты о прибылях и убытках и так далее. Потеря таких данных не только грозит репутационными рисками для компании, но и может привести к срыву сделок. Чтобы уберечь важные данные от посторонних и злоумышленников, в информационные системы компаний устанавливают DLP – системы предотвращения утечек информации.

Мы уже рассказывали на Хабре о том, как работает «СёрчИнформ Контур информационной безопасности» (КИБ) и модуль OCR на базе технологического продукта ABBYY FineReader Engine. Теперь вместе с сотрудниками отдела внедрения продуктов «СёрчИнформ» мы собрали четыре истории об утечках разных видов данных через корпоративные и личные почтовые ящики. И разобрались в том, как их выявить с помощью DLP-системы с модулем OCR.



В одной туристической компании сотрудник пересылал на личную почту файлы в графическом формате.
Читать дальше →

Как NLP-технологии ABBYY научились мониторить новости и управлять рисками

Время на прочтение8 мин
Количество просмотров4.9K
Круг задач, которые можно решить с помощью технологий ABBYY, пополнился еще одной интересной возможностью. Мы обучили свой движок работе банковского андеррайтера – человека, который из гигантского потока новостей вылавливает события о контрагентах и оценивает риски.

Сейчас такие системы на базе технологий ABBYY используют уже несколько крупных российских банков. Мы хотим рассказать о нюансах внедрения этого решения – довольно нетривиальных и неожиданных вызовах, с которыми столкнулись наши онтоинженеры.
Читать дальше →

Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

Время на прочтение10 мин
Количество просмотров14K
Только не удивляйтесь, но второй заголовок к этому посту сгенерировала нейросеть, а точнее алгоритм саммаризации. А что такое саммаризация?

Это одна из ключевых и классических задач Natural Language Processing (NLP). Она заключается в создании алгоритма, который принимает на вход текст и на выходе выдаёт его сокращённую версию. Причем в ней сохраняется корректная структура (соответствующая нормам языка) и правильно передается основная мысль текста.

Такие алгоритмы широко используются в индустрии. Например, они полезны для поисковых движков: с помощью сокращения текста можно легко понять, коррелирует ли основная мысль сайта или документа с поисковым запросом. Их применяют для поиска релевантной информации в большом потоке медиаданных и для отсеивания информационного мусора. Сокращение текста помогает в финансовых исследованиях, при анализе юридических договоров, аннотировании научных работ и многом другом. Кстати, алгоритм саммаризации сгенерировал и все подзаголовки для этого поста.

К моему удивлению, на Хабре оказалось совсем немного статей о саммаризации, поэтому я решил поделиться своими исследованиями и результатами в этом направлении. В этом году я участвовал в соревновательной дорожке на конференции «Диалог» и ставил эксперименты над генераторами заголовков для новостных заметок и для стихов с помощью нейронных сетей. В этом посте я вначале вкратце пробегусь по теоретической части саммаризации, а затем приведу примеры с генерацией заголовков, расскажу, какие трудности возникают у моделей при сокращении текста и как можно эти модели улучшить, чтобы добиться выдачи более качественных заголовков.
Читать дальше →

Понимаем UICollectionViewLayout на примере Photos App

Время на прочтение14 мин
Количество просмотров21K
Здравствуй, Хабр! Меня зовут Никита, я работаю над мобильными SDK в компании ABBYY и в том числе занимаюсь UI-компонентом для сканирования и удобного просмотра многостраничных документов на смартфоне. Этот компонент сокращает время на разработку приложений на базе технологии ABBYY Mobile Capture и состоит из нескольких частей. Во-первых, камера для сканирования документов; во-вторых, экран редактора с результатами захвата (то есть автоматически сделанными фотографиями) и экран исправления границ документа.

Разработчику достаточно вызвать пару методов – и вот в его приложении уже доступна камера, которая автоматически сканирует документы. Но, помимо настроенных камер, нужно предоставить клиентам удобный доступ к результатам сканирования, т.е. автоматически сделанным фотографиям. А если клиент сканирует договор или устав, то таких фотографий может быть очень много.

В этом посте я расскажу о трудностях, которые возникли в процессе реализации экрана редактора с результатами захвата документов. Сам экран представляет из себя две UICollectionView, я их буду называть большой и маленькой. Возможности ручной корректировки границ документа и другой работы с документом я опущу, а фокус сделаю на анимациях и особенностях layout-а во время скролла. Ниже на GIF можно посмотреть, что получилось в итоге. Ссылка на репозиторий будет в конце статьи.



В качестве референсов я часто обращаю внимание на системные приложения Apple. Когда внимательно смотришь на анимации и другие интерфейсные решения их приложений, то начинаешь восхищаться их внимательным отношением к разного рода мелочам. Сейчас мы в качестве референса будем смотреть на приложение Photos (iOS 12). Я обращу ваше внимание на конкретные фичи этого приложения, а дальше мы попробуем их реализовать.
Читать дальше →

«За месяц стал фуллстек-разработчиком». Студенты рассказывают о стажировке в ABBYY

Время на прочтение7 мин
Количество просмотров4.1K
Уже начал свой путь в IT? Или все еще залипаешь в смартфоне в поисках той самой вакансии? Сделать первый карьерный шаг и разобраться, чем хочется заниматься, поможет стажировка.

Летом к нашей команде присоединились 26 стажеров – студенты МФТИ, НИУ ВШЭ и других вузов. Они пришли на двухмесячную (июль-август) оплачиваемую стажировку. Осенью многие продолжили сотрудничество с ABBYY в формате стажировки на неполный рабочий день, а несколько человек перешли на постоянные позиции. Стажеры занимаются задачами в департаментах R&D. Мы уже делали мини-интервью с ребятами в Stories в нашем Instagram, а на Хабре не так давно был пост от нашего стажера Жени – о его практике в ABBYY.

А теперь мы попросили трех студентов поделиться впечатлениями от стажировки в ABBYY. Какие опыт и знания они уже получили в компании? Как совмещать учебу и работу и не выгореть? Окей, зумеры, сейчас мы вам все расскажем.

image
Читать дальше →

Находим текст на вывесках и упаковках с помощью смартфона

Время на прочтение7 мин
Количество просмотров7.4K
Проблема автоматического поиска текста на изображениях существует достаточно давно, как минимум с начала девяностых годов прошлого века. Они могли запомниться старожилам повсеместным распространением ABBYY FineReader, умеющим переводить сканы документов в их редактируемые варианты.

Сканеры, подключённые к персональным компьютерам, отлично работают в компаниях, но прогресс не стоит на месте, и мир захватили мобильные устройства. Круг задач работы с текстом тоже поменялся. Теперь текст нужно искать не на идеально прямых листах А4 с чёрным текстом на белом фоне, а на различных визитках, красочных меню, вывесках магазинов и много ещё на чём, что человек может встретить в джунглях современного города.


Реальный пример работы нашей нейросети. Картинка кликабельна.

Основные требования и ограничения


При таком разнообразии условий представления текста рукописные алгоритмы уже не справляются. Здесь на помощь нам приходят нейронные сети с их способностью обобщения. В этом посте мы расскажем о нашем подходе к созданию архитектуры нейросети, которая с хорошим качеством и высокой скоростью детектирует текст на сложных изображениях.
Читать дальше →

Издевательски точный, быстрый и легковесный поиск баркодов через семантическую сегментацию

Время на прочтение10 мин
Количество просмотров11K

Поиск объектов на изображениях? Имея обучающую выборку и минимальный набор знаний о нейросетях, любой студент сегодня может получить решение определенной точности. Однако большинство нейросетей, использующихся для решения этой задачи, достаточно глубокие, а соответственно, требуют много данных для обучения, сравнительно медленно работают на этапе inference (особенно если на устройстве отсутствует GPU), много весят и достаточно энергозатратны. Все вышеперечисленное может быть весьма критично в определенных случаях, в первую очередь, для мобильных приложений.


Баркоды — объекты с достаточно простой структурой. В ходе исследований у нас получилось с помощью сравнительно оригинального подхода искать такие простые объекты весьма точно (мы побили state-of-the-art) и достаточно быстро (real-time на среднем CPU). Плюс наш детектор очень легкий, имеющий всего 30к весов. О результатах нашего исследования мы и расскажем в этой статье.

Читать дальше →

Куда приводит ABBYY Road

Время на прочтение7 мин
Количество просмотров2.1K
image
Какое лето ждет человека, который работает в ABBYY? Яркое и наполненное новыми впечатлениями. Для этого еще в 2008 году мы придумали «Лето с ABBYY» – серию разнообразных поездок, экскурсий и походов. Каждый из нас может найти себе что-то по душе – от экскурсий на «Красный октябрь» и в Центральный музей ВВС в Монино до турнира по пляжному волейболу или SUP сафари в Серебряном бору. Записаться и участвовать может любой желающий, а еще можно позвать родных, детей и друзей.

Как правило, наше «Лето» начинается еще в конце мая с двухдневного автопробега ABBYY Road. И если вы записались на него, то с большой вероятностью попадете в компанию людей, которые нечасто пересекаются по работе, из разных проектов и подразделений – от разработчиков, product owner’ов и дизайнеров до юристов и маркетологов. И во время путешествия ничего не мешает им познакомиться. А еще самому куда-то собраться бывает лениво. Гораздо удобнее, когда продумать маршрут и организовать поездку помогают более опытные путешественники.

В этом посте мы немного расскажем об истории ABBYY Road и о тонкостях организации автопробега, а затем проведем вас по маршруту этого года по Липецкой области, покажем время, километраж, карты и еще кое-что. Поехали!
Читать дальше →

Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR

Время на прочтение8 мин
Количество просмотров7.9K
В последнее время мы в группе распознавания компании ABBYY всё больше применяем нейронные сети в различных задачах. Очень хорошо они зарекомендовали себя в первую очередь для сложных видов письменности. В прошлых постах мы рассказывали о том, как мы используем нейронные сети для распознавания японской, китайской и корейской письменности.

image Пост про распознавания японских и китайских иероглифов
image Пост про распознавание корейских символов

В обоих случаях мы использовали нейронные сети с целью полной замены метода классификации отдельного символа. Во всех подходах фигурировало множество различных сетей, и в задачи некоторых из них входила необходимость адекватно работать на изображениях, которые не являются символами. Модель в этих ситуациях должна как-то сигнализировать о том, что перед нами не символ. Сегодня мы как раз расскажем о том, зачем это в принципе может быть нужно, и о подходах, с помощью которых можно добиться желаемого эффекта.

Мотивация


А в чём вообще проблема? Зачем нужно работать на изображениях, которые не являются отдельными символами? Казалось бы, можно разделить фрагмент строки на символы, классифицировать их все и собрать из этого результат, как, например, на картинке ниже.



Да, конкретно в данном случае так действительно можно сделать. Но, увы, реальный мир устроен куда более сложно, и на практике при распознавании приходится иметь дело с геометрическими искажениями, смазом, пятнами кофе и прочими трудностями.
Читать дальше →

Соревнование ML-систем на лингвистическом материале. Как мы учились заполнять пропуски

Время на прочтение10 мин
Количество просмотров3.4K
Каждый год в Москве проходит конференция "Диалог", в которой участвуют лингвисты и специалисты по анализу данных. Они обсуждают, что такое естественный язык, как научить машину его понимать и обрабатывать. В рамках конференции традиционно проводятся соревнования (дорожки) Dialogue Evaluation. В них могут участвовать как представители крупных компаний, создающих решения в области обработки естественного языка (Natural Language Processing, NLP), так и отдельные исследователи. Может показаться, что если ты простой студент, то тебе ли тягаться с системами, которые крупные специалисты больших компаний создают годами. Dialogue Evaluation — это как раз тот случай, когда в итоговой турнирной таблице простой студент может оказаться выше именитой компании.

Этот год станет уже 9-ым по счету, когда на «Диалоге» проводится Dialogue Evaluation. Каждый год количество соревнований разное. Темами для дорожек уже становились такие задачи NLP, как анализ тональности (Sentiment Analysis), разрешение лексической многозначности (Word Sense Induction), нахождение опечаток (Automatic Spelling Correction), выделение сущностей (Named Entity Recognition) и другие.

В этом году четыре группы организаторов подготовили такие дорожки:
  • Генерация заголовков для новостных статей.
  • Разрешение анафоры и кореференции.
  • Морфологический анализ на материале малоресурсных языков.
  • Автоматический анализ одного из видов эллипсиса (гэппинга).

Сегодня мы расскажем про последнюю из них: что такое эллипсис и зачем учить машину восстанавливать его в тексте, как мы создавали новый корпус, на котором можно решить эту задачу, как проходили сами соревнования и каких результатов смогли добиться участники.
Читать дальше →

Каким будет «Диалог» лингвистов и специалистов по анализу данных

Время на прочтение5 мин
Количество просмотров2.7K
С 29 мая по 1 июня в Российском государственном гуманитарном университете (РГГУ) пройдет 25-ая международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог». О том, что такое «Диалог» и почему ABBYY его основной организатор, мы уже говорили на Хабре. В этом посте мы расскажем об основных темах конференции, ключевых спикерах, их докладах и о четырех соревнованиях по созданию систем автоматического анализа текстов в рамках Dialogue Evaluation.
Читать дальше →

Secret Santa, квесты, квиз и каток – как мы встречали ABBYY New Year

Время на прочтение4 мин
Количество просмотров4.1K
Скоро новый год, и, чтобы поднять всем праздничное настроение, мы решили запилить этот пост и показать, что творилось в стенах ABBYY последние пару месяцев. Хотите узнать, как выглядят аббишные новогодние эльфы, какие тайны сокрыты в посылках Секретного Санты из Австралии, сколько килограммов оливье мы съели за один день и чем можно разнообразить катание на льду в -13 градусов? Тогда поехали!

Под катом много фоток (~ 5 Мб)
Читать дальше →

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Время на прочтение11 мин
Количество просмотров7.5K
Недавно системный аналитик технологического департамента компании ABBYY Егор Будников выступил в «Яндексе» на конференции «Data & Science: закон и делопроизводство». Он рассказал, как работает компьютерное зрение, происходит обработка текстов, на что важно обращать внимание при извлечении информации из юридических документов и о многом другом.


— У компании могут быть развитые методологии анализа данных и электронный документооборот, при этом от клиентов или от соседних отделов в компанию могут приходить документы, созданные в Word, при этом распечатанные, отксерокопированные, отсканированные и принесенные на флешке.

Что же делать с документооборотом, который есть сейчас, с «грязными» документами, с бумажным хранением, вплоть до того, что документы могут храниться до 70 лет, прежде чем они отсканированы и должны быть распознаны?
Читать дальше →

Как я стал разработчиком в ABBYY

Время на прочтение10 мин
Количество просмотров8.1K
В этот замечательный 256-ой день года поздравляем всех причастных c Днем программиста! И не только тех, кто работает по специальности, но и всех, кто увлекается программированием. По данным исследователей из Evans Data Corporation, в мире 23 миллиона разработчиков. И, наверное, совсем не важно, много это или мало хотя это сопоставимо с населением всей Австралии. Главное, что люди этой профессии каждый день делают вклад в яркое и технологичное будущее.

Желаем всем девелоперам значимых и интересных проектов, побольше хорошего кода, успешных релизов и благодарных клиентов, и, конечно же, отлично отметить свой День, устроив веселый праздник! И по такому поводу наши разработчики рассказывают, как проходит их рабочий день в ABBYY, какими проектами они занимаются и чем увлекаются. Добро пожаловать под кат!
Читать дальше →

Чем на самом деле занимаются стажеры в ABBYY

Время на прочтение9 мин
Количество просмотров5.2K
ABBYY уделяет большое внимание подготовке квалифицированных IT-специалистов и развитию их способностей. Мы считаем, что уже с первых курсов института очень важно привлекать ребят к решению реальных задач в областях OCR, машинного обучения, NLP и к участию в существующих проектах, потому что теория не возможна без практики. Поэтому мы приглашаем талантливых студентов МФТИ, МГУ, ВШЭ и других ВУЗов к нам на стажировки. Это может быть практика не только на лето, но на более длительное время. В любом случае у студента в ABBYY есть хорошая возможность проявить себя, поучаствовать в работе над реальными продуктами, получить новые знания, полезные навыки и присоединиться к нашей команде. Ребята всегда могут договориться со своими наставниками и совмещать практику с учебой. В этом посте мы расскажем, как проходят стажировки в ABBYY и чем на самом деле занимаются здесь студенты ;)
Читать дальше →

Сколько жизней у электролома, старой одежды и крышечек от бутылок?

Время на прочтение6 мин
Количество просмотров8.3K
image

Мы в ABBYY стараемся приносить пользу не только бизнесу и людям, но и нашей планете. Уже давно в офисе и вне его следуем нескольким правилам, которые помогают беречь природу: экономнее использовать бумагу, сдавать старые батарейки и энергосберегающие лампочки, участвовать в субботниках. Наше дело живет и развивается: сотрудники предлагают новые идеи, а компания их подхватывает и помогает претворять в жизнь. В этом посте мы расскажем, какие эко-инициативы есть в ABBYY и какие результаты это приносит. А еще поделимся с вами информацией, где вы можете сдать разные материалы на переработку.
Читать дальше →

Как проходит набор на кафедры ABBYY в МФТИ

Время на прочтение6 мин
Количество просмотров9.4K
В этом году кафедре ABBYY на факультете инноваций и высоких технологий (ФИВТ) Московского физико-технического института исполнилось 12 лет. За это время мы подготовили более 240 квалифицированных IT-специалистов, почти сотня из которых работают в компании. Наши разработчики создают уникальные технологии интеллектуальной обработки информации, которыми пользуются более 50 миллионов пользователей свыше чем в 200 странах мира. Сохраняя традицию, в апреле мы провели набор студентов на следующий, 2019 год. Сегодня мы расскажем о том, как ищем талантливых ребят, чему их учим и почему они хотят работать в нашей компании.

image
Читать дальше →

Информация

В рейтинге
751-й
Откуда
Россия
Работает в
Зарегистрирован
Активность