• Победители соревнований Dialogue Evaluation – о задачах, языковых моделях, ML и о себе

      Недавно завершился «Диалог 2020», международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям. Партнером конференции впервые стала Физтех-школа прикладной математики и информатикии (ФПМИ) МФТИ. Традиционно одно из ключевых событий «Диалога» – это Dialogue Evaluation, соревнования между разработчиками автоматических систем лингвистического анализа текстов. Мы уже рассказывали на Хабре о задачах, которые участники состязаний решали в прошлом году, например, о генерации заголовков и поиске пропущенных слов в тексте. Сегодня мы поговорили с победителями двух дорожек Dialogue Evaluation этого года — Владиславом Корзуном и Даниилом Анастасьевым — о том, почему они решили участвовать в технологических соревнованиях, какие задачи и какими способами решали, чем ребята интересуются, где учились и чем планируют заниматься в будущем. Добро пожаловать под кат!
      Читать дальше →
    • Как создавать и изменять интерактивные PDF-формы, или новый скилл ABBYY FineReader PDF

        Мы регулярно обучаем ABBYY FineReader PDF новым навыкам. Две недели назад мы рассказали на Хабре, как научили ABBYY FineReader PDF редактировать целые абзацы. Этот пост — о еще одном продвижении нашего продукта на пути к совершенству: программа теперь умеет создавать и редактировать интерактивные PDF-формы.

        Раньше ABBYY FineReader PDF мог только заполнять такие формы – заявления на отпуск или визу, резюме, согласие на обработку персональных данных, исследования, опросы и т.д. Но что если компании нужно создать в формате PDF анкету, разработать шаблон документа или отредактировать в готовом бланке несколько полей, чтобы затем отправить его сотрудникам или клиентам? Теперь все это можно сделать в одной программе. О том, как это работает, для чего и кому может понадобиться такая функциональность, мы сегодня и расскажем. Поехали!
        Читать дальше →
      • ABBYY NeoML: как мы делали библиотеку машинного обучения и зачем она нужна


          Привет, Хабр! Меня зовут Стас, и я отвечаю за направление Common Libraries в компании ABBYY. Недавно мы выложили на GitHub созданную нами библиотеку для машинного обучения NeoML.


          NeoML — это кроссплатформенная C++ библиотека, позволяющая организовать полный цикл разработки ML-моделей. Основной фокус в ней сделан на простом и эффективном запуске готовых моделей на различных платформах. Даже если эти модели созданы другими фреймворками.


          Вы спросите: зачем нужна еще одна библиотека машинного обучения?


          Ниже я отвечу на этот вопрос, расскажу, как мы создавали нашу библиотеку, с какими сложностями столкнулись и что в итоге получилось. И в конце приведу результаты сравнительных замеров производительности.

          Читать дальше →
        • Открываем историю Большого. Часть вторая

            image

            Привет, Хабр. Хорошие новости: мы успешно завершили краудсорсинговый проект «Открой историю Большого» по оцифровке программ, афиш и фотографий, которые хранятся в музее Большого театра. Итогами делимся на сайте openbolshoi.ru, а в этом посте рассказываем, как технически был организован проект.

            О том, почему мы начали заниматься этим проектом и что сделали на первом этапе, можно почитать здесь. А что же было дальше? После первой части проекта мы благодаря ABBYY FineReader PDF и с помощью волонтеров подготовили файлы программ и афиш в формате PDF с вычитанным текстовым слоем и передали их музею Большого театра. Теперь все данные хранятся в электронном виде, и сотрудники используют их, чтобы искать и копировать нужную информацию. Это быстрее и удобнее, чем перебирать документы в шкафах и перепечатывать текст из оригиналов.

            Но как узнать больше о представлениях, а также о людях, чьи судьбы тесно связаны с историей театра? Как собрать статистику:


            Помогли технологии Natural Language Processing (NLP), разработанные в ABBYY. Сегодня мы расскажем, как на втором этапе проекта алгоритмы извлекли из программ и афиш необходимые сведения, заполнили поля базы данных, а затем 7500 волонтеров проверили и дополнили информацию. А в конце поста читайте, как сейчас создается электронный архив музея с удобным поиском по всем представлениям и персонам.
            Читать дальше →
            • +24
            • 1,8k
            • 4
          • «Диалог» компьютерных лингвистов и специалистов по анализу данных впервые пройдет онлайн и бесплатно

              Текущая ситуация в мире не повод останавливать диалог, особенно если его можно вести онлайн. С 17 по 20 июня состоится 26-ая Международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог». В этот раз она пройдет онлайн и будет бесплатной. Много лет основным организатором конференции выступает ABBYY: мы заинтересованы в развитии компьютерной лингвистики, обработки естественного языка (Natural Language Processing, NLP) и проведении исследований в этих областях. Подробнее о том, что такое «Диалог» и зачем он нужен, мы уже говорили на Хабре.

              Сегодня расскажем об интересных событиях, которые запланированы на предстоящей конференции: докладах, темах дискуссий и трех технологических соревнованиях в рамках Dialogue Evaluation – по извлечению семантических отношений из деловых текстов, автоматическому поиску гиперонимов и морфосинтаксическому анализу текстов. Поехали!
              Читать дальше →
            • Как мы научили ABBYY FineReader PDF редактировать целые абзацы


                Сегодня мы обновили ABBYY FineReader 15 и выпустили его под брендом ABBYY FineReader PDF, потому что он объединяет все инструменты для работы с PDF. По этому поводу публикуем первый пост из серии материалов о фичах программы. В нем мы расскажем об одной интересной возможности, которая не первый месяц есть в программе, но, возможно, не все о ней знали.

                Давно ли вы открывали PDF-файлы? Готовы поспорить, что совсем недавно. Скорее всего, на вашем компьютере точно найдется пара сканов, а может, еще и макет презентации, аналитическое исследование или техническая инструкция. Для каких задач обычно используют эти документы? По данным опроса ABBYY, 62% респондентов ищут информацию в PDF, 60% — копируют текст из документа, а 52% — редактируют: вносят в файл правки, исправляют ошибки и опечатки.

                Даже сейчас не все знают, что можно редактировать текст в PDF. Да, изменение таких файлов устроено не так, как редактирование обычного текстового документа. ABBYY FineReader PDF с многофункциональным текстовым редактором для работы с PDF и сканами позволяет быстро внести изменения прямо в PDF, без утомительной конвертации файла в другие форматы. При редактировании текст в PDF плавно перетекает со строчки на строчку, как в MS Word. Можно добавить или удалить несколько слов, изменить целые абзацы или даже поменять их местами.

                В этом посте мы раскроем технические подробности редактирования многострочных фрагментов текста в FineReader: как мы изменили движок программы, как редактирование устроено изнутри и как оно выглядит для пользователя. Поехали!
                Читать дальше →
              • Давид Ян – о неинвазивности, кризисах и выжженной земле

                  Недавно я модерировал конференцию ABBYY «Месяц на удалёнке». На ней мы поговорили с Давидом Яном, серийным предпринимателем, основателем ABBYY и еще десятка компаний в области технологий и искусственного интеллекта.
                  Что происходит в мире? Как компании реагируют на текущую ситуацию? Какие шаги нужно предпринять, чтобы кризис не так жестко ударил по бизнесу, и чего нам всем ждать в будущем? Текстовую версию нашей беседы я публикую на Хабре, а аудио можно послушать в моём подкасте «Проветримся!»
                  Читать дальше →
                • Про сильную матрицу и атмосферу в команде разработки

                    Привет, Хабр. Сегодня хотим поделиться с вами интервью с руководителем команды разработки одного из новых продуктов ABBYY. Мы поговорили с ним про найм, принципы построения команды, развитие разработчиков, систему грейдов и другие околопроцессные вещи, которые так или иначе затрагивают всех разработчиков и тимлидов мира. Ну или почти всех.


                    Читать дальше →
                  • Как мы технически обеспечиваем работу офисов ABBYY во время карантина

                      Хабр, привет! Меня зовут Олег, и я отвечаю за IT-службу в группе компаний ABBYY. Больше месяца назад сотрудники ABBYY по всему миру начали работать и жить только дома. Больше никакого опенспейса и командировок. Поменялась ли моя работа? Нет. Хотя вообще-то да, но она изменилась еще 2-3 года назад. А сейчас мы технически обеспечиваем работу офисов в 13 странах так же, как и раньше. Просто теперь мы делаем это сидя дома – на кухне, на диване или на балконе, а в офисе только один дежурный. Кстати, вот и он:


                      Сегодня я расскажу о том, какие задачи сейчас приходится решать IT-службе ABBYY, как нас спасают дежурные в офисах, почему MS Teams и Zoom теперь наше всё, и о многом другом. Добро пожаловать под кат.
                      Читать дальше →
                    • Как писать код, когда вокруг тебя бегают дети и спрашивают: «А во что ты будешь работать?»

                        «Предвкушаю семейный дурдом», — ответила моя коллега за несколько дней до того, как начались трудовые будни на самоизоляции. До этого было легко спрятаться от семейства в офисе, где к тому же есть детская комната. Туда сотрудники приводили своих детей, и с ними занимался воспитатель. Но теперь все изменилось, и многим приходится выкручиваться самим, чтобы обрести, назовём это, work-children balance. А это вообще возможно? Мы попросили наших разработчиков и тимлидов поделиться опытом, как одновременно работать из дома, воспитывать маленьких детей и не сойти с ума выжить в этот месяц самоизоляции.
                        Читать дальше →
                      • Про кафедру ABBYY в МФТИ. Мой личный опыт

                          Привет! Меня зовут Алексей, в этом году я заканчиваю учебу на бакалавриате ABBYY на Физтехе. А еще пишу диплом, работаю и все это делаю на удаленке. В этом посте я опишу свой опыт поступления на бакалавриат ABBYY: это было пару лет назад, в 2018 году, когда мир был более безопасным (на самом деле нет) и люди могли чаще трогать лицо руками.

                          Я расскажу о том, как я выбирал базовую кафедру и не сошел с ума, легко ли мне было поступить, поделюсь с вами впечатлениями от процесса обучения и стажировки и признаюсь, каково совмещать учебу с работой. Надеюсь, мой пост пригодится студентам, которые размышляют, на какую базовую кафедру в МФТИ поступать и на что при этом обратить внимание. Ведь выбор кафедры очень важен, от него зависит сфера развития на ближайшие несколько лет.
                          Читать дальше →
                        • Игра в бога: искусственные организмы

                            Что-то вроде тизера. Ксеноморфы существуют. Учёные создают ксеноморфов. Учёные создают ксеноморфов из соображений безопасности. Я сам в шоке. Под катом подробнее об этом (а это, кстати, совершенно официально называется ксенобиология) и о много другом, чем занимаются современные биологи. Не всё ж вам про COVID-19 читать!

                            Это первая часть текста, написанного по мотивам эпизода подкаста про искусственные организмы.


                            Читать дальше →
                          • Почему мы выгораем?

                              На дворе март, в теле авитаминоз, в мире эпидемия CoV19, а тут ещё и дедлайны. Дедлайнам про наши тяжёлые жизненные обстоятельства не сообщили. Самое время вспомнить о здоровье. В том числе и психическом. В конце концов, чем работаешь, то и ломается, а работаем мы головой.

                              В октябре прошлого года я летал в Сибирь на TEDx Novosibirsk и в самолёте внезапно оказался рядом с другим спикером – Павлом Буковым. Он психотерапевт и собирался сделать доклад про профессиональное выгорание: как бы выгорать пореже и не дотла. Я, естественно, вспомнил, как год назад выгорел сам. Заодно вспомнил, сколько людей набивается в зал, когда на технологических конференция докладчик рассказывает про выгорание. В общем, пока мы летели в Сибирь, я записал с Павлом эпизод подкаста про стресс и выгорание и решил собрать из него статью.


                              Читать дальше →
                            • Как DLP-система и модуль OCR помешали сотрудникам подделывать сканы паспортов

                                Помните историю с утечкой паспортных данных у 500 млн клиентов сети отелей Marriott? Данные могли оказаться у злоумышленников, и гостиничная группа даже обещала оплатить пострадавшим постояльцам расходы на смену паспортов. Подобных случаев происходит немало. Понятно, почему: на сегодняшний день более 50% компаний хранит больше половины своих документов в виде сканов, скриншотов, PDF. Еще три года назад таких документов в организациях было не более трети. По данным нового исследования «СёрчИнформ», 51% компаний отметили, что количество документов в формате изображений увеличилось.

                                В последнее время чаще всего утечкам в виде изображений подвергаются юридически значимые документы, например, договоры. На втором месте в «группе риска» — финансовые документы: бухгалтерские балансы, отчеты о прибылях и убытках и так далее. Потеря таких данных не только грозит репутационными рисками для компании, но и может привести к срыву сделок. Чтобы уберечь важные данные от посторонних и злоумышленников, в информационные системы компаний устанавливают DLP – системы предотвращения утечек информации.

                                Мы уже рассказывали на Хабре о том, как работает «СёрчИнформ Контур информационной безопасности» (КИБ) и модуль OCR на базе технологического продукта ABBYY FineReader Engine. Теперь вместе с сотрудниками отдела внедрения продуктов «СёрчИнформ» мы собрали четыре истории об утечках разных видов данных через корпоративные и личные почтовые ящики. И разобрались в том, как их выявить с помощью DLP-системы с модулем OCR.



                                В одной туристической компании сотрудник пересылал на личную почту файлы в графическом формате.
                                Читать дальше →
                              • Как NLP-технологии ABBYY научились мониторить новости и управлять рисками

                                  Круг задач, которые можно решить с помощью технологий ABBYY, пополнился еще одной интересной возможностью. Мы обучили свой движок работе банковского андеррайтера – человека, который из гигантского потока новостей вылавливает события о контрагентах и оценивает риски.

                                  Сейчас такие системы на базе технологий ABBYY используют уже несколько крупных российских банков. Мы хотим рассказать о нюансах внедрения этого решения – довольно нетривиальных и неожиданных вызовах, с которыми столкнулись наши онтоинженеры.
                                  Читать дальше →
                                • Как сделать из нейросети журналиста, или «Секреты сокращения текста на Хабре без лишних слов»

                                    Только не удивляйтесь, но второй заголовок к этому посту сгенерировала нейросеть, а точнее алгоритм саммаризации. А что такое саммаризация?

                                    Это одна из ключевых и классических задач Natural Language Processing (NLP). Она заключается в создании алгоритма, который принимает на вход текст и на выходе выдаёт его сокращённую версию. Причем в ней сохраняется корректная структура (соответствующая нормам языка) и правильно передается основная мысль текста.

                                    Такие алгоритмы широко используются в индустрии. Например, они полезны для поисковых движков: с помощью сокращения текста можно легко понять, коррелирует ли основная мысль сайта или документа с поисковым запросом. Их применяют для поиска релевантной информации в большом потоке медиаданных и для отсеивания информационного мусора. Сокращение текста помогает в финансовых исследованиях, при анализе юридических договоров, аннотировании научных работ и многом другом. Кстати, алгоритм саммаризации сгенерировал и все подзаголовки для этого поста.

                                    К моему удивлению, на Хабре оказалось совсем немного статей о саммаризации, поэтому я решил поделиться своими исследованиями и результатами в этом направлении. В этом году я участвовал в соревновательной дорожке на конференции «Диалог» и ставил эксперименты над генераторами заголовков для новостных заметок и для стихов с помощью нейронных сетей. В этом посте я вначале вкратце пробегусь по теоретической части саммаризации, а затем приведу примеры с генерацией заголовков, расскажу, какие трудности возникают у моделей при сокращении текста и как можно эти модели улучшить, чтобы добиться выдачи более качественных заголовков.
                                    Читать дальше →
                                    • +26
                                    • 6,3k
                                    • 9
                                  • Понимаем UICollectionViewLayout на примере Photos App

                                      Здравствуй, Хабр! Меня зовут Никита, я работаю над мобильными SDK в компании ABBYY и в том числе занимаюсь UI-компонентом для сканирования и удобного просмотра многостраничных документов на смартфоне. Этот компонент сокращает время на разработку приложений на базе технологии ABBYY Mobile Capture и состоит из нескольких частей. Во-первых, камера для сканирования документов; во-вторых, экран редактора с результатами захвата (то есть автоматически сделанными фотографиями) и экран исправления границ документа.

                                      Разработчику достаточно вызвать пару методов – и вот в его приложении уже доступна камера, которая автоматически сканирует документы. Но, помимо настроенных камер, нужно предоставить клиентам удобный доступ к результатам сканирования, т.е. автоматически сделанным фотографиям. А если клиент сканирует договор или устав, то таких фотографий может быть очень много.

                                      В этом посте я расскажу о трудностях, которые возникли в процессе реализации экрана редактора с результатами захвата документов. Сам экран представляет из себя две UICollectionView, я их буду называть большой и маленькой. Возможности ручной корректировки границ документа и другой работы с документом я опущу, а фокус сделаю на анимациях и особенностях layout-а во время скролла. Ниже на GIF можно посмотреть, что получилось в итоге. Ссылка на репозиторий будет в конце статьи.



                                      В качестве референсов я часто обращаю внимание на системные приложения Apple. Когда внимательно смотришь на анимации и другие интерфейсные решения их приложений, то начинаешь восхищаться их внимательным отношением к разного рода мелочам. Сейчас мы в качестве референса будем смотреть на приложение Photos (iOS 12). Я обращу ваше внимание на конкретные фичи этого приложения, а дальше мы попробуем их реализовать.
                                      Читать дальше →
                                      • +13
                                      • 4,7k
                                      • 3
                                    • «За месяц стал фуллстек-разработчиком». Студенты рассказывают о стажировке в ABBYY

                                        Уже начал свой путь в IT? Или все еще залипаешь в смартфоне в поисках той самой вакансии? Сделать первый карьерный шаг и разобраться, чем хочется заниматься, поможет стажировка.

                                        Летом к нашей команде присоединились 26 стажеров – студенты МФТИ, НИУ ВШЭ и других вузов. Они пришли на двухмесячную (июль-август) оплачиваемую стажировку. Осенью многие продолжили сотрудничество с ABBYY в формате стажировки на неполный рабочий день, а несколько человек перешли на постоянные позиции. Стажеры занимаются задачами в департаментах R&D. Мы уже делали мини-интервью с ребятами в Stories в нашем Instagram, а на Хабре не так давно был пост от нашего стажера Жени – о его практике в ABBYY.

                                        А теперь мы попросили трех студентов поделиться впечатлениями от стажировки в ABBYY. Какие опыт и знания они уже получили в компании? Как совмещать учебу и работу и не выгореть? Окей, зумеры, сейчас мы вам все расскажем.

                                        image
                                        Читать дальше →
                                      • Находим текст на вывесках и упаковках с помощью смартфона

                                          Проблема автоматического поиска текста на изображениях существует достаточно давно, как минимум с начала девяностых годов прошлого века. Они могли запомниться старожилам повсеместным распространением ABBYY FineReader, умеющим переводить сканы документов в их редактируемые варианты.

                                          Сканеры, подключённые к персональным компьютерам, отлично работают в компаниях, но прогресс не стоит на месте, и мир захватили мобильные устройства. Круг задач работы с текстом тоже поменялся. Теперь текст нужно искать не на идеально прямых листах А4 с чёрным текстом на белом фоне, а на различных визитках, красочных меню, вывесках магазинов и много ещё на чём, что человек может встретить в джунглях современного города.


                                          Реальный пример работы нашей нейросети. Картинка кликабельна.

                                          Основные требования и ограничения


                                          При таком разнообразии условий представления текста рукописные алгоритмы уже не справляются. Здесь на помощь нам приходят нейронные сети с их способностью обобщения. В этом посте мы расскажем о нашем подходе к созданию архитектуры нейросети, которая с хорошим качеством и высокой скоростью детектирует текст на сложных изображениях.
                                          Читать дальше →
                                          • +27
                                          • 4,9k
                                          • 7
                                        • Стажировка в ABBYY: компания, с которой можно на «ты»

                                            Всем привет! В этом посте я хочу рассказать вам о моей летней стажировке в ABBYY. Постараюсь осветить все моменты, которые обычно интересны студентам и начинающим разработчикам при выборе компании. Надеюсь, что кому-то данный пост поможет определиться с планами на следующее лето. В общем, поехали!

                                            image

                                            Для начала расскажу немного о себе. Меня зовут Женя, на момент подачи заявки на стажировку я заканчивал 3 курс МФТИ, Факультет инноваций и высоких технологий (сейчас может быть известен как Физтех-школа прикладной математики и информатики). Мне хотелось выбрать компанию, в которой можно получить опыт работы в области компьютерного зрения: картинки, нейронные сети и вот это вот все. Собственно, с выбором я не прогадал – ABBYY действительно для этого отлично подходит, но об этом позже.
                                            Читать дальше →
                                            • +11
                                            • 6,2k
                                            • 4

                                          Самое читаемое