• Распознаём тексты на Android Things с ABBYY RTR SDK и django

    • Tutorial

    Привет! Меня зовут Азат Калмыков, я студент второго курса ОП “Прикладная математика и информатика” Факультета компьютерных наук НИУ ВШЭ и стажёр в отделе мобильной разработки компании ABBYY. В этом материале я расскажу про свой небольшой проект, выполненный в рамках летней стажировки.



    Представьте себе небольшой конвейер. По нему едут товары или какие-то детали, на которых важно распознавать текст (возможно, это некий уникальный идентификатор, а может, и что-то более интересное). Хорошим примером будут посылки. Работу конвейера дистанционно контролирует оператор, который отслеживает неполадки и в случае чего решает проблемы. Что может ему в этом помочь? Девайс на платформе Android Things может быть неплохим решением: он мобильный, легко настраивается и может работать через Wi-Fi. Мы решили попробовать использовать технологии ABBYY и узнать, насколько они подходят для таких ситуаций — распознавания текста в потоке на “нестандартных устройствах” из категории Internet of Things. Мы сознательно будем упрощать многие вещи, так как просто строим концепт. Если стало интересно, добро пожаловать под кат.

    Читать дальше →
    • +23
    • 2,2k
    • 4
  • Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

      Недавно системный аналитик технологического департамента компании ABBYY Егор Будников выступил в «Яндексе» на конференции «Data & Science: закон и делопроизводство». Он рассказал, как работает компьютерное зрение, происходит обработка текстов, на что важно обращать внимание при извлечении информации из юридических документов и о многом другом.


      — У компании могут быть развитые методологии анализа данных и электронный документооборот, при этом от клиентов или от соседних отделов в компанию могут приходить документы, созданные в Word, при этом распечатанные, отксерокопированные, отсканированные и принесенные на флешке.

      Что же делать с документооборотом, который есть сейчас, с «грязными» документами, с бумажным хранением, вплоть до того, что документы могут храниться до 70 лет, прежде чем они отсканированы и должны быть распознаны?
      Читать дальше →
      • +16
      • 1,9k
      • 1
    • Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group

        Чем занимаются в департаменте R&D в ABBYY? Чтобы ответить на этот вопрос, мы начинаем серию публикаций о том, как наши разработчики создают новые технологии и совершенствуют существующие решения. Сегодня расскажем про направление Natural Language Processing (NLP).

        Мы в ABBYY занимаемся исследованиями в сфере обработки естественного языка и беремся за сложные научные задачи, для которых пока нет готовых решений. Так мы создаем инновации, которые ложатся в основу продуктов и помогают нашим заказчикам, да и нам двигаться вперед. Кстати, 24 ноября на лекции в Школе глубокого обучения при МФТИ руководитель NLP Advanced Research Group в департаменте R&D ABBYY Иван Смуров расскажет, какие в мире есть задачи по анализу текста и как современные нейросети позволяют их решать. А в этом посте Иван рассказал нам о трех задачах, которыми занимается сейчас.
        Читать дальше →
        • +11
        • 1,9k
        • 6
      • Как я стал разработчиком в ABBYY

          В этот замечательный 256-ой день года поздравляем всех причастных c Днем программиста! И не только тех, кто работает по специальности, но и всех, кто увлекается программированием. По данным исследователей из Evans Data Corporation, в мире 23 миллиона разработчиков. И, наверное, совсем не важно, много это или мало хотя это сопоставимо с населением всей Австралии. Главное, что люди этой профессии каждый день делают вклад в яркое и технологичное будущее.

          Желаем всем девелоперам значимых и интересных проектов, побольше хорошего кода, успешных релизов и благодарных клиентов, и, конечно же, отлично отметить свой День, устроив веселый праздник! И по такому поводу наши разработчики рассказывают, как проходит их рабочий день в ABBYY, какими проектами они занимаются и чем увлекаются. Добро пожаловать под кат!
          Читать дальше →
        • Чем на самом деле занимаются стажеры в ABBYY

            ABBYY уделяет большое внимание подготовке квалифицированных IT-специалистов и развитию их способностей. Мы считаем, что уже с первых курсов института очень важно привлекать ребят к решению реальных задач в областях OCR, машинного обучения, NLP и к участию в существующих проектах, потому что теория не возможна без практики. Поэтому мы приглашаем талантливых студентов МФТИ, МГУ, ВШЭ и других ВУЗов к нам на стажировки. Это может быть практика не только на лето, но на более длительное время. В любом случае у студента в ABBYY есть хорошая возможность проявить себя, поучаствовать в работе над реальными продуктами, получить новые знания, полезные навыки и присоединиться к нашей команде. Ребята всегда могут договориться со своими наставниками и совмещать практику с учебой. В этом посте мы расскажем, как проходят стажировки в ABBYY и чем на самом деле занимаются здесь студенты ;)
            Читать дальше →
            • +20
            • 3,1k
            • 2
          • Сколько жизней у электролома, старой одежды и крышечек от бутылок?

              image

              Мы в ABBYY стараемся приносить пользу не только бизнесу и людям, но и нашей планете. Уже давно в офисе и вне его следуем нескольким правилам, которые помогают беречь природу: экономнее использовать бумагу, сдавать старые батарейки и энергосберегающие лампочки, участвовать в субботниках. Наше дело живет и развивается: сотрудники предлагают новые идеи, а компания их подхватывает и помогает претворять в жизнь. В этом посте мы расскажем, какие эко-инициативы есть в ABBYY и какие результаты это приносит. А еще поделимся с вами информацией, где вы можете сдать разные материалы на переработку.
              Читать дальше →
            • Инженеров и компьютерных лингвистов – к «Диалогу»

                С 30 мая по 2 июня в Российском государственном гуманитарном университете (РГГУ) пройдет 24-ая международная научная конференция по компьютерной лингвистике «Диалог». Мы уже рассказывали о том, что такое «Диалог» и почему ABBYY его основной организатор. В этом посте мы анонсируем основные темы конференции, ключевых спикеров и их доклады, публикуем информацию о соревнованиях по разрешению лексической многозначности на русском языке Dialogue Evaluation и другие подробности о конференции.
                Читать дальше →
              • Google I/O 2018: руководство пользователя

                  Всем привет. С 8 по 10 мая я провёл на ежегодной конференции для разработчиков Google I/O. Это одно из наиболее значимых технологических событий года. Вернувшись из Калифорнии со свежими новостями Android-разработки, хочу поделиться своими впечатлениями и советами по поездке в следующем году.

                  image
                  Читать дальше →
                  • +19
                  • 5,5k
                  • 6
                • Как проходит набор на кафедры ABBYY в МФТИ

                    В этом году кафедре ABBYY на факультете инноваций и высоких технологий (ФИВТ) Московского физико-технического института исполнилось 12 лет. За это время мы подготовили более 240 квалифицированных IT-специалистов, почти сотня из которых работают в компании. Наши разработчики создают уникальные технологии интеллектуальной обработки информации, которыми пользуются более 50 миллионов пользователей свыше чем в 200 странах мира. Сохраняя традицию, в апреле мы провели набор студентов на следующий, 2019 год. Сегодня мы расскажем о том, как ищем талантливых ребят, чему их учим и почему они хотят работать в нашей компании.

                    image
                    Читать дальше →
                    • +18
                    • 7,4k
                    • 5
                  • Как я съездил на CodeFest

                      image

                      31 марта и 1 апреля в Новосибирске в очередной раз случился CodeFest. В этом посте я расскажу, как съездил на самую большую разработческую конференцию за Уралом и почему в следующем году вам тоже стоит поехать.
                      Читать дальше →
                    • Открываем историю Большого театра. Часть первая

                        image

                        Вы когда-нибудь собирали театральные программки? Если да, то, наверное, в вашей коллекции их десятки, а может, наберется и сотня. А теперь представьте, что в вашем распоряжении 120 тысяч программок, 48 тысяч афиш и 100 тысяч исторических фотографий. Столько бумажных документов сохранил с середины XIX века Большой театр. Самые древние и ценные из них уже пожелтели и стали ветхими, а на поиск информации в театральном архиве уходили часы. Чтобы сохранить эти сокровища, сотрудники театрального музея начали вручную переводить документы в электронный вид, но оказалось, что на это могут уйти годы.

                        Поэтому в сентябре 2016 года вместе с Большим театром и при активной поддержке Феклы Толстой, праправнучки Льва Николаевича Толстого, мы запустили краудсорсинговый проект по оцифровке истории главного театра страны. В этом посте мы расскажем о подробностях первого этапа проекта и о его технических деталях: как мы оцифровывали уникальные документы с помощью ABBYY FineReader и как волонтеры помогали проверять результаты распознавания.
                        Читать дальше →
                        • +31
                        • 3,2k
                        • 8
                      • How to: Правильно называем методы-свойства класса


                          • Как вы называете парные методы Get/Set? Допускается ли делать их несимметричными? А если для свойства используется глагол Is? А если какой-нибудь модальный глагол вроде Can?
                          • Допускается ли вместо Get/Set использовать пары Is/Set?
                          • И если есть ограничения, то это ваш сознательный выбор или корпоративный стандарт?
                          Читать дальше →
                        • Как мы помогали оцифровать вековую историю наблюдений за погодой в Бразилии

                            image

                            Ученые Национального института метеорологии Бразилии с 1909 года записывают всю информацию о погодных условиях и изменениях климата в стране. Исследователи анализируют эти данные и строят на их основе прогнозы. За сто лет специалисты собрали более 3 миллионов страниц записей о погоде в знойном Рио-де-Жанейро, на грохочущих водопадах Игуасу, в сумрачных лесах Амазонки и в туманном Сан-Паулу. Но вся информация хранилась в бумажном виде. С каждым годом ее копилось все больше, а старые записи приходили в негодность. Исследователям становилось все сложнее работать с документами.

                            Сегодня мы расскажем о том, как с помощью нашей технологии ABBYY FlexiCapture Engine Национальный институт метеорологии Бразилии оцифровал архив наблюдений за погодой, который ученые собирали более 100 лет.
                            Читать дальше →
                            • +33
                            • 5,1k
                            • 2
                          • Первый пользователь с миллионом на Stack Overflow

                              Achievement unlocked: на Stack Overflow появился первый пользователь с 1 миллионом баллов репутации.

                              Stack Overflow открыт в сентябре 2008 года и с тех пор помогает разработчикам со всего мира находить необходимые ответы на технические вопросы. Например, сайт показал миллиону пользователей выход из Vim. На январь 2017 года на Stack Overflow 8 миллионов зарегистрированных пользователей, 15 миллионов вопросов и 24 миллиона ответов. Еще десять лет назад ничего этого не было.


                              Читать дальше →
                            • Дорожка по извлечению значений слов из текстов и разрешению лексической многозначности

                                Ежегодно в России проходит крупнейшая конференция по компьютерной лингвистике «Диалог», на которой специалисты обсуждают методы компьютерного анализа русского языка, оценивают уровень компьютерного языкознания и определяют направления его развития. Каждый год в рамках «Диалога» организуются соревнования систем автоматической обработки русского языка — Dialogue Evaluation. В этом посте мы расскажем о том, как устроено соревнование Dialogue Evaluation, и более подробно о том, как проходит одна из его составляющих — RUSSE и что ждет его участников в этом году. Поехали.

                                image

                                Читать дальше →
                              • Хакатон от ABBYY

                                  В прошлый раз мы анонсировали конкурс идей (и он, кстати, продолжается, вы всё ещё можете выиграть iPhone X), а теперь приглашаем вас на хакатон по мобильным сервисам от ABBYY. Пройдёт 7-8 октября в ФизТехПарке. Направления самые разные. Крутое жюри. Призовой фонд 220 000 рублей. Заявки принимаются до 3 октября включительно на mobility.abbyy.com/hack
                                  А подробности ниже.
                                  Читать дальше →
                                • Конкурс идей от ABBYY – как выиграть новый iPhone

                                    mABBYYlity logoВсем привет. Меня зовут Игорь Акимов, я руководитель направления мобильных продуктов ABBYY. Наверное, многие знают ABBYY по лучшим словарям Lingvo и помощнику любого студента FineReader, но кроме этого мы занимаемся ещё много чем интересным в сфере интеллектуальной обработки информации и лингвистики. За 28 лет накопили огромный багаж в сфере машинного обучения и нейросетей, а новых проектов и идей так много, что кажется, нам нужна помощь :) Поэтому мы приглашаем вас принять участие в конкурсе. Мы ищем идеи по применению новых технологий в мобильной разработке, которые будут близки большому числу людей. И назвали конкурс мы смело – mABBYYlity (тут и ABBYY, и мобильность, и ability – способность). Короче, всё основное тут – mobility.abbyy.com. А в статью за подробностями.
                                    Читать дальше →
                                  • «Предъявите документы» или что поможет распознать паспорт

                                      Мы уже говорили о распознавании текста из видеопотока, его преимуществах по сравнению с обработкой фотографии и сценариях, где это особенно полезно.

                                      Сегодня мы запускаем ABBYY Real-Time Recognition SDK для мобильных платформ Android и iOS. Поэтому хотим поговорить об особенностях распознавания данных на мобильном устройстве, а именно, об извлечении информации в видеопотоке на примере одного из самых сложных документов – гражданского паспорта.

                                      Всем нам часто приходится использовать свои паспортные данные. Паспорт нужен для регистрации в мобильном банке или платёжной системе, покупки билетов, аренды машины. Сейчас многие используют для этих задач смартфон. Набирать информацию на маленькой клавиатуре мобильного устройства очень неудобно. Особенно неприятное поле для ввода – это данные о месте выдачи паспорта: обычно они занимают пару-тройку строк и содержат множество аббревиатур.
                                      Читать дальше →
                                    • Мобильный OCR. Как всё начиналось (часть 2)

                                        В предыдущем посте мы начали рассказывать, как OCR-технологии «переезжали» с настольных компьютеров в смартфоны – а началось всё с приложения для сканирования визиток Business Card Reader. Но сканирование визиток – это только один сценарий, где нужно мобильное распознавание. О том, как решались другие задачи хотелки пользователей, – читайте ниже.

                                        Как мы уже говорили, перенос технологии распознавания на смартфоны связан с кучей ограничений и сложностей. Главной была и остаётся ресурсоёмкость технологии – невозможно перенести ее в мобильное устройство как есть. Но у нас уже с 2007 года был готовый инструментарий разработчика ABBYY Mobile OCR Engine, который позволял на мобильном оцифровать изображение и выдать результат в формате TXT без сохранения форматирования. И для начала в 2011 году мы решили воплотить в жизнь небольшие пользовательские сценарии, в которых такое «элементарное» распознавание вполне подходило.
                                        Читать дальше →
                                        • +27
                                        • 4,7k
                                        • 3
                                      • Подписки в ABBYY Cloud OCR SDK: «заткнитесь и возьмите мои деньги!»

                                          Хорошая новость™: теперь в ABBYY Cloud OCR SDK помимо разовой покупки страниц можно оформить подписку через PayPal. Мы долго планировали эту разработку, довольно долго она была в состоянии беты для ограниченного круга пользователей. Сейчас подписки доступны всем, а этот пост – о разных технических и социальных моментах этой эпичной разработки.

                                          Начать нужно с ответа на вопрос «зачем». Ответ на него: подписки удобны и понятны многим пользователям. Хотя покупать пакеты страниц тоже удобно и несложно, пользователю нужно следить за остатком страниц приложения и докупать страницы. Сервис умеет отправлять предупреждение о скором исчерпании остатка страниц, но пользователь может его пропустить. Если пользователь забудет докупить страницы – его приложение может в самый неподходящий момент доизрасходовать остаток страниц и перестать работать.

                                          Капитан подсказывает решение: автоматизация. Пользователь может продолжать докупать пакеты страниц, а может оформить подписку. Конечно, подписку можно прекратить в любой момент, в этом случае положительный остаток страниц не изменится, его можно будет израсходовать позже.

                                          Мы старались сделать логику подписок как можно более понятной и одновременно удобной для пользователей.
                                          Читать дальше →

                                        Самое читаемое