• Как я стал разработчиком в ABBYY

      В этот замечательный 256-ой день года поздравляем всех причастных c Днем программиста! И не только тех, кто работает по специальности, но и всех, кто увлекается программированием. По данным исследователей из Evans Data Corporation, в мире 23 миллиона разработчиков. И, наверное, совсем не важно, много это или мало хотя это сопоставимо с населением всей Австралии. Главное, что люди этой профессии каждый день делают вклад в яркое и технологичное будущее.

      Желаем всем девелоперам значимых и интересных проектов, побольше хорошего кода, успешных релизов и благодарных клиентов, и, конечно же, отлично отметить свой День, устроив веселый праздник! И по такому поводу наши разработчики рассказывают, как проходит их рабочий день в ABBYY, какими проектами они занимаются и чем увлекаются. Добро пожаловать под кат!
      Читать дальше →
    • Чем на самом деле занимаются стажеры в ABBYY

        ABBYY уделяет большое внимание подготовке квалифицированных IT-специалистов и развитию их способностей. Мы считаем, что уже с первых курсов института очень важно привлекать ребят к решению реальных задач в областях OCR, машинного обучения, NLP и к участию в существующих проектах, потому что теория не возможна без практики. Поэтому мы приглашаем талантливых студентов МФТИ, МГУ, ВШЭ и других ВУЗов к нам на стажировки. Это может быть практика не только на лето, но на более длительное время. В любом случае у студента в ABBYY есть хорошая возможность проявить себя, поучаствовать в работе над реальными продуктами, получить новые знания, полезные навыки и присоединиться к нашей команде. Ребята всегда могут договориться со своими наставниками и совмещать практику с учебой. В этом посте мы расскажем, как проходят стажировки в ABBYY и чем на самом деле занимаются здесь студенты ;)
        Читать дальше →
        • +20
        • 2,9k
        • 2
      • Сколько жизней у электролома, старой одежды и крышечек от бутылок?

          image

          Мы в ABBYY стараемся приносить пользу не только бизнесу и людям, но и нашей планете. Уже давно в офисе и вне его следуем нескольким правилам, которые помогают беречь природу: экономнее использовать бумагу, сдавать старые батарейки и энергосберегающие лампочки, участвовать в субботниках. Наше дело живет и развивается: сотрудники предлагают новые идеи, а компания их подхватывает и помогает претворять в жизнь. В этом посте мы расскажем, какие эко-инициативы есть в ABBYY и какие результаты это приносит. А еще поделимся с вами информацией, где вы можете сдать разные материалы на переработку.
          Читать дальше →
        • Инженеров и компьютерных лингвистов – к «Диалогу»

            С 30 мая по 2 июня в Российском государственном гуманитарном университете (РГГУ) пройдет 24-ая международная научная конференция по компьютерной лингвистике «Диалог». Мы уже рассказывали о том, что такое «Диалог» и почему ABBYY его основной организатор. В этом посте мы анонсируем основные темы конференции, ключевых спикеров и их доклады, публикуем информацию о соревнованиях по разрешению лексической многозначности на русском языке Dialogue Evaluation и другие подробности о конференции.
            Читать дальше →
          • Google I/O 2018: руководство пользователя

              Всем привет. С 8 по 10 мая я провёл на ежегодной конференции для разработчиков Google I/O. Это одно из наиболее значимых технологических событий года. Вернувшись из Калифорнии со свежими новостями Android-разработки, хочу поделиться своими впечатлениями и советами по поездке в следующем году.

              image
              Читать дальше →
              • +19
              • 5,5k
              • 6
            • Как проходит набор на кафедры ABBYY в МФТИ

                В этом году кафедре ABBYY на факультете инноваций и высоких технологий (ФИВТ) Московского физико-технического института исполнилось 12 лет. За это время мы подготовили более 240 квалифицированных IT-специалистов, почти сотня из которых работают в компании. Наши разработчики создают уникальные технологии интеллектуальной обработки информации, которыми пользуются более 50 миллионов пользователей свыше чем в 200 странах мира. Сохраняя традицию, в апреле мы провели набор студентов на следующий, 2019 год. Сегодня мы расскажем о том, как ищем талантливых ребят, чему их учим и почему они хотят работать в нашей компании.

                image
                Читать дальше →
                • +18
                • 7,3k
                • 5
              • Как я съездил на CodeFest

                  image

                  31 марта и 1 апреля в Новосибирске в очередной раз случился CodeFest. В этом посте я расскажу, как съездил на самую большую разработческую конференцию за Уралом и почему в следующем году вам тоже стоит поехать.
                  Читать дальше →
                • Открываем историю Большого театра. Часть первая

                    image

                    Вы когда-нибудь собирали театральные программки? Если да, то, наверное, в вашей коллекции их десятки, а может, наберется и сотня. А теперь представьте, что в вашем распоряжении 120 тысяч программок, 48 тысяч афиш и 100 тысяч исторических фотографий. Столько бумажных документов сохранил с середины XIX века Большой театр. Самые древние и ценные из них уже пожелтели и стали ветхими, а на поиск информации в театральном архиве уходили часы. Чтобы сохранить эти сокровища, сотрудники театрального музея начали вручную переводить документы в электронный вид, но оказалось, что на это могут уйти годы.

                    Поэтому в сентябре 2016 года вместе с Большим театром и при активной поддержке Феклы Толстой, праправнучки Льва Николаевича Толстого, мы запустили краудсорсинговый проект по оцифровке истории главного театра страны. В этом посте мы расскажем о подробностях первого этапа проекта и о его технических деталях: как мы оцифровывали уникальные документы с помощью ABBYY FineReader и как волонтеры помогали проверять результаты распознавания.
                    Читать дальше →
                    • +31
                    • 3,1k
                    • 8
                  • How to: Правильно называем методы-свойства класса


                      • Как вы называете парные методы Get/Set? Допускается ли делать их несимметричными? А если для свойства используется глагол Is? А если какой-нибудь модальный глагол вроде Can?
                      • Допускается ли вместо Get/Set использовать пары Is/Set?
                      • И если есть ограничения, то это ваш сознательный выбор или корпоративный стандарт?
                      Читать дальше →
                    • Как мы помогали оцифровать вековую историю наблюдений за погодой в Бразилии

                        image

                        Ученые Национального института метеорологии Бразилии с 1909 года записывают всю информацию о погодных условиях и изменениях климата в стране. Исследователи анализируют эти данные и строят на их основе прогнозы. За сто лет специалисты собрали более 3 миллионов страниц записей о погоде в знойном Рио-де-Жанейро, на грохочущих водопадах Игуасу, в сумрачных лесах Амазонки и в туманном Сан-Паулу. Но вся информация хранилась в бумажном виде. С каждым годом ее копилось все больше, а старые записи приходили в негодность. Исследователям становилось все сложнее работать с документами.

                        Сегодня мы расскажем о том, как с помощью нашей технологии ABBYY FlexiCapture Engine Национальный институт метеорологии Бразилии оцифровал архив наблюдений за погодой, который ученые собирали более 100 лет.
                        Читать дальше →
                        • +33
                        • 5,1k
                        • 2
                      • Первый пользователь с миллионом на Stack Overflow

                          Achievement unlocked: на Stack Overflow появился первый пользователь с 1 миллионом баллов репутации.

                          Stack Overflow открыт в сентябре 2008 года и с тех пор помогает разработчикам со всего мира находить необходимые ответы на технические вопросы. Например, сайт показал миллиону пользователей выход из Vim. На январь 2017 года на Stack Overflow 8 миллионов зарегистрированных пользователей, 15 миллионов вопросов и 24 миллиона ответов. Еще десять лет назад ничего этого не было.


                          Читать дальше →
                        • Дорожка по извлечению значений слов из текстов и разрешению лексической многозначности

                            Ежегодно в России проходит крупнейшая конференция по компьютерной лингвистике «Диалог», на которой специалисты обсуждают методы компьютерного анализа русского языка, оценивают уровень компьютерного языкознания и определяют направления его развития. Каждый год в рамках «Диалога» организуются соревнования систем автоматической обработки русского языка — Dialogue Evaluation. В этом посте мы расскажем о том, как устроено соревнование Dialogue Evaluation, и более подробно о том, как проходит одна из его составляющих — RUSSE и что ждет его участников в этом году. Поехали.

                            image

                            Читать дальше →
                          • Хакатон от ABBYY

                              В прошлый раз мы анонсировали конкурс идей (и он, кстати, продолжается, вы всё ещё можете выиграть iPhone X), а теперь приглашаем вас на хакатон по мобильным сервисам от ABBYY. Пройдёт 7-8 октября в ФизТехПарке. Направления самые разные. Крутое жюри. Призовой фонд 220 000 рублей. Заявки принимаются до 3 октября включительно на mobility.abbyy.com/hack
                              А подробности ниже.
                              Читать дальше →
                            • Конкурс идей от ABBYY – как выиграть новый iPhone

                                mABBYYlity logoВсем привет. Меня зовут Игорь Акимов, я руководитель направления мобильных продуктов ABBYY. Наверное, многие знают ABBYY по лучшим словарям Lingvo и помощнику любого студента FineReader, но кроме этого мы занимаемся ещё много чем интересным в сфере интеллектуальной обработки информации и лингвистики. За 28 лет накопили огромный багаж в сфере машинного обучения и нейросетей, а новых проектов и идей так много, что кажется, нам нужна помощь :) Поэтому мы приглашаем вас принять участие в конкурсе. Мы ищем идеи по применению новых технологий в мобильной разработке, которые будут близки большому числу людей. И назвали конкурс мы смело – mABBYYlity (тут и ABBYY, и мобильность, и ability – способность). Короче, всё основное тут – mobility.abbyy.com. А в статью за подробностями.
                                Читать дальше →
                              • «Предъявите документы» или что поможет распознать паспорт

                                  Мы уже говорили о распознавании текста из видеопотока, его преимуществах по сравнению с обработкой фотографии и сценариях, где это особенно полезно.

                                  Сегодня мы запускаем ABBYY Real-Time Recognition SDK для мобильных платформ Android и iOS. Поэтому хотим поговорить об особенностях распознавания данных на мобильном устройстве, а именно, об извлечении информации в видеопотоке на примере одного из самых сложных документов – гражданского паспорта.

                                  Всем нам часто приходится использовать свои паспортные данные. Паспорт нужен для регистрации в мобильном банке или платёжной системе, покупки билетов, аренды машины. Сейчас многие используют для этих задач смартфон. Набирать информацию на маленькой клавиатуре мобильного устройства очень неудобно. Особенно неприятное поле для ввода – это данные о месте выдачи паспорта: обычно они занимают пару-тройку строк и содержат множество аббревиатур.
                                  Читать дальше →
                                • Мобильный OCR. Как всё начиналось (часть 2)

                                    В предыдущем посте мы начали рассказывать, как OCR-технологии «переезжали» с настольных компьютеров в смартфоны – а началось всё с приложения для сканирования визиток Business Card Reader. Но сканирование визиток – это только один сценарий, где нужно мобильное распознавание. О том, как решались другие задачи хотелки пользователей, – читайте ниже.

                                    Как мы уже говорили, перенос технологии распознавания на смартфоны связан с кучей ограничений и сложностей. Главной была и остаётся ресурсоёмкость технологии – невозможно перенести ее в мобильное устройство как есть. Но у нас уже с 2007 года был готовый инструментарий разработчика ABBYY Mobile OCR Engine, который позволял на мобильном оцифровать изображение и выдать результат в формате TXT без сохранения форматирования. И для начала в 2011 году мы решили воплотить в жизнь небольшие пользовательские сценарии, в которых такое «элементарное» распознавание вполне подходило.
                                    Читать дальше →
                                    • +27
                                    • 4,7k
                                    • 3
                                  • Подписки в ABBYY Cloud OCR SDK: «заткнитесь и возьмите мои деньги!»

                                      Хорошая новость™: теперь в ABBYY Cloud OCR SDK помимо разовой покупки страниц можно оформить подписку через PayPal. Мы долго планировали эту разработку, довольно долго она была в состоянии беты для ограниченного круга пользователей. Сейчас подписки доступны всем, а этот пост – о разных технических и социальных моментах этой эпичной разработки.

                                      Начать нужно с ответа на вопрос «зачем». Ответ на него: подписки удобны и понятны многим пользователям. Хотя покупать пакеты страниц тоже удобно и несложно, пользователю нужно следить за остатком страниц приложения и докупать страницы. Сервис умеет отправлять предупреждение о скором исчерпании остатка страниц, но пользователь может его пропустить. Если пользователь забудет докупить страницы – его приложение может в самый неподходящий момент доизрасходовать остаток страниц и перестать работать.

                                      Капитан подсказывает решение: автоматизация. Пользователь может продолжать докупать пакеты страниц, а может оформить подписку. Конечно, подписку можно прекратить в любой момент, в этом случае положительный остаток страниц не изменится, его можно будет израсходовать позже.

                                      Мы старались сделать логику подписок как можно более понятной и одновременно удобной для пользователей.
                                      Читать дальше →
                                    • Lingvo API: словари ABBYY в облаке Windows Azure

                                        Думаем, читателям нашего блога не нужно рассказывать подробно, что такое словарь ABBYY Lingvo. C этого продукта началась компания ABBYY 27 лет назад. Сначала словарь можно было использовать только на компьютерах, потом появились мобильные приложения и онлайн-сервисы. Недавно мы открыли доступ к словарям Lingvo для сторонних разработчиков на сайте https://developers.lingvolive.com – пока в бесплатном бета режиме.

                                        Под катом мы подробнее расскажем о том, как мы работали над этим сервисом и как его можно использовать.
                                        Читать дальше →
                                        • +22
                                        • 4,7k
                                        • 9
                                      • Как технологии ABBYY помогают улучшить работу систем обнаружения утечек данных

                                          Несмотря на прогнозы о скором наступлении светлого безбумажного будущего, объём бумажных документов всё ещё огромен. Часть из них сканируется и продолжает свою «жизнь» уже в электронном варианте – но только в виде изображений. В среднем в организациях объем сканированных копий составляет 30% от всех документов, которые хранятся в электронном виде. В госсекторе он достигает 41,5%, в ритейле – 17%, в сфере услуг – 23%, в банках и телеком-сфере приближается к 45%. Когда сканы документов лежат себе в нужной папке или делают работу, для которой они предназначены, – это хорошо. Плохо, когда кто-то пытается использовать данные из этих сканов в мошеннических схемах или как-то иначе злоупотреблять ими. Чтобы конфиденциальная информация не «утекла», в информационные системы компаний устанавливают DLP – системы предотвращения утечек.

                                          Сегодня мы расскажем, как в одну из таких программ – Контур информационной безопасности SearchInform – был интегрирован SDK-продукт ABBYY FineReader Engine и что из этого получилось.
                                          Читать дальше →
                                          • +32
                                          • 8,1k
                                          • 7
                                        • Устранение перспективных искажений и разгибание кривых строк на фотографиях книжных разворотов

                                            В прошлый раз в статье «Поиск линии корешка на фотографиях книжных разворотов» мы обещали рассказать о том, что случается с фотографией книжного разворота после этого, а именно — про устранение перспективных искажений и разгибание кривых строк текста. Без этого получить качественные результаты OCR практически невозможно.

                                            Итак, считаем, что мы уже нашли на фотографии линию корешка, воспользуемся этим знанием, чтобы определить ваниш-точки для страниц разворота (vanishing point). Ваниш-точки – это точки схождения параллельных прямых в перспективной проекции книги на плоскость изображения. Они обе должны располагаться на продолжении этой линии, но для каждой из страниц положение точки может быть свое. Схематически это показано на следующей иллюстрации (на самом деле, это лог для отладки). Линия корешка выделена красным, линии, пересекающиеся в ваниш-точках, – зеленым.


                                            Читать дальше →

                                          Самое читаемое