Как стать автором
Поиск
Написать публикацию
Обновить
78.32
Content AI
Решения для интеллектуальной обработки информации
Сначала показывать

Куда приводит ABBYY Road

Время на прочтение7 мин
Количество просмотров2K
image
Какое лето ждет человека, который работает в ABBYY? Яркое и наполненное новыми впечатлениями. Для этого еще в 2008 году мы придумали «Лето с ABBYY» – серию разнообразных поездок, экскурсий и походов. Каждый из нас может найти себе что-то по душе – от экскурсий на «Красный октябрь» и в Центральный музей ВВС в Монино до турнира по пляжному волейболу или SUP сафари в Серебряном бору. Записаться и участвовать может любой желающий, а еще можно позвать родных, детей и друзей.

Как правило, наше «Лето» начинается еще в конце мая с двухдневного автопробега ABBYY Road. И если вы записались на него, то с большой вероятностью попадете в компанию людей, которые нечасто пересекаются по работе, из разных проектов и подразделений – от разработчиков, product owner’ов и дизайнеров до юристов и маркетологов. И во время путешествия ничего не мешает им познакомиться. А еще самому куда-то собраться бывает лениво. Гораздо удобнее, когда продумать маршрут и организовать поездку помогают более опытные путешественники.

В этом посте мы немного расскажем об истории ABBYY Road и о тонкостях организации автопробега, а затем проведем вас по маршруту этого года по Липецкой области, покажем время, километраж, карты и еще кое-что. Поехали!
Читать дальше →

Отличаем символы от мусора: как построить устойчивые нейросетевые модели в задачах OCR

Время на прочтение8 мин
Количество просмотров7.8K
В последнее время мы в группе распознавания компании ABBYY всё больше применяем нейронные сети в различных задачах. Очень хорошо они зарекомендовали себя в первую очередь для сложных видов письменности. В прошлых постах мы рассказывали о том, как мы используем нейронные сети для распознавания японской, китайской и корейской письменности.

image Пост про распознавания японских и китайских иероглифов
image Пост про распознавание корейских символов

В обоих случаях мы использовали нейронные сети с целью полной замены метода классификации отдельного символа. Во всех подходах фигурировало множество различных сетей, и в задачи некоторых из них входила необходимость адекватно работать на изображениях, которые не являются символами. Модель в этих ситуациях должна как-то сигнализировать о том, что перед нами не символ. Сегодня мы как раз расскажем о том, зачем это в принципе может быть нужно, и о подходах, с помощью которых можно добиться желаемого эффекта.

Мотивация


А в чём вообще проблема? Зачем нужно работать на изображениях, которые не являются отдельными символами? Казалось бы, можно разделить фрагмент строки на символы, классифицировать их все и собрать из этого результат, как, например, на картинке ниже.



Да, конкретно в данном случае так действительно можно сделать. Но, увы, реальный мир устроен куда более сложно, и на практике при распознавании приходится иметь дело с геометрическими искажениями, смазом, пятнами кофе и прочими трудностями.
Читать дальше →

Соревнование ML-систем на лингвистическом материале. Как мы учились заполнять пропуски

Время на прочтение10 мин
Количество просмотров3.4K
Каждый год в Москве проходит конференция "Диалог", в которой участвуют лингвисты и специалисты по анализу данных. Они обсуждают, что такое естественный язык, как научить машину его понимать и обрабатывать. В рамках конференции традиционно проводятся соревнования (дорожки) Dialogue Evaluation. В них могут участвовать как представители крупных компаний, создающих решения в области обработки естественного языка (Natural Language Processing, NLP), так и отдельные исследователи. Может показаться, что если ты простой студент, то тебе ли тягаться с системами, которые крупные специалисты больших компаний создают годами. Dialogue Evaluation — это как раз тот случай, когда в итоговой турнирной таблице простой студент может оказаться выше именитой компании.

Этот год станет уже 9-ым по счету, когда на «Диалоге» проводится Dialogue Evaluation. Каждый год количество соревнований разное. Темами для дорожек уже становились такие задачи NLP, как анализ тональности (Sentiment Analysis), разрешение лексической многозначности (Word Sense Induction), нахождение опечаток (Automatic Spelling Correction), выделение сущностей (Named Entity Recognition) и другие.

В этом году четыре группы организаторов подготовили такие дорожки:
  • Генерация заголовков для новостных статей.
  • Разрешение анафоры и кореференции.
  • Морфологический анализ на материале малоресурсных языков.
  • Автоматический анализ одного из видов эллипсиса (гэппинга).

Сегодня мы расскажем про последнюю из них: что такое эллипсис и зачем учить машину восстанавливать его в тексте, как мы создавали новый корпус, на котором можно решить эту задачу, как проходили сами соревнования и каких результатов смогли добиться участники.
Читать дальше →

Каким будет «Диалог» лингвистов и специалистов по анализу данных

Время на прочтение5 мин
Количество просмотров2.6K
С 29 мая по 1 июня в Российском государственном гуманитарном университете (РГГУ) пройдет 25-ая международная научная конференция по компьютерной лингвистике и интеллектуальным технологиям «Диалог». О том, что такое «Диалог» и почему ABBYY его основной организатор, мы уже говорили на Хабре. В этом посте мы расскажем об основных темах конференции, ключевых спикерах, их докладах и о четырех соревнованиях по созданию систем автоматического анализа текстов в рамках Dialogue Evaluation.
Читать дальше →

NLP. Основы. Техники. Саморазвитие. Часть 2: NER

Время на прочтение19 мин
Количество просмотров57K
Первую часть статьи об основах NLP можно прочитать здесь. А сегодня мы поговорим об одной из самых популярных задач NLP – извлечении именованных сущностей (Named-entity recognition, NER) – и разберем подробно архитектуры решений этой задачи.

image
Читать дальше →

Девушка в IT, или 5 советов для амбициозных

Время на прочтение7 мин
Количество просмотров19K
В этом посте я специально не буду говорить отдельно о «рецепте для женщин», т.к. считаю, что схема успеха одна и та же, независимо от пола. Об отличиях и специфике «женского пути» будет в конце. Если кто-то интересуется только этой частью, смело скрольте до последнего раздела.

В конце прошлого года меня пригласили выступить на мероприятии Worldwide Conversation on Women’s Higher Education and Equality in the Workplace на факультете компьютерных наук ВШЭ. Это беседа о том, как в современном мире женщина может построить успешную карьеру в области науки, образования или информационных технологий, с какими сложностями она при этом сталкивается и как может их преодолеть.

Я была спикером «со стороны IT» и рассказывала, как мне кажется, вполне очевидные и сами собой разумеющиеся вещи. Но, делясь впечатлениями о мероприятии с друзьями и коллегами, обнаружила, что тема очень многим интересна и относятся к ней очень по-разному. Именно после этого и родилась статья. В ней я расскажу о моем опыте развития карьеры в IT-компании и том, что считаю важным делать, а чего, наоборот, избегать, чтобы стать успешным в своем деле.
Читать дальше →

Вы просто не там искали: как находить сотрудников для проекта в техподдержке

Время на прочтение4 мин
Количество просмотров7.2K
Привет! Меня зовут Егор Шатов, я старший инженер группы поддержки ABBYY и спикер курса Project Management in IT в Digital October. Сегодня я расскажу о том, каковы шансы пополнить команду продукта специалистом из техподдержки и как правильно организовать перевод на новую должность.

Вакансии в техподдержке охотно занимают молодые специалисты, которым нужно набраться опыта, и профессионалы из других сфер, которые стремятся глубже погрузиться в сферу IT. Многие хотят делать карьеру в компании и готовы учиться, много и хорошо работать — возможно, в продуктовой команде.
Читать дальше →

MWC: инструкция по применению

Время на прочтение7 мин
Количество просмотров2.7K

2019 год и новый Mobile World Congress. Все стремятся показать свои новинки, благодаря которым формируются главные IT-тренды на год. Мы тоже участвовали в MWC 2019 и в этом посте поделимся нашими впечатлениями от выставки, расскажем о наших новых разработках, сделаем обзор основных трендов MWC и дадим несколько советов, как подготовиться к участию в таком крупном событии.
Читать дальше →

Как мы помогали трансформировать работу бухгалтерии в крупной энергетической компании

Время на прочтение7 мин
Количество просмотров6.9K
Мы несколько раз писали о том, как наши технологии помогают различным организациям и даже целым государствам обрабатывать информацию из любых типов документов и вводить данные в учетные системы. Сегодня расскажем, как внедряли ABBYY FlexiCapture в одной крупной российской энергетической компании. Для удобства назовем ее «Биг Компани».

Представьте себя на месте обычного бухгалтера. Понимаем, это непросто, но все-таки попробуйте. Каждый день вам приходит огромное количество бумажных счетов, накладных, справок и так далее. А особенно много – в дни перед сдачей отчетности. Все реквизиты и суммы нужно быстро и внимательно проверить, перепечатать и внести в учетную систему, вручную провести транзакции и отправить документы в архив, чтобы потом вовремя предоставить для проверки внутренним аудиторам, налоговой службе, органам тарифного регулирования и другим. Сложно? Но это многолетняя деловая практика, которая существует во многих компаниях. Вместе с «Биг Компани» мы упростили эту кропотливую работу и сделали ее удобнее. Если вам интересно, как это было, добро пожаловать под кат.

image
Читать дальше →

Формула для корейского, или распознаем хангыль быстро, легко и без ошибок

Время на прочтение7 мин
Количество просмотров24K
На сегодняшний день сделать распознавание корейских символов может любой студент, прослушавший курс по нейросетям. Дайте ему выборку и компьютер с видеокартой, и через некоторое время он принесёт вам сеть, которая будет распознавать корейские символы почти без ошибок.

Но такое решение будет обладать рядом недостатков:

Во-первых, большое количество необходимых вычислений, что влияет на время работы или требуемую энергию (что очень актуально для мобильных устройств). Действительно, если мы хотим распознавать хотя бы 3000 символов, то это будет размер последнего слоя сети. А если вход этого слоя равен хотя бы 512-ти, то получаем 512 * 3000 умножений. Многовато.

Во-вторых, размер. Тот же самый последний слой из предыдущего примера будет весить 512 * 3001 * 4 байт, то есть около 6-ти мегабайт. Это только один слой, вся сеть будет весить десятки мегабайт. Понятно, для настольного компьютера это проблема небольшая, но на смартфоне не все будут готовы хранить столько данных для распознавания одного языка.

В-третьих, такая сеть будет давать непредсказуемый результат на изображениях, которые не являются корейскими символами, но тем не менее используются в корейских текстах. В лабораторных условиях это не трудно, но для практического применения технологии этот вопрос придётся как-то решать.

И в-четвёртых, проблема в количестве символов: 3000, скорее всего, хватит чтобы, например, отличить в меню ресторана стейк от жареного морского огурца, но порой встречаются и более сложные тексты. Обучить сеть на большее количество символов будет сложно: она будет не только более медленной, но и возникнет проблема со сбором обучающей выборки, так как частота символов падает приблизительно экспоненциально. Конечно, можно доставать изображения из шрифтов и аугментировать их, но для обучения хорошей сети этого недостаточно.

И сегодня я расскажу, как нам удалось решить эти проблемы.
Читать дальше →

Как научить машину понимать инвойсы и извлекать из них данные

Время на прочтение8 мин
Количество просмотров9.9K
Привет, Хабр! Меня зовут Станислав Семенов, я работаю над технологиями извлечения данных из документов в R&D ABBYY. В этой статье я расскажу об основных подходах к обработке полуструктурированных документов (инвойсы, кассовые чеки и т.д.), которые мы использовали совсем недавно и которые используем прямо сейчас. А еще мы поговорим о том, насколько для решения этой задачи применимы методы машинного обучения.
Читать дальше →

Зачем разработчикам ABBYY Mobile нейросети, музей и Random Coffee

Время на прочтение11 мин
Количество просмотров7K
image

Здравствуй, Хабр! В далёком 2005 году в ABBYY появился первый мобильный SDK. А в 2007 в компании образовался отдельный департамент ABBYY Mobile, и начали рождаться технологии, которые стали основой наших приложений — ABBYY Business Card Reader, ABBYY FineScanner и ABBYY TextGrabber. В 2009 наш первопроходец Business Card Reader вышел на мобильные (кнопочные!) телефоны Nokia под управлением Symbian. И совсем скоро, 19 марта 2019 года, мы будем праздновать первое десятилетие.

В этом посте мы расскажем и покажем, как устроена изнутри жизнь и работа ABBYY Mobile, какие технологии мы разрабатываем, куда ездим в командировки и многое другое.

Много иероглифов – много нейросетей: как построить эффективную систему распознавания для большого числа классов?

Время на прочтение7 мин
Количество просмотров8.7K
В прошлых статьях уже писали о том, как у нас устроены технологии распознавания текста:


Примерно так же до 2018 года было устроено распознавание японских и китайских символов: в первую очередь с использованием растровых и признаковых классификаторов. Но с распознаванием иероглифов есть свои трудности:

  1. Огромное количество классов, которое нужно различать.
  2. Более сложное устройство символа в целом.

image

Сказать однозначно, сколько символов насчитывает китайская письменность, так же сложно, как точно посчитать, сколько слов в русском языке. Но наиболее часто в китайской письменности используются ~10 000 символов. Ими мы и ограничили число классов, используемых при распознавании.

Обе описанные выше проблемы также приводят и к тому, что для достижения высокого качества приходится использовать большое количество признаков и сами эти признаки вычисляются на изображениях символов дольше.

Чтобы эти проблемы не приводили к сильнейшим замедлениям во всей системе распознавания, приходилось использовать множество эвристик, в первую очередь направленных на то, чтобы быстро отсечь значительное количество иероглифов, на которые эта картинка точно не похожа. Это всё равно не до конца помогало, а нам хотелось вывести наши технологии на качественно новый уровень.

Мы стали исследовать применимость свёрточных нейронных сетей, чтобы поднять как качество, так и скорость распознавания иероглифов. Хотелось заменить весь блок распознавания отдельного символа для этих языков с помощью нейронных сетей. В этой статье мы расскажем, как нам в итоге это удалось.
Читать дальше →

NLP. Основы. Техники. Саморазвитие. Часть 1

Время на прочтение12 мин
Количество просмотров78K

Привет! Меня зовут Иван Смуров, и я возглавляю группу исследований в области NLP в компании ABBYY. О том, чем занимается наша группа, можно почитать здесь. Недавно я читал лекцию про Natural Language Processing (NLP) в Школе глубокого обучения – это кружок при Физтех-школе прикладной математики и информатики МФТИ для старшеклассников, интересующихся программированием и математикой. Возможно, тезисы моей лекции кому-то пригодятся, поэтому поделюсь ими с Хабром.

Поскольку за один раз все объять не получится, разделим статью на две части. Сегодня я расскажу о том, как нейросети (или глубокое обучение) используются в NLP. Во второй части статьи мы сконцентрируемся на одной из самых распространенных задач NLP — задаче извлечения именованных сущностей (Named-entity recognition, NER) и разберем подробно архитектуры ее решений.


Читать дальше →

Ближайшие события

Secret Santa, квесты, квиз и каток – как мы встречали ABBYY New Year

Время на прочтение4 мин
Количество просмотров4K
Скоро новый год, и, чтобы поднять всем праздничное настроение, мы решили запилить этот пост и показать, что творилось в стенах ABBYY последние пару месяцев. Хотите узнать, как выглядят аббишные новогодние эльфы, какие тайны сокрыты в посылках Секретного Санты из Австралии, сколько килограммов оливье мы съели за один день и чем можно разнообразить катание на льду в -13 градусов? Тогда поехали!

Под катом много фоток (~ 5 Мб)
Читать дальше →

Распознаём тексты на Android Things с ABBYY RTR SDK и django

Время на прочтение10 мин
Количество просмотров4.4K

Привет! Меня зовут Азат Калмыков, я студент второго курса ОП “Прикладная математика и информатика” Факультета компьютерных наук НИУ ВШЭ и стажёр в отделе мобильной разработки компании ABBYY. В этом материале я расскажу про свой небольшой проект, выполненный в рамках летней стажировки.



Представьте себе небольшой конвейер. По нему едут товары или какие-то детали, на которых важно распознавать текст (возможно, это некий уникальный идентификатор, а может, и что-то более интересное). Хорошим примером будут посылки. Работу конвейера дистанционно контролирует оператор, который отслеживает неполадки и в случае чего решает проблемы. Что может ему в этом помочь? Девайс на платформе Android Things может быть неплохим решением: он мобильный, легко настраивается и может работать через Wi-Fi. Мы решили попробовать использовать технологии ABBYY и узнать, насколько они подходят для таких ситуаций — распознавания текста в потоке на “нестандартных устройствах” из категории Internet of Things. Мы сознательно будем упрощать многие вещи, так как просто строим концепт. Если стало интересно, добро пожаловать под кат.

Как искусственный интеллект помогает работать с юридическими документами? Лекция Егора Будникова из ABBYY

Время на прочтение11 мин
Количество просмотров7.4K
Недавно системный аналитик технологического департамента компании ABBYY Егор Будников выступил в «Яндексе» на конференции «Data & Science: закон и делопроизводство». Он рассказал, как работает компьютерное зрение, происходит обработка текстов, на что важно обращать внимание при извлечении информации из юридических документов и о многом другом.


— У компании могут быть развитые методологии анализа данных и электронный документооборот, при этом от клиентов или от соседних отделов в компанию могут приходить документы, созданные в Word, при этом распечатанные, отксерокопированные, отсканированные и принесенные на флешке.

Что же делать с документооборотом, который есть сейчас, с «грязными» документами, с бумажным хранением, вплоть до того, что документы могут храниться до 70 лет, прежде чем они отсканированы и должны быть распознаны?
Читать дальше →

Чем занимаются в департаменте R&D ABBYY: NLP Advanced Research Group

Время на прочтение4 мин
Количество просмотров6.2K
Чем занимаются в департаменте R&D в ABBYY? Чтобы ответить на этот вопрос, мы начинаем серию публикаций о том, как наши разработчики создают новые технологии и совершенствуют существующие решения. Сегодня расскажем про направление Natural Language Processing (NLP).

Мы в ABBYY занимаемся исследованиями в сфере обработки естественного языка и беремся за сложные научные задачи, для которых пока нет готовых решений. Так мы создаем инновации, которые ложатся в основу продуктов и помогают нашим заказчикам, да и нам двигаться вперед. Кстати, 24 ноября на лекции в Школе глубокого обучения при МФТИ руководитель NLP Advanced Research Group в департаменте R&D ABBYY Иван Смуров расскажет, какие в мире есть задачи по анализу текста и как современные нейросети позволяют их решать. А в этом посте Иван рассказал нам о трех задачах, которыми занимается сейчас.
Читать дальше →

Как я стал разработчиком в ABBYY

Время на прочтение10 мин
Количество просмотров8K
В этот замечательный 256-ой день года поздравляем всех причастных c Днем программиста! И не только тех, кто работает по специальности, но и всех, кто увлекается программированием. По данным исследователей из Evans Data Corporation, в мире 23 миллиона разработчиков. И, наверное, совсем не важно, много это или мало хотя это сопоставимо с населением всей Австралии. Главное, что люди этой профессии каждый день делают вклад в яркое и технологичное будущее.

Желаем всем девелоперам значимых и интересных проектов, побольше хорошего кода, успешных релизов и благодарных клиентов, и, конечно же, отлично отметить свой День, устроив веселый праздник! И по такому поводу наши разработчики рассказывают, как проходит их рабочий день в ABBYY, какими проектами они занимаются и чем увлекаются. Добро пожаловать под кат!
Читать дальше →

Чем на самом деле занимаются стажеры в ABBYY

Время на прочтение9 мин
Количество просмотров5.2K
ABBYY уделяет большое внимание подготовке квалифицированных IT-специалистов и развитию их способностей. Мы считаем, что уже с первых курсов института очень важно привлекать ребят к решению реальных задач в областях OCR, машинного обучения, NLP и к участию в существующих проектах, потому что теория не возможна без практики. Поэтому мы приглашаем талантливых студентов МФТИ, МГУ, ВШЭ и других ВУЗов к нам на стажировки. Это может быть практика не только на лето, но на более длительное время. В любом случае у студента в ABBYY есть хорошая возможность проявить себя, поучаствовать в работе над реальными продуктами, получить новые знания, полезные навыки и присоединиться к нашей команде. Ребята всегда могут договориться со своими наставниками и совмещать практику с учебой. В этом посте мы расскажем, как проходят стажировки в ABBYY и чем на самом деле занимаются здесь студенты ;)
Читать дальше →

Информация

Сайт
www.contentai.ru
Дата регистрации
Дата основания
Численность
101–200 человек
Местоположение
Россия