Pull to refresh

Ответы генерального директора ABBYY Сергея Андреева на вопросы читателей Хабра. Часть 1

ABBYY corporate blog
image
Уважаемые читатели и писатели Хабра!

Хочу сказать спасибо всем участникам этого обсуждения за их искреннее желание сделать нашу страну лучше. Это видно во всех вопросах, заданных здесь, даже если они порой звучат жёстко и предубеждённо. Я посчитал важным ответить на вопросы, потому что ABBYY слишком давно не рассказывала о том, чем мы занимаемся, и как мы это делаем. А отсутствие информации порождает много нелепых догадок. Итак, время отвечать на вопросы.

В этих ответах я буду иногда отвлекаться к общим суждениям и общей информации, но не для того, чтобы что-то рекламировать, а чтобы лучше объяснить причины, лежащие в основе наших действий.

Начну с того, что компании ABBYY уже 21 год. Все это время мы делаем интересные продукты и технологии, известные во всём мире. Сейчас это продукты распознавания печатного и рукописного текста и словари. В будущем – это продукты, основанные на компьютерной лингвистике. Наши интересы не лежат в области потребления. Наши руководители и акционеры не ездят на роскошных автомобилях, не покупают яхт, вертолетов и дворцов, у нас нет дач на Рублевке. Нам интересно делать новые удивительные продукты, а не ходить по магазинам.
Читать дальше →
Total votes 139: ↑115 and ↓24 +91
Views 37K
Comments 171

Ответы генерального директора ABBYY Сергея Андреева на вопросы читателей Хабра. Часть 2. Грант

ABBYY corporate blog
Уважаемые читатели и писатели Хабра!

Перед ответами на вопросы о гранте я решил опять сделать вступление, чтобы опереться на очень важный фундамент.

Давайте разберемся с целями государства в области IT сектора экономики. Думаю, что правильная цель звучит примерно так: IT сектор рассматривается как один из 5 чрезвычайно важных секторов экономики, требующих ускоренного и даже опережающего развития. Конкретной задачей на этом фоне является ускоренное создание новых и развитие существующих отечественных IT компаний, конкурентоспособных на мировом рынке.

Если это утверждение кто-то оспаривает, то лучше обратиться в Общественную палату и в Комиссию по модернизации при Президенте РФ, и спорить с ними. Аргументируйте, возражайте, предлагайте другие отрасли. Это точно не к нам и не для этой дискуссии.
Читать дальше →
Total votes 81: ↑66 and ↓15 +51
Views 16K
Comments 112

«Диалог» задаёт стандарты компьютерной лингвистики в России

ABBYY corporate blog
Как вы знаете, ABBYY создаёт программы, которые так или иначе связаны с обработкой языков: ABBYY Lingvo переводит слова с одного языка на другой, ABBYY FineReader преобразует тексты из печатного вида в электронный, ABBYY Compreno (о ней мы писали здесь) будет переводить на разные языки целые тексты. Программы такого типа называют «наукоемкими», потому что они основываются на результатах серьезных научных исследований. А в нашем случае – на результатах из области искусственного интеллекта, распознавания образов и компьютерной лингвистики. О компьютерной лингвистике и пойдет речь в этом посте.

Мы очень заинтересованы в том, чтобы эта наука развивалась, поэтому не ограничиваемся исследованиями внутри компании, но и который год подряд организуем целую научную конференцию на эту тему – «Диалог». Поскольку компьютерная лингвистика – достаточно специфическая область знаний, о «Диалоге» много знают лингвисты и мало знают все остальные. Под катом мы расскажем вам о нём подробнее.
Читать дальше →
Total votes 31: ↑29 and ↓2 +27
Views 8.1K
Comments 26

Онтоинженер: работа по понятиям

ABBYY corporate blog Search engines *Semantics *
Привет, Хабр! Меня зовут Даня, и я работаю в группе извлечения знаний ДогадайтесьКакойКомпании. В двух постах я расскажу,
  • как мы извлекаем факты и сущности из текстов,
  • кто такие онтоинженеры,
  • зачем они отделяют трупы от костей,
  • причём здесь Лев Толстой.

На Хабре уже было несколько публикаций, посвященных извлечению информации из неструктурированного текста (много чего ищется по тегами Text Mining, Information Extraction). Вот здесь, например, приведен краткий джентльменский набор того, что желательно сделать с текстом, прежде чем из него будет удобно что-нибудь извлечь (спойлер: мы все это тоже делаем). А вот тут коллеги из Яндекса описывают свой подход с использованием КС-грамматик (кстати, там тоже замешан Толстой). В общем, тема для Хабра не новая, но и нельзя сказать, что достаточно раскрытая. Потому мы и решили поделиться нашим опытом.
Читать дальше →
Total votes 35: ↑29 and ↓6 +23
Views 23K
Comments 13

Онтоинженер: от сотворения мира к порождению сущностей

ABBYY corporate blog Search engines *Semantics *
В этом посте я продолжу рассказ о той части Compreno, которая связана с профессией онтоинженера. Ну или о той работе онтоинженера, которая связана с упомянутой технологией — это уж кому как удобнее воспринимать.

Напомню, первая часть подвела нас к тому, что онтоинженеры строят онтологии, чтобы технология могла работать (без них — никуда, так уж всё устроено).
Чуть более полное описание первой части:
  • Наша система извлечения информации опирается на представление текста в виде синтактико-семантических деревьев Compreno.
  • Узлы деревьев примерно соответствуют словам в предложении, а дуги отражают зависимости между ними (с точки зрения грамматики зависимостей).
  • Деревья являются формальным представлением «смысла» высказывания, поэтому в них уже разрешены языковые неоднозначности.
  • Получив на вход эти деревья, на выходе система выдает информационные объекты — сущности (персоны, организации, локации и т.п.) или факты (аресты, смерти, покупки, родство, получение образования и т.п.).
  • Формальные модели действительности, внутри которых существуют все эти факты и сущности, называются онтологиями. Онтоинженеры разрабатывают онтологии, используя стандарт OWL.

О том, что ещё, и, конечно, зачем делают онтоинженеры, я предлагаю узнать прямо сейчас.

Семь битв – одно поддерево


Основную часть рабочего времени онтоинженер посвящает не «моделированию мира» (хотя это и звучит очень гордо), а созданию системы извлечения. И хотя мы всё больше экспериментируем со статистикой, машинным обучением и автоматическим извлечением паттернов, пока в наших продуктах и проектах используются правила, написанные вручную. Однако правила эти представляют собой не какие-то жесткие шаблоны, опирающиеся на линейный порядок слов в предложении, а описания фрагментов семантико-синтаксических деревьев ABBYY Compreno. Это позволяет нам сравнительно легко обходить вариативность и неоднозначность языка, кратко задавая множество вариантов, используемых для выражения одного и того же смысла.
Читать дальше →
Total votes 28: ↑26 and ↓2 +24
Views 16K
Comments 21

Алгоритм извлечения информации в ABBYY Compreno. Часть 1

ABBYY corporate blog Search engines *Semantics *
Привет, Хабр!

Меня зовут Илья Булгаков, я программист отдела извлечения информации в ABBYY. В серии из двух постов я расскажу вам наш главный секрет – как работает технология Извлечения Информации в ABBYY Compreno.

Ранее мой коллега Даня Скоринкин DSkorinkin успел рассказать про взгляд на систему со стороны онтоинженера, затронув следующие темы:

В этот раз мы опустимся глубже в недра технологии ABBYY Compreno, поговорим про архитектуру системы в целом, основные принципы ее работы и алгоритм извлечения информации!



Читать дальше →
Total votes 44: ↑40 and ↓4 +36
Views 28K
Comments 15

Алгоритм извлечения информации в ABBYY Compreno. Часть 2

ABBYY corporate blog Search engines *Semantics *
И снова здравствуйте!

Надеюсь, вас заинтересовал наш вчерашний пост про систему извлечения информации ABBYY Compreno, в котором мы рассказали про архитектуру системы, семантико-синтаксический парсер и его роль и, самое главное, про информационные объекты.

Теперь настало время поговорить о самом интересном – как устроен сам движок извлечения информации.


Читать дальше →
Total votes 34: ↑33 and ↓1 +32
Views 11K
Comments 13

Интенсив по немецкому: как ABBYY Compreno учит новые языки

ABBYY corporate blog Semantics *Machine learning *
Как вы знаете, ABBYY занимается разработкой технологии анализа естественных языков Compreno. Сейчас система работает на английском и русском языках, и активно используется во многих проектах. Однако изначально сама технология была задумана как многоязычная, поэтому мы много внимания уделяем и «обучению» другим иностранным языкам. И тут можно провести некоторую аналогию с человеком: после изучения одного иностранного языка другие даются легче. В частности, сейчас мы добавляем в технологию немецкий язык и параллельно исследуем возможности рынка – есть ли интерес к этому направлению. Сразу оговоримся – пока речь о продуктах, поддерживающих немецкий, не идёт, мы в самом начале пути.
Читать дальше →
Total votes 29: ↑29 and ↓0 +29
Views 8.9K
Comments 13

«Задачник» для ABBYY Compreno

ABBYY corporate blog Search engines *Semantics *
Привет! В прошлый раз мы рассказали о том, как устроена технология понимания и анализа текстов на естественных языках ABBYY Compreno. Многие спрашивают нас – сколько уже можно разрабатывать технологию и где уже, наконец, продукты на базе Compreno. Как и обещали, сегодняшний материал посвящен продуктам и тому, какие именно задачи бизнеса они решают уже сегодня.

На основе нашей технологии можно создать ряд решений для разного типа задач. Но фокус нашего внимания сегодня – это корпоративный рынок, компании, которым необходимо в сжатые сроки получать значимую информацию из массивов данных. Это направление перспективно для нас и с точки зрения востребованности таких технологий клиентами, и с точки зрения скорейшего возврата наших инвестиций в технологию.

Сразу отметим, что решения на базе технологии Compreno – это аппликационные или технологические модули, которые встраиваются в любые решения, добавляя им возможности.
Читать дальше →
Total votes 20: ↑20 and ↓0 +20
Views 8.7K
Comments 12

Война, мир и ABBYY Compreno: продолжение нашего романа с Толстым

ABBYY corporate blog Semantics *Data Mining *Data visualization *
Недавно мы рассказывали здесь о том, как делался проект «Весь Толстой в один клик». С помощью 3249 (трех тысяч двухсот сорока девяти) волонтеров и 1 (одной) хорошей OCR-технологии мы оцифровали 46820 страниц 90-томного собрания сочинений писателя, тщательно вычитали их и выложили во всеобщий доступ.

Но если вы думали, что наш «роман с Толстым» на этом закончился, то вы ошибались – оцифровав тексты писателя, мы начали исследовать их при помощи технологии извлечения информации ABBYY Compreno – не пропадать же такому богатому материалу. О том, что дал нам «text mining Толстого» и где теперь используются полученные результаты, читайте дальше.

Введение


Главной целью проекта «Весь Толстой в один клик» было сделать творчество Толстого по-настоящему всеобщим достоянием, чтобы все вышедшие из-под его пера тексты были доступны в один клик в любой точке Земли. Как, кстати, и завещал сам автор, еще при жизни отказавшийся от всех прав на свои тексты (да-да, анонимус, Лев Толстой знал про копилефт и опендату задолго до этих ваших интернетов и Ричарда Столлмана).

Однако возможность загрузить книжку в удобном формате в ридер или планшет – не единственный плюс оцифровки. Теперь тексты Толстого можно не только читать, но и «измерять», то есть исследовать разными количественными методами, используя весь арсенал средств автоматической обработки текста (АОТ, она же NLP). Ведь если у вас есть все тексты писателя в электронном виде, даже с помощью одного-двух грамотных поисковых запросов вы можете получить любопытные данные, на добычу которых в иные времена мог потратить недели и месяцы упорного труда какой-нибудь литературовед. А уж если у вас к тому же имеется продвинутая технология анализа естественного языка, то есть шансы сделать серьезное филологическое открытие (даже не будучи филологом). Ниже я расскажу, что удалось намерить и узнать нам, но перед этим – пара слов о том, кто, как и зачем занимается автоматической обработкой художественных текстов и что интересного может при этом получиться.
Читать дальше →
Total votes 35: ↑34 and ↓1 +33
Views 13K
Comments 7