ContentAI_Team Nov 25 2015 at 13:42

Интенсив по немецкому: как ABBYY Compreno учит новые языки

11 min

9.2K

Content AI corporate blogSemantics*Machine learning*

+29

Comments 13

hf35 Nov 25 2015 at 13:55

Всё это круто конечно, но когда в итоге можно будет увидеть продукт, который позволит читать переводимое, не догадываясь по первым 3 словам — что это машинный перевод?

mayorovp Nov 25 2015 at 14:14

Я думаю, на базе этого продукта такое достигнуто не будет. Ведь операция «выделение семантики» — это преобразование с потерями, и обратное к нему преобразование неоднозначно.

hf35 Nov 25 2015 at 14:26

Ну хотя бы чтобы был замечен хоть какой то качественный прогресс.

luciana Nov 25 2015 at 14:34

Перевод — одна из задач, которую можно решить при помощи Compreno. Мы в ABBYY сейчас сосредоточились на более перспективных для нас как коммерческой компании задачах и разрабатываем решения для корпоративного рынка, в частности

ABBYY Smart Classifier
ABBYY Intelligent Search SDK
ABBYY InfoExtractor SDK

lasalas Nov 25 2015 at 14:27

голубые ели. и пили (классика)

ServPonomarev Nov 25 2015 at 14:48

Причина — почему медленно продвигается добавление немецкого — понятна. Много ручной работы. А что если добавить все понятия в онтологию без ручной проверки? Парсер сможет работать? Есть идеи, как оценить качество его работы?

luciana Nov 25 2015 at 23:00

Мы используем полуавтоматический метод ввода Немецкой лексики. Мы выбрали такой подход, который дает порядковое ускорение ввода новой лексики без заметного ухудшения качества (на тех бизнес-задачах, которыми мы занимаемся).
Оценка качества работы технологий при расширении описаний ведется ежедневно. Естественно, что для этого используются размеченные корпуса.

worldmind Dec 5 2015 at 13:20

Получается значение фразы «голубые ели» определяется только статистикой? Я думал что контекст влияет — если в предыдущем предложении было «Защитники природы в борьбе за спасение редкого вида вонючих блох морских котиков сильно проголодались», то значение фразы меняется.

luciana Dec 11 2015 at 13:00

Значение фразы «голубые ели» определяется и статистикой и контекстом и семантическими связями в предложении.
К примеру, во фразе «голубые ели на природе колбасу» мы определим голубые «голубой: голубой:BLUE» Predicate: ели «есть: есть:TO_EAT».

worldmind Dec 11 2015 at 17:17

А вот такой контекст распознается? Признаю что написано криво, но человек поймёт.
«Защитники природы в борьбе за спасение редкого вида вонючих блох морских котиков сильно проголодались и решили остановится на привал. Зелёные ели.»

luciana Dec 16 2015 at 18:40

Контекст учитывается, но он является только одним из параметров выбора значения в конкретном случае, который не является решающим. Статистически «зеленые» в значении «гринписовцы» встречаются нечасто, а «зеленые ели» в смысле «ёлки» — это очень частотное словосочетание, тем более без зависимых. Поэтому гринписовцы начинают выигрывать в более «глагольном» контексте, когда глагол поддержан союзом или вводным словом, например:

Защитники природы в борьбе за спасение редкого вида вонючих блох морских котиков сильно проголодались и решили остановится на привал. Поэтому зеленые «зеленые:ENVIRONMENTALIST» ели«есть: есть:TO_EAT».

Защитники природы в борьбе за спасение редкого вида вонючих блох морских котиков сильно проголодались и решили остановиться на привал, и зеленые «зеленые:ENVIRONMENTALIST» ели«есть: есть:TO_EAT»…

Защитники природы в борьбе за спасение редкого вида вонючих блох морских котиков сильно проголодались и решили остановиться на привал. Следовательно, зеленые «зеленые:ENVIRONMENTALIST» ели«есть: есть:TO_EAT».

worldmind Dec 17 2015 at 00:09

В целом это достаточно круто, ибо мой пример весьма искусственный, в реальных текстах предельно маловероятно что такое найдётся, но кто знает.

Whiteha Jul 3 2018 at 00:47

Здравствуйте!
Выглядит так что дата майнинг с помощью этой технологии должен был совершить революцию, но последние годы совсем мало информации о применении Compreno и полученных результатах. Казалось бы можно натравить его на научные статьи скажем по молекулярной биологии и получить огромный выхлоп в виде структурированной базы знаний, которой ни один живой человек не обладает. Ведутся ли работы в этом направлении и что сейчас с технологией?