krestjaninoff15 мая 2010 в 08:32

Извлечение фактов

3 мин

14K

Искусственный интеллект

+54

Комментарии 21

0nly0ne 15 мая 2010 в 09:17

А как будет разобрано предложение: "Новенькая пила долго жевала ножку стула"?

gepeBo 15 мая 2010 в 12:09

на этапе морфологиского анализа возникнет неоднозначность, которая будет разрешена с помощью синтаксического разбора. У яндекса кстати и на этот сччет статейки есть

0nly0ne 15 мая 2010 в 12:42

Вот меня и интересует как будет распознана фраза: «новенькая пила». Как Прилагательное с существительным или как существительное с глаголом.
Если можно, дайте ссылку на алгоритм разрешения подобных ситуация.

gepeBo 15 мая 2010 в 13:03

Вероятностная модель снятия морфологической омонимии на основе нормализующих подстановок и позиций соседних слов (PDF) — download.yandex.ru/company/Zelenkov_Segalovich.pdf

еще много публикаций и статей здесь от Яндекса
company.yandex.ru/public/articles/

Animals_Amateur 24 мая 2010 в 08:53

Если тут про ИИ, то с помощью функции «непонял — переспроси».

Lucky_Student 15 мая 2010 в 12:42

Взять эту программу вычленения фактов, натравить ее на известные новостные порталы.
Далее сделать программу, которая будет рассчитывать влияние каких-либо событий на курс чего бы то ни было (доллара, евро, акций каких-либо компаний, нефть и тд).
Потом сделать программу, которая будет исходя из результатов предыдущих программ играть на рынке.
Далее, программу, которая будет каждый месяц определенный % переводить на счет в Яндекс.Деньги или Вебмани, а затем присылать СМС-уведомление на телефон о текущей «зарплате». Остается только сходить и получить деньги.
Или продать комплект этих программ другому лентяю, за большие деньги и уже с полученной суммы уехать куда-нибудь в теплое местечко. :)

odiszapc 15 мая 2010 в 13:19

Есть такая программа. «Головной мозг человека» называется.

Lucky_Student 15 мая 2010 в 13:23

Да вы не капитан, вы адмирал прямо какой-то. Я то писал, не как применять этот самый «головной мозг человека» постоянно, а как применив один раз, можно автоматизировать некоторые действия и в результате получать прибыль. Естественно, это скорее фантастично, нежели реально, но весьма интересно. :)

odiszapc 16 мая 2010 в 23:23

Я — рядовой «Очевидность»

aleks_raiden 15 мая 2010 в 14:33

есть уже такие системы, анализирующие новостные данные и вырабатывающие торговые стратегии по ним

bear11 21 мая 2010 в 09:17

даа, пробовали уже… коэффициент корреляции новостей с поведением рынка получился что-то около — 0.1%

excoder 15 мая 2010 в 12:47

Или вот такое: Эти типы стали есть на складе.
Если будет задан контекст: «ищем факты про сталь», это поможет синтаксису построить верный разбор (изначально может быть получено несколько теоретически верных синтаксических разборов).

Infanty 15 мая 2010 в 12:54

Я такую систему разрабатываю, моё мнение что общем статья правильная. Но тут как с операционной системой — написать вроде бы просто, но получить аналог Windows 7 сложно.

II. Морфологический анализ — некоторое слова (их достаточно много) полиморфны и однозначно определить все его морфологические свойства нельзя без учёта семантики (окружающих слов). Mystem иногда у меня неправильно определяла часть речи для заданного слова. К тому же не все слова известны заранее, в словаре Зализняка чуть больше 150 000 слов в первоначальной форме.

III. Синтаксический разбор — тут сложные словосочетания вкупе с полиморфномы словами хорошо портят сладкую жизнь.

IV. Семантический разбор — мне версия реализации как делают ребята из AOT не понравилась. Проще бить сложные предложения на простые, а простые на слова, потом на основе морфологического анализа слов, правил русского языка о главных членах предложения и синтаксического разбора можно построить дерево зависимостей.

V. Извлечение фактов — тут нужно бочку чая и ящик сгущёнки для работы мозга. Вариантов много. Есть системы основанные на правилах, есть основанные на знаниях в базе, есть основанные на наборе предложений (что то между правилами и знаниями, но не правила + знания). Я использую свой способ называя его — молекулярная сеть.

Тут даже если вы выберите систему основанную на знаниях — я читал про более чем 10 способов её реализации. В общем вариантов решения множество, но ещё есть проблема качества, пока не все ещё способы достигли требуемого качества.

P.S.: На разведку я не работаю… но это пока :).

VDG 15 мая 2010 в 21:22

? Я использую свой способ называя его — молекулярная сеть.
Интересно. Уже не помню почему, но лет 8-10 назад, когда выдумывал собственную систему извлечения фактов, то для себя обозвал её «белковой».

letoosh 15 мая 2010 в 14:53

Если я Вас правильно понял, ни в одном методе не рассматривается контекст. Выходит факты извлекаются независимо друг от друга?

Например:
1. Угарный газ в концентрациях выше 0.1% опасен для жизни. Вдыхание газа в течение часа приводит к смерти.
2. Ионизированные газы могут использоваться для общей профилактики. Вдыхание газа в течение часа улучшает общее состояние организма.

Infanty 15 мая 2010 в 15:12

Нет, всё зависит от ситуации, что конкретно вы хотите получить на выходе. Смысл извлекается из простого предложения полностью, а не из конкретного слова.

tlando 16 мая 2010 в 09:10

Не в качестве саморекламы:

К моим презентациям, на которые Вы ссылаетесь (что мне чрезвычайно приятно :) ) есть так же видео:
mathlingvo.ru/nlpseminar/archive/s_1 — извлечение фактов
mathlingvo.ru/nlpseminar/archive/s_32 — пресс-портреты (намного лучше по содержанию)

И у нас есть еще презентация + видео Лидии Пивоваровой: Роль онтологий в извлечении фактографической информации
mathlingvo.ru/nlpseminar/archive/s_2

krestjaninoff 17 мая 2010 в 02:40

Благодарю Вас! Довольно ценное дополнение.

arronax 17 мая 2010 в 12:52

Банально, но спасибо огромное за статью! Я только начинаю заниматься по этой теме и эта статья для меня очень полезна.

Сам я, почему-то, вышел на CASOS AutoMap, но он ориентирован на вычленение «социально-сетевой» составляющей из текстов.

savamura 18 мая 2010 в 07:26

А не могли бы Вы порекомендовать книги по теме?

fedor_malyshkin 2 июн 2010 в 21:27

Как небольшое уточнение к статье и как средство осознания сложности и неоднозначности русского языка (для тех, кто не в курсе): http://fedor-malyshkin.habrahabr.ru/blog/95324/.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий