на этапе морфологиского анализа возникнет неоднозначность, которая будет разрешена с помощью синтаксического разбора. У яндекса кстати и на этот сччет статейки есть
Вот меня и интересует как будет распознана фраза: «новенькая пила». Как Прилагательное с существительным или как существительное с глаголом.
Если можно, дайте ссылку на алгоритм разрешения подобных ситуация.
Взять эту программу вычленения фактов, натравить ее на известные новостные порталы.
Далее сделать программу, которая будет рассчитывать влияние каких-либо событий на курс чего бы то ни было (доллара, евро, акций каких-либо компаний, нефть и тд).
Потом сделать программу, которая будет исходя из результатов предыдущих программ играть на рынке.
Далее, программу, которая будет каждый месяц определенный % переводить на счет в Яндекс.Деньги или Вебмани, а затем присылать СМС-уведомление на телефон о текущей «зарплате». Остается только сходить и получить деньги.
Или продать комплект этих программ другому лентяю, за большие деньги и уже с полученной суммы уехать куда-нибудь в теплое местечко. :)
Да вы не капитан, вы адмирал прямо какой-то. Я то писал, не как применять этот самый «головной мозг человека» постоянно, а как применив один раз, можно автоматизировать некоторые действия и в результате получать прибыль. Естественно, это скорее фантастично, нежели реально, но весьма интересно. :)
Или вот такое: Эти типы стали есть на складе.
Если будет задан контекст: «ищем факты про сталь», это поможет синтаксису построить верный разбор (изначально может быть получено несколько теоретически верных синтаксических разборов).
Я такую систему разрабатываю, моё мнение что общем статья правильная. Но тут как с операционной системой — написать вроде бы просто, но получить аналог Windows 7 сложно.
II. Морфологический анализ — некоторое слова (их достаточно много) полиморфны и однозначно определить все его морфологические свойства нельзя без учёта семантики (окружающих слов). Mystem иногда у меня неправильно определяла часть речи для заданного слова. К тому же не все слова известны заранее, в словаре Зализняка чуть больше 150 000 слов в первоначальной форме.
III. Синтаксический разбор — тут сложные словосочетания вкупе с полиморфномы словами хорошо портят сладкую жизнь.
IV. Семантический разбор — мне версия реализации как делают ребята из AOT не понравилась. Проще бить сложные предложения на простые, а простые на слова, потом на основе морфологического анализа слов, правил русского языка о главных членах предложения и синтаксического разбора можно построить дерево зависимостей.
V. Извлечение фактов — тут нужно бочку чая и ящик сгущёнки для работы мозга. Вариантов много. Есть системы основанные на правилах, есть основанные на знаниях в базе, есть основанные на наборе предложений (что то между правилами и знаниями, но не правила + знания). Я использую свой способ называя его — молекулярная сеть.
Тут даже если вы выберите систему основанную на знаниях — я читал про более чем 10 способов её реализации. В общем вариантов решения множество, но ещё есть проблема качества, пока не все ещё способы достигли требуемого качества.
? Я использую свой способ называя его — молекулярная сеть.
Интересно. Уже не помню почему, но лет 8-10 назад, когда выдумывал собственную систему извлечения фактов, то для себя обозвал её «белковой».
Если я Вас правильно понял, ни в одном методе не рассматривается контекст. Выходит факты извлекаются независимо друг от друга?
Например:
1. Угарный газ в концентрациях выше 0.1% опасен для жизни. Вдыхание газа в течение часа приводит к смерти.
2. Ионизированные газы могут использоваться для общей профилактики. Вдыхание газа в течение часа улучшает общее состояние организма.
Нет, всё зависит от ситуации, что конкретно вы хотите получить на выходе. Смысл извлекается из простого предложения полностью, а не из конкретного слова.
Извлечение фактов