Комментарии / Профиль kaplin

Дмитрий Каплин@kaplin_dv

Семантическая обработка текста и поиск

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

kaplin_dv 24 фев 2016 в 16:37

Да, видимо, в этой статье вопросы семантической обработки текста и баз знаний я не раскрыл достаточно понятно. Поэтому, на следующей неделе я планирую опубликовать более подробную статью на эту тему.

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

kaplin_dv 24 фев 2016 в 08:45

Эта система предназначена для обработки предложений, имеющих ясный информационный смысл, который отсутствует в предложенном Вами примере. Можно придумать еще много примеров, которые система в принципе "не поймет". Но это и не надо, поскольку она не претендует на полную универсальность, а предназначена для определенной области практического применения.
Семантические связи объектов друг с другом в тексте фактически формируются при построении узлов, когда парсер находит объекты, которые могут подойти на те или иные семантические роли для смыслового уточнения узлообразующего объекта.

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

kaplin_dv 23 фев 2016 в 17:44

Да, семантический = смысловой.
В данной статье под "Базой знаний" подразумевается совокупность сформированных при обработке текстов смысловых узлов (типа "продажа — кто? Газпром, что? газ, куда? Европа"). Т.е. система семантических связей объектов друг с другом.

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

kaplin_dv 17 фев 2016 в 13:06

Согласен, что у этого подхода есть ограничения. Семантический поисковый движок, основанный на ручных онтологиях, вполне может хорошо работать при относительно небольшом количестве анализируемых текстов и при не очень большом количестве объектов, из-за необходимости для каждого объекта знать семантические связи. Построение масштабной семантической системы требует применения технологий машинного обучения, но в ее основе все равно должен лежать онтологический подход. Именно комбинация обоих подходов может привести к успеху.

Реализация семантического новостного агрегатора с широкими поисковыми возможностями

kaplin_dv 17 фев 2016 в 10:24

Есть прототип (пошлю вам ссылку в личном сообщении).

Огромного количества вариантов распознавания не образуется, работает ряд ограничений. Во-первых, формирование узлов — многоступенчатый процесс. Узлообразующие объекты имеют разный приоритет, сначала формируются узлы с более высоким приоритетом, потом остальные, и приоритетные узлы могут войти в узлы с низким приоритетом. Во-вторых, в большинстве случаев, формирующие узел объекты должны в тексте прилегать друг к другу. В-третьих, среди образованных узлов на каждом этапе остаются только лучшие (которые покрывают наибольшее количество объектов и удовлетворяют синтаксическим условиям).

Согласен, что неправильные узлы, приводящие к неверной семантической интерпретации омонимов — это не самая большая проблема, но бороться с этим надо, и быть готовым ко всем запросам, а не только "грамотным".

В ближайшее время планирую написать подробную статью именно про методику преобразования текста в семантическое представление.