Pavel_Osipov Dec 24 2009 at 15:33

Элементы семантической паутины

10 min

16K

Сложность структуры современного информационного общества постоянно растёт. В связи с этим, требования к эффективности алгоритмов обработки информации также увеличиваются. В последнее время наиболее популярными направлениями в этой области являются Data Mining (DM), Knowledge Discovery in Databases (KDD) и Machine Learning (ML). Все они предоставляют теоретическую и методологическую базу для изучения, анализа и понимания огромных объёмов данных.
Однако этих методов не достаточно, если сама структура данных будет настолько плохо пригодной для машинного анализа, как исторически сложилось на сегодняшний момент в Internet.
Для решения данной проблемы предпринята глобальная инициатива реорганизации структуры данных Internet в целях преобразования его в Семантическую Паутину предоставляющую возможности по эффективному поиску и анализу данных как человеком так и программным агентам.
В этой статье рассмотрены основные технологии позволяющие реализовать Semantic WEB.

Важнейшим недостатком существующей структуры Internet является то, что он практически не использует стандартов представления данных удобных для понимания компьютером, а вся информация предназначена в первую очередь для восприятия человеком. К примеру, для того, чтобы получить время работы семейного врача, достаточно зайти на сайт поликлиники и найти его в списке всех практикующих врачей. Однако, если это просто сделать человеку то программному агенту в автоматическом режиме это практически невозможно, если только не создавать его с учётом жёсткой структуры конкретного сайта.

Процесс дисциляции знания

Для решения подобных проблем используются онтологии, позволяющие описать любую предметную область в понятных для машины терминах и эффективно использовать мобильных агентов.
При использовании такого подхода, дополнительно к видимой человеком информации на каждой странице имеются также и служебная информация, позволяющая эффективно использовать данные программными агентами.
В свою очередь онтологии являются составной частью глобального видения развития сети Internet на новый уровень, называемый Semantic WEB (SW).

Стек понятий семантической паутины

Важнейшие понятия Semantic WEB

Для достижения столь сложной цели как глобальная реорганизация всемирной сети требуется целый набор взаимосвязанных технологий. На вышеприведённом рисунке приводится общая структура понятий Semantic WEB. Ниже приводится краткое описание ключевых технологий.

Semantic WEB

Понятие семантической паутины является центральным в современном понимании эволюции Internet. Считается, что в будущем данные в сети будут представлены как в обычном виде страниц, так и в виде метаданных, примерно в одинаковой пропорции, что позволит машинам использовать их для логических заключений реализуя все преимущества от использования методов ML. Повсеместно будут использоваться унифицированные идентификаторы ресурсов (URI) и онтологии.
Однако, не всё так радужно, существуют и сомнения в возможности полной реализации семантической паутины. Основные тезисы в пользу сомнения в возможности создания эффективной семантической паутины:
• Человеческий фактор люди могут врать, ленится добавлять метаописания, использовать неполные или просто неправильные метаданные. Как вариант решения данной проблемы можно использовать автоматизированные средства создания и редактирования метаданных.
• Излишнее дублирование информации, когда каждый документ должен иметь полное описание как для человека так и для машины.
Это отчасти решается внедрением микроформатов.

Кроме самих метаданных, важнейшей составной частью SW является семантические Web сервисы. Они являются источниками данных для агентов семантической паутины, изначально нацелены на взаимодействие с машинами, имеют средства рекламы своих возможностей.

URI (Uniform Resource Identifier)

URI является унифицированным идентификатором любого ресурса. Может указывать как на виртуальный так и на физический объект. Представляет собой уникальную символьную строку. Самым известным URI на сегодня является URL, являющейся идентификатором ресурса в Internet и дополнительно содержащий информацию о местонахождении адресуемого ресурса.

Базовый формат URI

Онтологии

Применительно к области Machine Learning под онтологией понимается некая структура, концептуальная схема, описывающая (формализующая) значения элементов некоторой предметной области (ПРО). Онтология состоит из набора терминов и правил описывающих их связи, отношения.
Обычно онтологии строятся из экземпляров, понятий, атрибутов и отношений.

Экземпляр — элементы самого нижнего уровня. Главной целью онтологий является именно классификация экземпляров, и хотя их наличие в онтологии не обязательно, но как правило они присутствуют. Пример: слова, породы зверей, звёзды.
Понятия — абстрактные наборы, коллекции объектов.
Пример: Понятие «звёзды», вложенное понятие «солнце». Чем является «солнце», вложенным понятием или экземпляром (светилом) — зависит от онтологии.
Понятие «светило», экземпляр «солнце».
Атрибуты — каждый объект может иметь необязательный набор атрибутов позволяющий хранить специфичную информацию.
Пример: объект солнце имеет такие атрибуты как
• Тип: жёлтый карлик;
• Масса: 1.989 · 10³⁰ кг;
• Радиус: 695 990 км.
Отношения — позволяют задать зависимости между объектами онтологии.

Так — как между различными онтологиями возможно установление точек пересечения, то использование онтологий позволяет смотреть на одну ПРО с различных точек зрения и в зависимости от задачи пользоваться различным уровнями детализации рассматриваемой ПРО. Понятие уровней детализации онтологии является одним из ключевых, к примеру, для обозначения цвета сигнала светофора иногда достаточно просто указать «зелёный», тогда как при описании цвета покраски машины может не хватить даже такого детального описания как «тёмно зелёный, близкий по тональности к хвое».

Рассмотрим общую структуру применения онтологий.

Часть возможной онтологии адресов

Пример возможного правила в онтологии адресов. В случае использования данной онтологии для того, чтобы отослать письмо в американский университет, достаточно указать его название, программный агент сам найдёт его адрес на основе стандартной адресной информации с сайта университета, если нужно отослать письмо на конкретный факультет, то с сайта будет получен список всех факультетов и выбран нужный, и уже с сайта требуемого факультета взят адрес, далее, используя вышеприведённую онтологию программа определит формат адреса принятый в США.

Компьютер не понимает всей информации в полном смысле слова, но использование онтологий позволяет ему намного более эффективно и осмысленно пользоваться доступными данными.

Конечно, остаётся много вопросов, к примеру, как в начале агент найдёт сайт требуемого университета? Однако для этого уже сейчас разработаны средства. К примеру, Язык Онтологии Сетевых Сервисов (Web Services Ontology Language, OWL-S) который позволяет сервисам рекламировать свои возможности, услуги.

Таксономии

Таксономии являются одним из вариантов реализации онтологий. С помощью таксономии возможно определить классы, на которые делятся объекты некоторой предметной области, а также то, какие отношения существуют между этими классами. В отличие от онтологий, задача таксономий чётко определена в рамках иерархической классификации объектов.

Современные языки описания онтологий

RDF (Resource Description Framework) язык описания метаданных ресурсов, главной его целью является представление утверждений в виде одинаково хорошо воспринимаемом как человеком, так и машиной.
Атомарным объектом в RDF является триплет: субъект — предикат — объект. Считается, что любой объект, можно описать в терминах простых свойств и значений этих свойств.
Пример таблицы с выделенными параметрами

Пример таблицы с выделенными параметрами

Перед двоеточием должен указываться Уникальный Идентификатор Ресурса URI (Uniform Resource Identifier), однако в целях экономии трафика допускается указать только пространство имён.
Также, в целях улучшения восприятия человеком, существует практика представления схем RDI в. виде графов.

Пример схемы RDI в виде графа

OWL (Web Ontology Language)язык Веб онтологий, созданный для представления значения терминов и отношения между этими терминами в словарях. В отличии от RDF, данный язык использует более высокий уровень абстракции, что позволяет языку наряду с формальной семантикой использовать дополнительный терминологический словарь.
Важным преимуществом OWL является то, что его основу положена чёткая математическая модель дескрипционных логик

Место OWL в общей структуре Semantic WEB с точки зрения консорциума W3C

XML — предоставляет возможности создания структурированных документов, но не предъявляет к ним никаких семантических требований;
XML Schema — определяет структуру XML документов и дополнительно позволяет использовать конкретные типы данных;
RDF — предоставляет возможность описывать абстрактные модели данных некоторых объектов и отношения между ними. Использует простую семантику на основе XML синтаксиса;
RDF Schema — позволяет описывать свойства и классы RDF — ресурсов, а также семантику отношений между ними;
OWL — расширяет описательные возможности предыдущих технологий. Позволяет описывать отношения между классами (к примеру непересекаемость), кардинальность (например «точно один»), симметрия, равенство, перечисляемые типы классов.

По степени выразительности выделяют три диалекта OWL

OWL Lite — является подмножеством полной спецификации, предоставляющим минимально достаточные средства описания онтологий. Предназначен для снижения первичного внедрения OWL. А также для упрощения миграции на OWL тезаурусов и прочих таксономий. Гарантируется, что логический вывод на метаданных с выразительностью OWL Lite выполняется за полиномиальное время (сложность алгоритма принадлежит классу Р).
Диалект основан на дескрипционной логике SHLF(D)
OWL DL — с одной стороны предоставляет максимальную выразительность, полноту вычислений (все они будут гарантированно вычисляемыми) и полную разрешаемость (все вычисления завершаются в определённое время). Но в связи с этим имеет строгие ограничения, к примеру на взаимосвязи классов и время выполнения некоторых запросов по таким данным могут требовать экспоненциального времени выполнения.
Диалект основан на дескрипционной логике SHOLN(D)
OWL Full — предоставляет максимальную выразительную свободу, но не даёт никаких гарантий разрешаемости. Все созданные структуры опираются обоснованы только реализуемым алгоритмом. Считается маловероятным, что какое-либо рассудочное программное обеспечение будет в состоянии поддержать полную поддержку каждой особенности OWL Full.

Не соответствует ни одной дескрипционной логике, так — как в принципе является не разрешимым.

На данный момент язык OWL является основным инструментом описания онтологий.

Программные (мобильные, пользовательские) агенты (SA)

В рассматриваемой ПРО SA считается программой, действующей от имени пользователя, самостоятельно выполняющей сбор информации на протяжении некоторого, возможно длительного времени. Также важной их особенностью является возможность взаимодействовать с другими агентами и сервисами для достижения поставленной цели.
В отличии от ботов поисковых машин, которые просто сканируют диапазоны WEB страниц, агенты перемещаются от сервера к серверу, т. е. на отправном сервере он уничтожается, а на принимающем создаётся с полным набором собранной ранее информации. Такая модель позволяет агенту использовать доступные серверу, источники данных, которые не доступны посредством WEB интерфейса.
Понятно, что на сервере должна быть установлена платформа, позволяющая принять агента и обслужить его запросы. Также важно уделить внимание безопасности и целостности агентов. Для этого применяется подход выделенных пространств, когда агент работает в некотором безопасном окружении с ограниченными правами и возможностями воздействия на систему.
Агенты по своей реализации делятся на обычные и обучающиеся.
Если первые предназначены для выполнения чётко поставленных задач, то в основу вторых заложена гибкость, обычно они создаются на основе нейронных сетей. Использование нейронных сетей позволяет агенту постоянно подстраиваться под требования пользователя, а также более эффективно взаимодействовать с Internet.

Микроформаты

Микроформаты являются попыткой создать семантическую разметку разнообразных сущностей на Web-страницах одинаково хорошо воспринимаемую как человеком так и машиной. Информация в некотором микроформате не требует применения дополнительных технологий или пространств имён дополнительно к простому (X)HTML. Спецификация микроформата, это просто соглашение на стандарты поименования классов элементов оформления страницы позволяющих хранить в каждом из них соответствующие данные.
Для примера разберём формат hCalendar.
Данный микроформат является подмножеством формата iCalendar (RFC 2445) и предназначен для описания дат будущих или прошедших событий для предоставления возможностей их автоматической агрегации поисковыми агентами.

<div class="vevent"> <a class="url" href="http://www.web2con.com/"> http://www.web2con.com/ </a> Web 2.0 Conference : <abbr class="dtstart" title="2007-10-05"> October 5 </abbr> - <abbr class="dtend" title="2007-10-20"> 19 </abbr> ,at the Argent Hotel, San Francisco, CA </div> * This source code was highlighted with Source Code Highlighter.

В данном примере приведено описание создания корневого класса контейнера с датой (class=«vevent») и соотнесение с событием некоей даты в стандартном формате ISO date.

На данный момент самыми распространёнными микроформатами являются

hAtom — формат рассылок новостей;
hCalendar — составление календаря и описание событий;
hCard — описание людей, компаний, мест;
hResume — формат описания резюме;
hReview — внедрение обзоров;
XFN — способ указания отношений между людьми;

В этой сфере существуют множество новых разработок, к примеру, для автоматического построения автоматических классификаторов используют разные уровни онтологий в зависимости от исследуемых данных.
Эта статья является попыткой объединения данных из различных источников для получения представления об общей структуре развития Семантической Паутины.

Hubs:

Semantics