yushkevichv Mar 31 2011 at 18:07

Информационные интеллектуальные сети и Семантический Веб

10 min

25K

Информационные интеллектуальные сети, Семантический Веб, Веб 3.0, ИИ… Эти слова все чаще стали появляться в нашем обиходе.

Целая эпоха универсального Интернета заканчивается. Она начинает сменяться до того, как мы начинаем это ощущать. На смену едва оформившемуся термину Web 2.0 уже приходит другой, непонятный и загадочный на первый взгляд — Web 3.0, или же просто «Семантический Веб».

О том, что это такое и куда движется наш интернет, я хотел поговорить в этой статье.

Сейчас сеть становится персональной. «Интернет все больше знает о нас». Отчасти, мы сами способствуем этому, раздавая свою персональную информацию в социальных сетях, пользуясь поисковыми системами, будучи авторизованными.

Это означает, что скоро, вводя в строку поиска «Хочу постричься недорого», пользователь получит ответ в виде ближайшей парикмахерской к его местоположению в виде четкого ответа на четкий вопрос – нам не надо будет переходить по 10, 20, 50 ссылкам из поисковой выдачи разных поисковиков, расстраиваясь в очередной раз, что очередная открытая вкладка – это очередной дорогой салон, продвигаемый силами SEO специалистов.

Это касается различных сфер жизни и деятельности человека – начиная от бытовых и заканчивая более глобальными. Например, покупка автомобиля или квартиры, поиск работы и другие.

Более того, поисковая система сможет определить, какой именно автомобиль нужен пользователю на основе информации о том, какими тест-драйвами он больше всего интересуется и какие автомобильные сайты посещает, в каком районе и в каком ценовом диапазоне вы хотите найти квартиру, не голодны ли вы, какую еду предпочитаете и так далее.

С развитием семантического веба после сбора определенных данных о пользователе технологии позволят составить его социально-демографический портрет. Собранные пользовательские данные компьютеры будут понимать уже как портрет личности.

Во многом такой динамике способствует стремление упростить сервисы и сделать упрощенный доступ пользователей к контенту. Ставшая модной в последняя время, авторизация через социальные сети (Вконтакте, Facebook), специальные сервисы (OpenID, OAuth), комментирование через виджеты социальных сетей.

Наши сотовые сети завязывают на себя персональную информацию.

Информация – вот что будет играть решающую роль в будущем интернете!

Продвигаемая крупными игроками рынка технология NFC – предоставляющая возможность совершать покупки, используя мобильный телефон (в том числе, оплачивать проезд в метро, например), все больше связывает наши сим-карты, телефоны, банковские карты, стягивая нашу персональную информацию в единую точку.

Попробуем во всем разобраться, но пока начнем по порядку с малого. Для начала давай-те вместе с вами рассмотрим интеллектуальные информационные системы (ИИС).

Информационные интеллектуальные системы

ИИС (intelligent information system) – это информационная система, которая основана на концепции использования базы знаний для генерации алгоритмов решения задач различных классов в зависимости от конкретных информационных потребностей пользователей.

Особенности и признаки интеллектуальности ИС

Любая информационная система (ИС) выполняет следующие функции:

воспринимает вводимые пользователем информационные запросы и необходимые исходные данные;
обрабатывает введенные и хранимые в системе данные в соответствии с известным алгоритмом и формирует требуемую выходную информацию.

С точки зрения реализации перечисленных функций ИС можно рассматривать как фабрику, производящую информацию, в которой заказом является информационный запрос, сырьем — исходные данные, продуктом — требуемая информация, а инструментом (оборудованием) — знание, с помощью которого данные преобразуются в информацию.

Коммуникативные способности ИИС характеризуют способ взаимодействия (интерфейса) конечного пользователя с системой.

Интеллектуальными считаются задачи, связанные с разработкой алгоритмов решения ранее нерешенных задач определенного типа

Интеллект представляет собой универсальный алгоритм, способный разрабатывать алгоритмы решения конкретных задач.

Если в ходе эксплуатации ИС выяснится потребность в модификации одного из двух компонентов программы, то возникнет необходимость ее переписывания. Это объясняется тем, что полным знанием проблемной области обладает только разработчик ИС, а программа служит “недумающим исполнителем” знания разработчика. Этот недостаток устраняются в интеллектуальных информационных системах.

Недостатки ИС и их устранение в ИИС

Слабая адаптируемость к информационным потребностям пользователя.
Невозможность решать плохо формализуемые задачи.

Перечисленные недостатки устраняются в ИИС, которые имеют
следующие характерные признаки:

развитые коммуникативные способности;
умение решать сложные, плохо формализуемые задачи (характеризуются наполовину качественным и количественным описанием, а хорошо формализуемые задачи – полностью количественным описанием);
способность к развитию и самообучению.

Классификация ИИС

I класс: системы с интеллектуальным интерфейсом (коммуникативные способности):

Интеллектуальные БД;
Естественно-языковой интерфейс;
Гипертекстовые системы;
Контекстные системы;
Когнитивная графика.

II класс: экспертные системы (решение сложных задач):

Классифицирующие системы;
Доопределяющие системы;
Трансформирующие системы;
Многоагентные системы.

III класс: самообучающиеся системы (способность к самообучению):

Индуктивные системы;
Нейронные сети;
Системы, основанные на прецедентах;
Информационные хранилища.

Интеллектуальные БД

Интеллектуальные БД – отличаются от обычных возможностью выборки по запросу информации, которая может явно не храниться, а выводиться из имеющейся БД (например, вывести список товаров, цена которых выше отраслевой).

Естественно-языковой интерфейс предполагает трансляцию естественно-языковых конструкций на машинный уровень представления знаний. При этом осуществляется распознавание и проверка написанных слов по словарям и синтаксическим правилам. Данный интерфейс облегчает обращение к интеллектуальным БД, а также голосовой ввод команд в системах управления.

Гипертекстовые системы предназначены для поиска текстовой информации по ключевым словам в базах.

Системы контекстной помощи – частный случай гипертекстовых и естественно-языковых систем.

Системы когнитивной графики позволяют осуществлять взаимодействие пользователя ИИС с помощью графических образов.

Семантический Веб

HTML-страница описывает как представить информацию визуально в Веб-браузере и трудно поддаётся смысловому анализу компьютерами. Для неё невозможно автоматизировать даже такие тривиальные задачи, как нахождение людей, проектов, программ в Интернете.

Технология Семантический Веб (Semantic Web) позволяет компьютеру интерпретировать информацию в Вебе наравне с людьми, для чего разработана графовая модель описания ресурсов RDF (Resource Description Framework), которая является спецификацией W3C.

С помощью RDF можно создавать любые утверждения о любых ресурсах.

Графовая модель RDF

Утверждения о ресурсах в модели RDF состоят из троек.

Ресурсы и свойства представляются в виде URI, а литералы в формате Unicode. URI позволяет уникальным образом идентифицировать ресурсы в Вебе, а Unicode решает проблему мультиязычности.

RDF схема – это не XML схема

RDF схема описана в утверждениях RDF.
В отличие от XML схемы определяет ресурсы (термины) предметной области, а не ограничивает структуру RDF.

За ресурсами RDF схемы в спецификации W3C закреплена семантика.

Пример RDF схемы, описанной с помощью RDF

Семантика данных – что это такое?

Под семантикой данных будем понимать возможность формального описания смысла передаваемых данных, делая их независимыми от приложений. Это особенно важно в контексте рассматриваемых нами перспектив развития Интернета – побеждает тот, у кого есть данные. Может быть очень много приложений, сайтов, сервисов, но сами по себе они будут очень мало чего значить. Будут выигрывать те, кто сможет предоставлять свой контент в любом, удобном пользователю контенте.

Какие данные можно использовать независимо от сервисов, в которых они используются сегодня: данные из баз данных, XML-документы, приложения в социальных сетях? Нет, потому что их семантика зашита в логике программы и/или неформально в спецификациях. Только данные снабжённые явной семантикой можно сделать действительно независимыми от приложений!

Зачем нужен RDF? Чем плох XML?

Вложенность тегов XML несет только синтаксис, но не несёт никакой семантики. Если мы рассмотрим различные возможные формы представления утверждения “Иван Петров преподает курс информатики” в формате XML:

		<course name="Информатика">
			<lecturer>Иван Петров</lecturer>
		</course>

		<lecturer name="Иван Петров">
			<teaches>Информатика</teaches>
		</lecturer>

	<teachingOffering>
		<lecturer>Иван Петров</lecturer>
		<course>Информатика</course>
	</teachingOffering>

Приложение, которое использует первый формат, не сможет понять два других формата и наоборот. Поэтому, XML хорош только как формат (синтаксис) для обмена данными, но не как модель описания семантики данных! Это же можно сказать и про другие популярные форматы (JSON, например).

Где в RDF семантика?

На уровне модели RDF семантика появляется благодаря использованию онтологий OWL (Ontology Web Language), благодаря которым компьютер может понимать, как известный ему ресурс или свойство связано с другим, неизвестным ему ресурсом или свойством соответственно и производить другие логические выводы над утверждениями RDF.

Онтологии основываются на математическом аппарате формальной логики (description logic, DL), малое подмножество которого охвачено RDF схемой. DL является вычислимым подмножеством логики первого порядка.

Пример использования семантики

Как проинтерпретирует следующие утверждения приложение, которое понимает только ресурсы словаря foaf?

<Pugofka:rybmyas_day#30032011> <Pugofka:semantic#Lector> “Виталий Юшкевич”.
<Pugofka:semantic#Lector> <rdfs:subClassOf> <foaf:Person>

Оно поймёт, что Pugofka: semantic #Lector является foaf:Person и выведет новое утверждение:

<Pugofka: rybmyas_day#30032011> <foaf:Person> “Виталий Юшкевич”

Семантические хранилища

Предполагается, что большие объёмы RDF данных будут храниться в семантических хранилищах и для доступа к ним использоваться язык запросов SPARQL – аналог SQL.

Пример запроса “вывести все проекты, созданные Pugofka” на SPARQL:

PREFIX  dc: <http://purl.org/dc/elements/1.1/>
PREFIX  foaf: <http://xmlns.com/foaf/0.1/>
SELECT  ?title
WHERE   { ?project foaf:name “Pugofka”.
                  ?project  dc:title ?title}

В качестве примеров развития направления можно привести создание новых проектов. Так, например, компания «Clark&Parsia» (http://clarkparsia.com/) уже имеет несколько серьезных проектов в сфере Семантического Веба, и на первые числа Апреля назначен старт бета-тестирования RDF-базы данных под названием StarDog.

Уровни Семантического Веба

Эволюционный подход

Семантический Веб это не замещение существующего интернета, а всего лишь его эволюционное развитие. RDF/XML либо внедряется внутрь HTML или доступен по URL.

По этому принципу уже широко используются в WWW RDF-данные с использованием словарей RSS, FOAF (Friend Of A Friend), DOAP (Description Of A Project).

Пример кода FOAF на странице пользователя LiveJournal

Пример кода FOAF на странице пользователя LiveJournal

Семантический веб – цели, задачи, примеры

Технология Семантический Веб успешно решает следующие задачи:

независимость данных от приложений;
семантическая интеграция данных;
создание основы для повсеместного использования компьютерных агентов (сервисов);
Data Mining;
Экспертные системы;
Проблемы единой авторизации*.

*Если есть ресурс с несколькими возможными способами авторизации, и учетная запись на сайте, к которой привязываются сторонние аккаунты (VK, FB, Twi, OpenID, Oauth…), то мы можем научиться уникально идентифицировать, что это все один и тот же пользователь и связывать всю имеющуюся о нем информацию.

Семантический Веб создан не на пустом месте. В него заложены фундаментальные основы:

графовая модель представления полуструктурированных данных (OEM, Lore);
формальная логика (логика первого порядка, базы знаний, фреймы);
архитектура WWW (URI, Unicode, XML, HTTP);
криптография с открытым ключом.

Технологии, которые задействованы в Семантическом Вебе

семантический поиск;
вопросно-ответные системы;
агенты;
объединение знаний (интеграция баз данных);
всепроникающие вычисления (ubiquitous/pervasive computing)

Примеры программной поддержки технологии

библиотеки для интерпретации стека языков RDF для всех популярных языков программирования (Jena, Redland, RDFLib);
редакторы онтологий (Protégé);
системы рассуждений над онтологиями (Racer, KAON, FACT);
семантические хранилища (Sesame, Kowari, YARS);
семантические браузеры (Simile, Piggy Bank, Gnowsis, Haystack);
поисковики семантических данных (Swoogle);
конверторы из разных форматов представления данных в/из RDF/XML (Aperture, RDFizers, D2R);
прикладные программы (Bibster, FOAF Explorer);
Stardog, the RDF database;
Примеры

Направления исследования

Foundations
1. Knowledge Engineering and Ontology Engineering
2. Knowledge Representation and Reasoning
3. Information Management
4. Basic Web Information technologies
5. Agents
6. Natural Language Processing
Semantic Web Core topics
1. Infrastructure
2. Resource Description Framework and RDFSchema
3. Languages
4. Ontologies
5. Rules and Logic
6. Proof
7. Security and trust and privacy
8. Applications
Semantic Web Special Topics
1. Natural language processing and human language technologies
2. Social impact of the Semantic Web
3. Social networks and Semantic Web
4. Peer-to-peer and Semantic Web
5. Agents and Senatic Web
6. Semantic Grid
7. Outreach to industry
8. Benchmarking and scalability

Задачи и проблемы Семантического Веба:

индексация и поиск информации;
разработка и поддержка метаданных;
разработка и поддержка методов аннотирования;
представление Web в виде большой, интероперабельной базы данных;
организация машинной добычи данных;
обнаружение (discovery) и предоставление веб-ориентированных сервисов;
исследования в области интеллектуальных программных агентов.

Заключение

Семантический Веб – это динамичная, постоянно развивающаяся концепция, а не набор комплексных, работающих систем.

Веб 3.0 – очень многогранное и, на текущий момент, до сих пор не сформированное понятие. Его можно рассматривать с разных точек зрения.

Например, с точки зрения машинной обработки данных – Семантический веб – это идея хранить данные такие образом, чтобы они были определенными и связанны, а также существовала возможность их дальнейшей автоматизированной обработки, интеграции и многократного использования в различных сервисах, приложениях и т.п.

С точки зрения интеллектуальных агентов, то целью будет являться более «машиноориентированный» Веб,
с тем, чтобы можно было наиболее эффективно использовать поисковых пауков (агентов) для поиска и обработки информации.

С точки зрения распределенных баз данных, баз знаний, то концепция Семантического Веба заключается в описании, добавлении дополнительной мета информации, которая позволяет однозначно идентифицировать и сопоставить информацию.

Концепция Веб 3.0 подразумевает наличие целой инфраструктуры.

С точки зрения обслуживания пользователей (потребителей контента) – идея Веб 3.0 заключается в минимизации действий пользователю и выдаче в качестве ответа на его запрос непосредственного ответа на его запрос, который будет учитывать не только его запрос, но и всю его историю, особенности (социально–психологический портрет), вкусы, интересы и многие другие факторы.

С точки зрения качества поиска – реализация поиска не только по ключевым словам или контексту, но и по контенту. Выдача точного ответа на запрос пользователя. Во многом, использование поисковой системы, как экспертной системы.

С точки зрения веб-сервисов Семантический Веб обеспечивает доступ не только к существующим статическим сайтам, но и к динамическим, приложениям, сервисам и другим ресурсам, содержащим полезный контент.

Hubs:

Semantics