Snart 19 фев 2007 в 17:43

Нейротеги

9 мин

1.7K

В даной статье я хочу рассмотреть один из вариантов реализации того, что начал развивать W3C*(Консорциум Всемирной Сети) как Семантический Веб**.

Идеи, изложеные мной здесь не являются концепцией семантического веба и я не привязываюсь к стандартам, разработаным W3C, т. к. с моей точки зрения самая жизнеспособная модель информационной сети будующего имеет несколько другой вид и другие потребности, но в даной концепции будет много общего с семантическим вебом.

Уже много сказано о теории Семантического Веба, но вот прошло уже немало времени, а реализаций даных идей в интернете мы не наблюдаем.

Я же сосредоточусь на концептуальной модели фреймворка, воплощающего в себе все то, о чем мечтали те, кто говорил о семантической паутине и попытаюсь рассмотреть практические аспекты разработки подобной системы и углубиться в решение возникающих проблем. В первую очередь – это проблемы адаптирования такой сложной системы для пользователей, а также конструирование концептуальной модели таким образом, чтобы у пользователей была мотивация взаимодействовать с системой и чтобы они могли просто и удобно получать от нее все, что им нужно.

В даном ключе особенно важно взаимодействие с пользователями, т. к. система по своей сути самообучаема и информацию черпать ей предстоит именно из общения с пользователями. Поэтому к даной задаче нужно подходить не только в качестве программиста, но и в качестве социолога, психолога и главное – изобретателя.

Даный фреймворк можно считать основанием сети, по отношению к которой интернет является просто средством передачи данных, это набор протоколов и программ для работы с ними, которые абстрагировались еще на один уровень выше таких протоколов как HTTP, SMTP, SNMP, FTP, Telnet.

Это модель системы управления и самоорганизации распределенной базоы знаний глобального масштаба, которая на нынешнем этапе развития интернета может выполнять функции самой обыкновенной CMS, только с значительно расширеной функциональностью и успешно служить в коммерческих целях.

Практические аспекты и конкретные решения задач впереди, а первый заход все-таки сделаем со стороны теории.

* Консорциум Всемирной Сети (англ. World Wide Web Consortium, W3C) — организация, разрабатывающая и внедряющая технологические стандарты для Всемирной паутины

**: Семантическая паутина — это концепция сети, в которой каждый ресурс на человеческом языке был бы снабжён описанием, понятным компьютеру.

II. Нейротеги

Сейчас появляется очень много веб-сайтов, обьединеных некими общими принципами, обьединение которых модно называть «Веб2.0»
Одна из тенденций даного явления – фолксономия*.

Это хорошо. А если заглянуть дальше?

1. Теория нейротегов

Чего не хватает в обычных тегах(метках, ключевых словах)?
Взаимосвязей, классификации.

Давайте введем новое понятие:
Нейротегом будем называть обычное ключевое слово и систему взаимосвязей этого ключевого слова с другими ключевыми словами.
Подобные структуры часто используются в экспертных системах** для формирования базы знаний. В соответствующей литературе по экспертным системам этому понятию будут соответствовать семантические теги.

Любой нейротег может иметь любое количество связей любого типа с другими нейротегами.

Взаимосвязи тоже можно класифицировать, например так:
Связаный обьект является:
• Cинонимом
• Антонимом
• Родительской категорией(Гипероним) прим.: еда = Г(пирог)
• Дочерней категорией(потомок тега, Гипоним) прим.: табуретка = г (мебель)
• Родственной категорией(у тегов много общих родителей) прим.: Гуппи = р(Золотая рыбка) (общий гипероним – аквариумная рыбка)
• Частью даного обьекта(мероним) прим.: двигатель = м (автомобиль)
• Обьектом, включающим даный(холоним) прим.: дом = х (крыша)
• Переводом слова на другой язык (подтип синонима) прим.: Небо = т (Sky)
Это похоже на триплет RDF***, имеющий вид «субъект — предикат — объект»
(Например, утверждение «Зеленые глаза» в RDF-терминологии можно представить следующим образом: субъект — «глаза», предикат — «имеет цвет», объект — «зеленый» )
Но в даном случае имеет место ограниченый набор предикатов.

С одной стороны такой тип связи, как например родственная категория, может показаться излишним, т. к. мы всегда можем определить, являются ли два нейротега родственными по списку их родителей, но с другой стороны наличие такого типа межтеговой связи может существенно улучшить процесс уплотнения сети нейротегов, о чем речь будет идти немного ниже.

Даный вид связи является обьединением родово-видовых отношений а так же отношений синоним/антоним и часть/целое и образует иерархическую структуру.

Кроме того, у каждой связи есть такой параметр, как мощность, фактически показывающая, насколько релевантной с точки зрения человеческой логики является даная связь.

Подобный тип организации информации называют семантической сетью**** с весовыми (нечеткими) связями. Такие системы часто используются в экспертных системах как база знаний.
Помимо вышеприведенных типов связи, может иметь место еще масса других отношений, таких как функциональные связи (определяемые обычно глаголами «производит», «влияет»…), количественные (больше меньше, равно…), пространственные (далеко от, близко от, за, под, над…), временные (раньше, позже, в течение…), атрибутивные (иметь свойство, иметь значение), etc.
Можно пойти и другим, более интересным путем: никак не класифицировать связи. Теоретически классификация связей по вышеприведенному методу является излишней, но этот шаг скорее всего вполне оправдан ввиду возникающих в процесе разработки подобных систем проблем с вычислительными мощностями. Даже в системе с некласифицироваными связями можно определить, каким именно образом взаимосвязаны два нейротега.
Например, если связывать только родительские/дочерние нейротеги, то из двух взаимосвязаных нейротегов в большой системе у родительского всегда будет больше связей.

Можно также каждую отдельно взятую связь рассматривать в качестве вершины (нейротега) и устанавливать связи с другими вершинами.
Например, если существует два связаных тега: «небо»--«голубое», то сама взаимосвязь этих двух тегов будет являться не чем иным, как «голубое небо».
Таким образом мы можем организовать родово-видовые отношения даже без типизации предикатов.

В подобной сети теоретически может образоваться масса кольцевых связей, так что при рекурсивном обходе вершин необходимо контролировать глубину рекурсии, чтобы избежать бесконечных цыклов и переполнения стека.

Сейчас мне хотелось бы рассмотреть случай с классифицироваными межтеговыми связами, т. к. имхо: он интуитивно понятней для человеческого мышления.

О всех выгодах и проблемах системы с подобной сетью взаимосвязаных ключевых слов мы познакомимся в ходе размышлений над практическими аспектами разработки такой системы.

* Фолксоно́мия (англ. folksonomy, от folk – народный + taxonomy – таксономия) – неологизм, обозначающий практику совместной категоризации посредством произвольно выбираемых ключевых слов. Другими словами, это понятие относится к спонтанному сотрудничеству группы людей с целью организации информации в категории, которое обращает на себя внимание, благодаря тому, что оно полностью отличается от традиционных формальных методов фасетной классификации. Как правило, это явление возникает только в неиерархических сообществах, таких как общедоступные веб-сайты, а не в многоуровневых коллективах. Так как организаторы информации обычно являются её же основными пользователями, фолксономия производит результаты, более точно отражающие совокупную концептуальную модель информации всей группы.

** Экспертная система – это интеллектуальная программа, способная заменить специалиста-эксперта в решении проблемной ситуации, делать
логические выводы на основании знаний в конкретной предметной области и
обеспечивающая решение специфических задач.
ЭС начали разрабатываться исследователями искусственного интеллекта в 1970х годах, а в 1980х получили коммерческое подкрепление.

*** Resource Description Framework – это разработанная консорциумом W3C модель для описания ресурсов, в особенности – метаданных о ресурсах. В основе этой модели лежит идея об использовании специального вида утверждений, высказваемых о ресурсе. Одной из главных целей RDF является предоставление утверждений одинаково в машино- и человеко-распознаваемом виде. Существует несколько синтаксисов для представления RDF-информации, самые распространённые из которых: RDF/XML, триплеты и графовая модель.
**** Семанти́ческая сеть — один из способов представления знаний. В названии соединены термины из двух наук: семантика в языкознании изучает смысл предложений, а сеть в математике представляет собой разновидность графа. В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.

III. Ближе к телу

Итак, взаимосвязи. Откуда же их взять?
С обычными метками(ключевыми словами) понятно, пользователь просто вводит их в заданое поле.
А вот откуда системе узнать о связях между ними?
Для начала придется спрашивать у пользователей.
Имхо: самым удобным является ненавязчивая и строго дозированая программа опросов, выдаваемая пользователю в окружении блоков интересующего его контента.

Фактически, листая страницы какого-то информационного веб-ресурса с системой нейротегов, пользователь среди списка статей наткнется на маленький опросик, использующий ajax технологию, чтобы не отрывать пользователя от его информации перегрузкой страницы, и занимающий минимальную контентную область, что-то вроде:

Q: Как связаны «молоко» и «козье молоко»?
1. «молоко» — дочерняя категория понятия «козье молоко»
2. «козье молоко» — дочерняя категория понятия «молоко»
3. синонимы
4. одно и то же наразных языках
5. связь отсутствует

Но просто вставлять подобные опросы в контент сайта было бы неэффективно.
Такой подход просто мешал бы пользователю смотреть интересующий его контент.
Поэтому нужен стимул.

Самым удобным стимулом в даном случае могло бы служить влияние участия в опросах на рейтинг пользователя в системе, ведь рейтинг пользователей на веб-ресурсах — в последнее время фича очень модная и популярная.

Для этого целесообразно завести отдельную характеристику — спец. рейтинг, котороая строго в ограниченых рамках влияла бы на общий рейтинг, чтобы предотвратить также рост рейтинга пользователя только благодаря системным опросам. (здесь и далее, встроеный опрос о взаимоотношениях нейротегов будем называть системным опросом)
Участие пользователя в системном опросе увеличивает мощность выбраной им взаимосвязи на 1, либо ничего не делает (возможен также вариант, при котором между нейротегами устанавливается связь «нет связи», но это уже явно избыточные данные).
Можно также при увеличении мощности взаимосвязи учитывать рейтинг пользователя.

Нейротеги для опросов подбираются из списков нейро-тегов какой-либо одной единицы контента, т. е.:
Например, если пользователь загрузил на сервер фото и пометил ключевыми словами:
зведное небо, sky, звезды, ночь, то логично предположить, что эти теги имеют какие-то взаимосвязи.

Но самой интересной особенностью сети нейро-тегов является самоорганизация.
Например, если имеются такие связи:

«законы Украины» — дочерняя категория нейротега «закон»
«закон» — дочерняя категория нейротега «политика»
«закон о приватизации» — дочерняя категория нейротега «законв Украины»

То логично предположить, что

«законы Украины» — дочерняя категория нейротега «политика»,
«закон о приватизации» — дочерняя категория нейротега «политика»
«закон о приватизации» — дочерняя категория нейротега «закон»

Система способна выводить новые знания из старых, находить закономерности в базе знаний, а так же по аналигии нахождить противоречия, нестыковки в БЗ, следить за правильной организацией БЗ (интроспекция), а так же доказывать свои заключения, «объяснять» ход рассуждений.
И в любых спорных вопросах, а такие всегда будут возникать, т. к. мы сипользуем весовые(нечеткие связи) система будет генерировать ненавязчивые опросы зарегистрированым пользователям.

При довольно большой базе данных нейротегов появляется все больше и больше возможностей установить межтеговые взаимосвязи без участия пользователя, их количество растет в геометрической прогрессии с ростом веб-ресурсов, поэтому самаой ощутимой выгодой от подобной системы будут обладать масштабные, большие веб-ресурсы.

Механизм системных опросов и рейтинга – вполне хорошее решение, позволяющее справиться с поддержкой базы знаний, что является самым узким местом в Экспертных системах, которое требовало дальнейшего развития… Но как видим, нашло оно свое развитие немножко в другой области.

Первая и самая основная причина сложности поддержки БЗ в Экспертных системах — быстрое «старение» знаний, причем быстрота «устаревания» часто превышает скорость создания самой ЭС. Вторая причина заключается в недостатке необходимого числа специалистов в области инженерии знаний.
А в глобальной социальной сети нового поколения каждый зарегистрированый пользователь является специалистом в области инженерии знаний. Специалистом, от которого по сути и не требуется знание никакой инженерии.
Да и проблема быстрого старения знаний здесь не так актуальна, потому что мы работаем с суперглобальными даными в отличии от экспертных систем.

Это большая выгода для поисковых систем, т. к. благодаря этому можно значительно расширить область поиска и сделать их намного интерактивнее.

А еще это превратит хаотическое «облако тегов», такое модное в Веб 2.0 в структурированую древовидную структуру.

Рационализаторы вполне вправе заявить, что подобная система требует неоправдано больших вычислительных мощностей и база данных нейротегов очень быстро будет разростаться до огромных размеров, кроме того требует больше внимания со стороны пользователя и это может не оправдать приемуществ, которые мы получим, используя сеть нейротегов.

Но ведь по сути до расссмотрения реальных преимуществ мы не дошли, т. к. это связано с практической реализацией конкретных сервисов. А это – хорошее место, где можно применить свой творческий потенциал в разработке принципиально новых подходов к пользовательскому интерфейсу, т. к. работаем мы в даном случае с принципиально другой организацией данных.
Посмотрев к примеру на pipes.yahoo.com начинаешь осознавать, что возможности для создания действительно удобных интерфейсов работы с такими сложными структурами данных – задача вполне решимая и сделать все можно намного удобнее, чем может показаться на первый взгляд непосвященному в тонкости дела человеку.

Но о самом главном, что нам может дать подобный подход к разработке веб-ресурсов я расскажу в другой статье. Это уже немного другая тема, другая технология, но она не может существовать без сети нейротегов и взаимодополняет ее, позволяя применить принципиально новый подход к разработке множества социальных сервисов, в том числе весьма свежих для нынешнего интернета, над созданием которых люди даже особо не задумывались в виду очевидной их неэффективности… в устранении которой нам и помогут сети нейро-тегов.

Продолжение следует.

Теги:

Хабы:

Habr

Нейротеги

Публикации

Истории

Ближайшие события