yushkevichv Mar 31 2011 at 22:07

Информационные интеллектуальные сети и Семантический Веб

10 min

24K

Semantics*

From sandbox

+25

Comments 43

UFO just landed and posted this here

yushkevichv Mar 31 2011 at 23:07

Согласен с тем, что данные не самые свежие. Старался комбинировать то, что смог найти из свежего и написать про старые фундаментальные основы.

Сам начал погружаться в эту тему не так давно, но подобных полных обзоров не попадалось, поэтому постарался расписать все начала изучения.

Что касается развития, не так давно попалась ссылка stardog.com/
«Stardog is a commercial RDF database: insanely fast SPARQL query, transactions, and world-class OWL reasoning support.»

Совсем свежая штука и достаточно активно развивается. Да, на семантике уже сейчас есть достаточно крупные проекты, но они все не сегодняшние далеко. Мне пока что «свежей крови» найти не удалось пока что. Да, этому направлению еще развиваться и развиваться. Теория за это время шагнула прилично, а практики (по крайней мере, я лично) не особо много то и нашел, к сожалению.

Тем не менее, семантика дает очень интересные взгляды на способы решения задач.

Если вы поделитесь ссылками на свежие проекты — буду благодарен.

UFO just landed and posted this here

yushkevichv Apr 1 2011 at 00:28

Спасибо большое.

ganqqwerty Apr 1 2011 at 03:05

Еще можете упомянуть о том, что в родимых странах учат технологиям, связанным с SW. В Петербурге я знаком с кафедрой в ЛЭТИ, где открыли специальность Технологии семантического веба.
Мы в ИТМО тоже не отстаем и помимо обучения своих студентов SPARQL и OWL иногда проводим семинары-литние школы для всех желающих.

k_s Mar 31 2011 at 23:28

Ну вы захотели, тогда еще ни RDF-Schema, ни OWL, ни SPARQL не было, тогда только все начиналось, а сейчас как раз подходящее время и уровень развития технологий чтобы начинать внедрять потихоньку.

UFO just landed and posted this here

k_s Apr 1 2011 at 00:12

Не важно что там плюс минус год, важно что в то время только сформировалась основа семантического веба, тогда это было лишь идеей и стандартами на бумажках, сейчас появилось много инструментов и технологий, которые дали возможность начать что-то внедрять и использовать.

Всему свое время.

Idsa Apr 1 2011 at 02:23

Из крупных коммерческих продуктов можно назвать пожалуй OpenLink Virtuosso, BigOwlim, Oracle Spatial (насколько знаю хранит данные в RDF)

И эти проекты являются инструментами, но не решают прикладных задач. Грустный смайлик.

В целом, с вами согласен. Хотя добавил бы пару оптимистичных ноток. Во-первых, как ни крути, а хотя бы одна технология из семантического стека вырвалась в мейнстрим — RDFa. Linked Data будет вторым в этом списке. Хотя впечатляющие его применения уже есть (тот же BBC'шный сайт Олимпиады), о мейнстриме пока говорить не приходится.

ganqqwerty Apr 1 2011 at 03:24

микроформаты часто объявляются кастрированными братьями RDF, но тут есть место для споров.

yushkevichv Mar 31 2011 at 23:30

Ну поэтому и обратил внимание, что уровень развития теории \ технологий подрос, а проектов пока еще нет (опять таки, говорю нет лишь потому, что мною не были найдены достойные и современные).

UFO just landed and posted this here

general Apr 1 2011 at 01:23

Согласен. Кто-то выдает желаемое за действительное.
Если уж на то пошло, я скорее согласен признать Социальные сети — Веб 3.0
Рядовые пользователи проводят в соц. сетях значительную часть своей онлайн-жизни.

Все эти семантические сети и утверждения о важности информации, упускают факт, что в интернете дохрена информации! И каждые 3-4 года она удваивается.
Информацию нужно сортировать, сравнивать, анализировать. Ей нужно управлять. И определять ее важность. Тот же феномен «I like it» от Facebook — шикарный пример нового уровня социализации интернета и общества.

А насчет информации. Зайдите в гугл, вбейте запрос, получите в ответ «по вашему запросу найдено 100 миллионов страниц» и задумайтесь насколько было бы лучше если бы их было 100 миллиардов?

-3

Idsa Apr 1 2011 at 01:43

Вопрос не в количестве, а в качестве

legato_di Apr 1 2011 at 00:42

Ох… Для начала определилась с ключевыми понятиями: информация, данные, знания и база зананий. Вы часто путаете первое со вторым, не даете определения базе знаний да и вообще самим знаниям, а это между прочим совсем нерешенный вопрос и определений ему сотни.

Как говорилось выше, семантические сети — это вопрос начала 2000-х, называть это вебом 3.0 не стоит.

В общем смысл статьи не уловил.

UFO just landed and posted this here

yushkevichv Apr 1 2011 at 00:51

Мне казалось, что противоречий в статье нет. Я не давал четких определений таким терминам, как информация, данные и другим. Я посчитал, что это уже устоявшиеся термины.

В статье упоминалось об интеллектуальных базах данных, базах данных и базах знаний, это все таки несколько разные понятия, и мне казалось я вполне однозначно определил их.

Насчет того, что определения термину «знания» на текущий момент может быть и нет точного, хотя мне казалось, что оно вполне достаточно определено (http://ru.wikipedia.org/wiki/%D0%97%D0%BD%D0%B0%D0%BD%D0%B8%D0%B5), но я не ставил себе задачу в этой статье раскрыть этот термин. Ставились совсем другие задачи, и на мой взгляд, они решены.

Вы написали, что семантические сети — это вопрос начала 2000-х и что их не следует называть вебом 3.0. Не буду спорить о датах. Лишь обращу внимание, что семантические сети и семантический веб — это все таки разные понятия. И вот последнее — семантический веб — на мой взгляд, вполне достоин чести носить имя «Веб 3.0».

Это лишь мое мнение.

Очень жаль, что я не смог достаточно хорошо донести основную мысль своей статьи, поэтому вы не уловили ее смысл.

legato_di Apr 1 2011 at 11:16

Мне стоит извинится. Для меня «интеллектуальное что-то» подобно «красной» тряпке, и поздно вечером тянет критиковать, а не идти спать.) Утром я бы просто прошёл мимо.

Чуть-чуть оправдаю свою позицию. Интеллектуальность – это способность творчески мыслить, такого машинам не дано и говорить об интеллектуальности машин можно только после изобретения ИИ.

Более честно описываемые вами «интеллектуальные БД» было бы назвать «mash-up сервисы с функцией поиска», на подобие mash-up сервисов Yahoo Pipes, MS Popfly, которые позволяют агрегировать информацию из разных источников.

Что касается терминов информация и прочее – они совсем не устоявшиеся в философском плане. Есть интуитивное представление этих терминов, не спорю, и его вполне достаточно, чтобы с ними работать, но в научном плане определений пока очень много (можете посмотреть в туже википедию), и стоит хотя бы в начале определять, каким понятием вы оперируете.

Idsa Apr 1 2011 at 01:48

Говорить, что Semantic Web — вопрос начала 2000-х некорректно. Semantic Web активно развивается и еще надерет всем задницу.

— Видишь суслика?
— Нет
— А он есть!

Так и с Semantic Web. Это не та технология, которая должна быть на виду (как социальные сети). Лучшие умы как раз трудятся над тем, как сделать использование семантики незаметным для обычных пользователей.

yamalight Apr 1 2011 at 01:09

Очень много текста, который вроде как нацелен на экскурс в семантический веб, но при этом не объясняет кучи мелких важных штук.

Ну и да, сейчас модно говорил про LOD :D

vanxant Apr 1 2011 at 01:14

Не обижайтесь, но статья водянистая и очень-очень нереалистичная. «Страшно далеки они от народа» (с).
Самое главное — это всё конечно здорово, но непонятно зачем. С задачами слежения за пользователем, поисковой выдачи на базе геолокации и прочими там NFC отлично справляются обычные дедовские математические алгоритмы, а других внятных плюшек в статье не озвучено.
Есть мнение, что вся эта ваша семантика — это попытка переложить задачу по пониманию естественных языков с машин на программистов/верстальщиков, то есть не построить, наконец, ИИ, а избежать его построения. Это путь в никуда, в итоге получится тот же естественный язык, только с красивыми угловыми скобочками а-ля XML.
Особенно странно все эти попытки выглядят на фоне достаточно толковых и даже иногда проходящих тест Тьюринга чат-ботов и заявлений поисковиков о том, что они в целом уже понимают естественные языки.

UFO just landed and posted this here

Cybersoph Apr 24 2012 at 22:10

Развитие технологий осмысления текста — это самое перспективное на сегодняшний день направление. Семантическая сеть по определению импотентна в этом отношении. И вообще, извлечение смысла из текста не подвластно лингвистике, пусть даже и компьютерной. Другое дело эвристико-ассоциативные методы на базе эвритического процессора, например, по технологии Ontology, использующая надлинвистические онтологотивные способы и средства.

Idsa Apr 1 2011 at 01:41

На уровне модели RDF семантика появляется благодаря использованию онтологий OWL (Ontology Web Language)

А сам RDF разве не несет семантики? :)

CheatEx Apr 1 2011 at 13:57

Даже сам OWL не несёт семантики =)

Idsa Apr 1 2011 at 14:10

Поясните, пожалуйста

CheatEx Apr 1 2011 at 20:23

www.loa-cnr.it/ontologies/DOLCE-Lite.owl — что-нибудь в этом документе понятно?

Idsa Apr 1 2011 at 20:28

Вполне.

Вернемся к RDF. Вот пример RDF-данных: <habr:Idsa> <habr:discussWith> <habr:CheatEx> Разве это выражение не несет семантики?

CheatEx Apr 2 2011 at 00:46

Давайте попробуем записать это выражение немного иначе: <wasap:user123456> <wasap:eatingBrainOf> <wasap:user789>. Очевидно, что с точки зрения машин, для которых язык RDF типа и предназначен, это выражение совершенно идентично вашему. Так-же очевидно, что для многих людей оно имеет некоторое значение, порождает в их умах некоторые образы.

Итак, у нас есть два формально одинаковых выражения, которые при этом порождают разные ассоциации даже у одного человека. Вопрос: какая семантика в нём выражена?

Idsa Apr 2 2011 at 08:40

Хорошо, допустим. Но когда же появляется семантика?

CheatEx Apr 2 2011 at 10:38

Не знаю. Есть мнение, что она опявляется вместе с человеком, но это уводит нас за пределы информатики :)

Idsa Apr 2 2011 at 18:14

Интересный взгляд. Я в таком контексте не думал о семантике (или нужно брать в кавычки слово семантика? :) ). То есть вы клоните к тому, что RDF (как и OWL) являются лишь формой описания некоторой семантики (о которой договорились авторы и пользователи онтологии)? Если так, это во многом выглядит как придирка к моей фразе :) Ведь если RDF является формой представления некоторой семантики, то значит, что он несет в себе эту семантику.

UFO just landed and posted this here

CheatEx Apr 2 2011 at 11:43

Да, но вопрос то был про значение для людей, а не про формальный ризонинг.

UFO just landed and posted this here

vvn Apr 1 2011 at 01:46

Semantic web — это, по-моему, такой Duke Nukem Forever из мира веб-технологий. Еще десять лет назад его апологеты говорили о том, как скоро SW изменит интернет. Помню все эти живописания, как интеллектуальные помощники-агенты будут отвечать на наши запросы не с помощью полнотекстового поиска, а с помощью логического вывода в базе знаний, и как SW поможет решить проблему омонимов и т.д. и т.п. Однако прошло 10 лет и интернет не только не превратился из помойки в структурированную базу знаний, но и вообще почти не приблизился к этой цели. Мне кажется, это доказывает, что концепция SW при всей своей изящности, перспективности и логичности слишком уж утопична.

Безусловно, у SW есть свои узкие профессиональные ниши, где польза перевешивает затраты на внедрение, но рассчитывать на распространение этих технологий во всем интернете в обозримом будущем не стоит. Одна из причин — все растущая доля user-generated content в интернете, который превратить в формализованные знания практически невозможно. Думаю, что ближайшее будущее за компьютерным анализом естественных языков.

CheatEx Apr 1 2011 at 13:55

Это скорее не Duke Nukem, а программа Аполон. Зачем именно летят непонятно, но ряд полезных результатов достигнут.

ganqqwerty Apr 1 2011 at 03:23

Хорошая статья, спасибо большое! Очень грустно, что так много отрицательных отзывов в духе «уу, нигде это не применяется, все это утопия».

Вам не кажется, что следующий топик можно посвятить более конкретному обзору успехов Semantic Web?

Ну вот например, появившейся поддержки RDFa в Drupal, Semantic MediaWiki, сервису OpenCalais, системе SNOMED-CT, использованию существующих SW-поисковиков типа sig.ma, обзору того, как используется представленные в RDF правительственные хранилища data.gov и data.gov.uk для создания аналитических обзоров, тому, как с помощью dbpedia можно искать данные по куче критериев, тому, как BBC использует LOD для того, чтобы связать свои данные.

А кровавый энтерпрайз? В T-Systems создают системы поддержки бизнес-процессов автомобильных компаний, где процесс начинается с того, что описывается онтология двигателя! В OWL. И система увязывает её с чертежами, документаций и прочим! Похожую систему от SAP использует BMW — и там полным полно вещей из стека Тима Бернерса-Ли. Решения компании Ontoprise можно щупать уже сейчас — и тупо идти ставить их в ближайшую контору, где мучаютя от обилия данных.
Ну а IBM-овские средства работы с RDF, а Oracle?

Буду рад помочь вам ссылками и статьями.

yushkevichv Apr 1 2011 at 09:12

Спасибо огромное за отзыв!

Буду признателен за материалы и следующий обзор постараюсь сделать более точным и конкретным.

UFO just landed and posted this here

ganqqwerty Apr 1 2011 at 03:29

Офтопик — а кто может переименовать этот блог в Semantic Web или Семантическая паутина? Ведь семантическая сеть — это структура представления знаний из семидесятых (вместе с фреймами).

CheatEx Apr 1 2011 at 13:49

Тут Сеть с большой буквы =)

Cybersoph May 11 2012 at 10:27

Семантика, как известно, охватывает раздел лингвистики, как научной дисциплины, изучающий ЗНАЧЕНИЯ слов и их РОЛИ в естественно-язычных текстах (речи).
Во фразе «Патрон вошел в магазин» для слова «Патрон» имеется, как минимум, четыре значения (семантиса): как босс организации, как деталь токарного станка, как снаряд стрелкового оружия, как устройство для крепления лампы. А для слова «магазин» тоже имеется своя пара семантисов: как торговое предприятие, как устройство хранения патронов. Простым перемножением 2 на 4 получим 8 разных вариантов для смыслов этой фразы. При этом обращаю внимание на то обстоятельство, что термины «семантис» и «смысл» являются совершенно разными понятиями, значительно отстоящими друг от друга. Эти два термина постоянно путают между собою.

Поскольку машина пока не умеет понимать смысл фразы, то разработчики программ по обработке текстов занимаются тем, что пытаются «заехать в Одессу через Херсон», то есть, решить искомую проблему с помощью так называемых «семантических связей и отношений» между словами, которые устанавливает, в общем-то, человек и может каждый раз делать это по разному, исходя из своего опыта и накопленных знаний.
Когда эту «человеческую функцию» пытаются переложить на компьютер, то он начинает теряться и ему очень трудно понять, о каких именно «магазинах» и «патронах» идёт речь.

Особенно выпукло это проявляется в системах машинного перевода, когда необходимо знать точный переводной аналог слова по его правильно по контексту выявленному семантису. Вот с этой целью и пытаются с помощью семантической сети определить верный вариант из восьми возможных для фразы «Патрон вошёл в магазин».

Вообще у слов сплошь и рядом встречается многозначность сем, которая так и называется – полисемия, и семантика здесь не способна сама справиться с ней. Это известный факт из системного анализа, что система не может искоренить присущие ей свойства (проблемы), пока либо не воспользуется внесистемными технологиями, либо сама не перестроится.

Поэтому с языковой многозначностью в компьютерной лингвистике нужно бороться на уровне надлингвистических методов и средств, например, привлекая эвристику и модели мироздания.

Show the best of all time