Обновить
0

Семантические сети *

Веб 3.0

Сначала показывать
Порог рейтинга
Уровень сложности

Semantic MediaWiki

Время на прочтение6 мин
Количество просмотров43K

Semantic MediaWiki — это расширение, ради которого стоит ставить MediaWiki: оно помогает бороться с бардаком и хаосом, который рано или поздно воцаряется в любой вики-системе.

  • Оно позволяет поддерживать согласованность данных на вики.
  • С его помощью можно обращаться с вики как с базой данных.
  • С его помощью можно генерировать красивые графики, диаграммы и графы на основе вики-данных.
  • Оно позволяет пользователям возможность вводить данные с помощью форм, а не вики-разметки, понижая тем самым порог вхождения для пользователей.

SMW позволяет использовать вики как составную часть системы управления знаниями, с его помощью можно создавать коммерческие системы, которые сочетают простоту вики, четкость коллаборативных баз данных, и лучшее из мира Semantic Web. В общем, это вещь, более чем достойная пристального внимания и подробного обзора.
Читать дальше →

Редактор онтологий на естественном языке

Время на прочтение4 мин
Количество просмотров19K
На выставке CeBIT я познакомился с представителями польской компании Cognitum, которая разрабатывает семантический фреймворк Ontorion. Важнейшей частью этого фреймворка является редактор онтологий Fluent Editor, который показался мне замечательным и достойным обзора. Главное достоинство Fluent Editor'а состоит в том, что он позволяет создавать OWL-онтологии людям, не имеющим представления о синтаксисе OWL (хотя иметь представление о его концепциях, и о моделировании информационных структур, конечно, все равно нужно). Онтологии создаются на естественном языке, Controlled English — то есть на обычном английском, к которому применены определенные правила и ограничения. Приведу обзор основных возможностей синтаксиса этого языка, не забывая смотреть на то, в каком виде его основные выражения будут сохраняться в OWL.

Для примера начнем составлять онтологию, содержащую сведения о бизнесе некой компании. У этой компании, как у любой коммерческой организации, есть поставщики и покупатели. Те и другие являются организациями, причем одна и та же организация может быть одновременно и поставщиком, и покупателем. Запишем соответствующие выражения на Controlled English:

Every customer is a organization.
Every supplier is a organization.

Читать дальше →

Цитатник в облаках

Время на прочтение6 мин
Количество просмотров3.1K
Опишем концепт интерфейса контекстного ввода цитат. Речь будет не про те облака, о которых все подумали. Облака — типа бенчмарка «Heaven», 4-я версия которого недавно вышла (рис. слева) или Небесного замка Лапута, а цитатник — элемент интерфейса типа летающих островов. На поверхности этих островов теплится жизнь, а сами они могут летать. В нашем случае — перемещаться мышью. Опору их составляют камни, а у нас — контекстные кнопки.

Как создаётся летающий остров? Выделяем мышью контекст. Выделение создаёт основу поверхности — цитату. Под ней появляется кнопка, едва заметная, полупрозрачная, которую мы привыкли видеть в Ворде, начиная с «2007». Она может вскоре исчезнуть, и правильно, если выделение текста создавалось для других целей. Но если навести мышь — создаётся опора нашего будущего цитатника, парящего в облаках.

Зачем нужен цитатник? Оказывается,
целей может быть много.

Технологии Semantic Web для интеграции информационных систем

Время на прочтение5 мин
Количество просмотров9.9K
Технологии семантической паутины (Semantic Web) периодически привлекают внимание благодаря тому, что на их основе создаются новые интересные инструменты. Совсем недавно появился социальный поиск (Graph Search) в Facebook – первый инструмент поиска по графу, доступный действительно широкому кругу пользователей.
Однако, сфера применения семантических технологий не ограничивается социальными сетями и поисковыми сервисами. Идея применить эти технологии для организации обмена данными между информационными системами достаточно очевидна. Если одна система передает другой не только сами данные, но и информацию об их предметной сущности (смысле, семантике), это позволяет лучше абстрагировать обменивающиеся системы друг от друга, чем при использовании выгрузок в XML или веб-сервисов SOA.
Кодирование информации в семантическую форму при передаче
Сегодня существует несколько реализаций такого подхода. Большинство из них, конечно, сделано зарубежными компаниями, но есть и российские разработки. В этой статье я расскажу об архитектуре одной таких систем, которую реализовал на практике.
Читать дальше →

Как и для чего мы сделали свой валидатор микроразметки

Время на прочтение9 мин
Количество просмотров44K
Недавно мы писали о нашем валидаторе семантической разметки. А сегодня хотим рассказать, зачем и почему он был сделан, какие сложности возникли при разработке и как мы с ними справились. Одна из причин, по которой мы его сделали, конечно, в том, что мы хотели избавить роботов от встреч с ошибками вебмастеров. Но руководствовались мы не только этим.

Реакция роботов на ошибки в микроразметке

Медленно, но верно семантическая разметка набирает популярность. Чуть больше десяти лет назад (в мае 2001 года) впервые был введен термин «семантическая паутина». В 2004 году появилось первое упоминание формата RDFa, примерно тогда же начали развиваться микроформаты. В июне 2011 года был запущен стандарт schema.org. Сейчас семантическую микроразметку поддерживают и Яндекс, и другие ведущие мировые поисковые системы.

Однако вебмастера часто сталкиваются с тем, что валидаторы HTML выдают массу ошибок.
Читать дальше →

Создание частотного словаря на основе анализа библиотеки художественной литературы

Время на прочтение4 мин
Количество просмотров9.2K
Общий привет.

Недавно, для шлифовки морфологического словаря, способного (предположительно) генерировать все возможные формы слова из инфинитива — мне понадобился достаточно объемный частотный словарь русского языка. Частотный словарь — вещь очень простая, слова в нем упорядочены по частоте, с которой они встречаются в анализируемом тексте.
Читать дальше →

Text Mining Framework (Java)

Время на прочтение5 мин
Количество просмотров31K
Что это и для кого (вместо вступления)

В данной статье я бы хотел рассказать о небольших результатах своей научной деятельности в сфере Text Mining. Этими самыми «результатами» стал небольшой FrameWork, который, пока еще, и до либы то не очень дотягивает, но мы растем =). Данный проект — реализация на практике некоторых, разработанных мною, теоретических положений. Как следствие этого я представляю возможности, которыми он может потенциально обладать в конце внедрения всех идей. Названо сее творение: «Text Mining FrameWork»(TextMF). Давайте в кратце рассмотрим, что именно будет позволять TextMF в своей первой финальной версии и что работает уже сейчас.
Читать дальше →

Идеальное хранилище документов

Время на прочтение5 мин
Количество просмотров57K
Иногда очень хочется быстро найти нужный файл. С учетом того, что файлов — сотни тысяч, а ты не знаешь ни его названия, ни содержания, ни типа — ничего. Зато приблизительно знаешь категории. И хочется его быстро вычислить и сразу же отредактировать и записать.
На сегодня удобных кросс-платформенных open-source файлопомоек с прямым доступом к файлам — НЕТ.
Далее речь пойдет не о медиабиблиотеке и не о semaweb — а о простой и удобной системе управления громадной файлопомойкой с прямым доступом к файлам.
Читать дальше →

Универсальный валидатор микроразметки в Яндекс.Вебмастере

Время на прочтение2 мин
Количество просмотров25K
В последнее время вебмастера используют семантическую микроразметку все чаще: по нашим данным, сейчас 10% страниц рунета размечены, и это число постоянно растет. А вслед за популярностью микроразметки растет и потребность вебмастеров в дополнительных ее видах. И не только тех, которые поддерживает Яндекс. Именно поэтому мы решили сделать валидатор микроразметки в Яндекс.Вебмастере универсальным. Для начала мы научили его проверять корректность всех типов разметки Schema.org и microdata.

Пример валидации разметки Product (Schema.org):валидатор микроразметки
Небольшая экскурсия в историю

SPARQL запросы к содержимому HTML страниц

Время на прочтение5 мин
Количество просмотров6.9K
Здравствуйте.
После посещения одной конференции у меня появилась идея, воплощение которой я и представляю.
Данный пост предоставляет пример работы с библиотеками grab и rdflib, а также готовый класс для выполнения SPARQL запросов к содержимому web-страниц.

Использовать данный инструмент предполагается для превращения информации с сайтов, которые не предоставляют её в структурированном виде (rdf-тройки, xml, json), в понятный «машинам» вид.
Читать дальше →

Семантическая сеть, ARC2 и PHP

Время на прочтение6 мин
Количество просмотров5.7K
Пока семантическая паутина только-только развивается и захолустные веб-студии не взвинчивают цены за слова семантическая и семантический давайте посмотрим на инструменты для работы с этим зверем в php.
Читать дальше →

Немного о Microdata

Время на прочтение3 мин
Количество просмотров71K
Доброго времени суток! В этой статье я бы хотел рассказать о микроданных и о словаре schema.org. Об этой замечательной технологии уже рассказывали на хабре два раза, но в них не было освещено несколько важных моментов.

Читать дальше →

Wikidata: первый новый проект Wikimedia Foundation с 2006 года

Время на прочтение2 мин
Количество просмотров1.9K
Wikimedia Foundation собирается запустить сайт Wikidata — «открытую базу знаний о мире, которую могут читать и редактировать как люди, так и машины». Проект будут вести на всех языках, доступных в Wikimedia, и он должен стать неким центральным и единым хранилищем данных для всех проектов Wikimedia, примерно как Wikimedia Commons является центральным хранилищем мультимедийных файлов для всех остальных проектов.

Главная суть Wikidata — снабжать структурированной информацией компьютерные программы. Должен существовать некий единый формат и общий способ для всех компьютеров, как извлекать знания о мире, будь то информация о часовых поясах, координаты городов мира или дни рождения актёров. Все эти данные должны быть доступны компьютерам через единый интерфейс.
Читать дальше →

Ближайшие события

С чего начинаются онтологии

Время на прочтение5 мин
Количество просмотров29K
Для таких же начинающих, в онтологиях, как и я, а так же для тех, кто хочет начать, для тех, кто задаётся вопросом, что это, с чем это едят и с чего начать, предлагаю начинать с того, с чего начал и я, а именно:
так что же такое онтологии и с чего начать?

Открыт офис W3C в России

Время на прочтение1 мин
Количество просмотров1.6K
image
Долгожданное событие наконец произошло!
В России открыт офис Консорциума W3C .
Офис открыт совместно W3C и Высшей школой Экономики и будет работать на базе университета. Не менее радостной новостью является то, что известный популяризатор инициативы открытых государственных данных и создатель opengovdata.ru Иван Бегтин (хабраюзер ibegtin) стал руководителем направления Linked Data в российском подразделении W3C.
Директором представительства стал Виктор Клинцов.
Читать дальше →

Информационные интеллектуальные сети и Семантический Веб

Время на прочтение10 мин
Количество просмотров25K
Информационные интеллектуальные сети, Семантический Веб, Веб 3.0, ИИ… Эти слова все чаще стали появляться в нашем обиходе.

Целая эпоха универсального Интернета заканчивается. Она начинает сменяться до того, как мы начинаем это ощущать. На смену едва оформившемуся термину Web 2.0 уже приходит другой, непонятный и загадочный на первый взгляд — Web 3.0, или же просто «Семантический Веб».

О том, что это такое и куда движется наш интернет, я хотел поговорить в этой статье.
Читать дальше →

Тим Бернерс-Ли: Facebook может фрагментировать Сеть

Время на прочтение2 мин
Количество просмотров2.2K
Один из основателей Всемирной сети считает, что «самые успешные социальные сети начинают изменять фундаментальным принципам» интернета и «создавать закрытые хранилища контента». Сэр Тим Бернерс-Ли опубликовал большую статью на эту тему в журнале Scientific American.

По его словам, не разрешая пользователям экспортировать информацию, эти социальные сети могут привести к «распаду Сети на отдельные островки». В качестве примера он привёл Facebook, который оставил 600 млн своих пользователей в «тупике данных», ловушке, из которой они не могут выбраться. Здесь Бернерс-Ли практически дословно повторяет выражения Google.
Читать дальше →

Виртуальный хор

Время на прочтение1 мин
Количество просмотров5.9K
Хор из более 200 человек из 12 стран мира создали Eric Whitacre и Scott Haines живущие в Лос-Анджелесе.

Идея создания хора пришла Эрику после записи песни онлайн. Он решил создать настоящий виртуальный хор. Записав каждый голос отдельно, он впоследствии соединил их в один прекрасный хор. Замечательная идея и её воплощение. Смотрите интервью Эрика (Eric Whitacre ).



Участники хора проживают в: Австрии, Аргентине, Канаде, Англии, Германии, Ирландии, Новой Зеландии, Филиппинах, Сингапуре, Испании, Швеции и Соединённых Штатах Америки. И ты, хабра-человек, можешь легко присоединится к этим людям.

Читать дальше →

Настоящее семантической паутины

Время на прочтение3 мин
Количество просмотров3.4K

Насколько все быстро растет


Я позволю себе опустить некоторые технические тонкости и лишь приведу интересные факты. Да, он оказывается жив и развивается, это я про семантик веб. Здесь есть хорошее описание технического устройства семантической паутины (английский язык, да и вобще слабонервным лучше не открывать и читать лишь вдумчиво).

Далее я расскажу о реальном использовании.
Читать дальше →

Осенняя школа Semantic Web в ИТМО

Время на прочтение2 мин
Количество просмотров2.2K
Порог вхождения в Semantic Web не то, чтобы сильно высок, однако первые пару-тройку недель приходится разгребать ужасную кашу из стандартов, языков, инструментов и внушительного математического аппарата, размышляя над тем, что же из всей этой каши наиболее полезно.
Наши семинары предназначены для тех, кто слышал о семантик вебе, но так и не понял
  1. что это такое,
  2. почему это благо, и, наконец,
  3. как этим пользоваться.
Читать дальше →