Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Поисковик Google по датасетам вышел из беты

Блог компании ITSumma Поисковые технологии *Data Mining *Машинное обучение *Научно-популярное


Для машинного обучения и научных исследований требуется много данных. В помощь разработчикам и исследователям, Наташа Ной с коллегами из исследовательского подразделения Google Research в сентябре 2018 года выпустили специализированную поисковую систему Dataset Search. 23 января 2020 года поисковик вышел из беты, с новыми инструментами для лучшей фильтрации поиска и доступом почти к 25 миллионам наборов данных.

Датасеты публикуют в открытом доступе многие учреждения: университеты, государственные организации и лаборатории. Но зачастую их трудно найти с помощью традиционного поиска. Поисковик Dataset Search обрабатывает теги метаданных в формате Schema, тут наборы данных самой разной тематики: от лыжных травм до популяции пингвинов.
Читать дальше →
Всего голосов 30: ↑29 и ↓1 +28
Просмотры 11K
Комментарии 1

Информация в 2007 году

Чулан
В конце прошедшего года наметилось снижение интереса к блогам общей направленности и просто интернет-дневникам на фоне сильно возросшего количества этих самых блогов. Открытие различных блог-сервисов и естественная заинтересованность общества делают своё чёрное дело — пользователи начинают плодить свои блоги. Плодить без цели и идеи. У всех есть? И у меня будет!

Стоит ли говорить, что этот процесс снижает качество предоставляемого контента в общем? А во что превращается поиск нужной и, что самое главное, внезапно нужной информации? Да, довольно продолжительное время назад появилось весьма успешное средство сдержать и структурировать этот кипящий хаос общественного сознания — поисковики по тегам. При довольно успешном сотрудничестве блогеров и тег-сервисов всё общественное знание очень гибко было классифицировано по различным категориям. Любому вновь появлявшемуся в интернете сразу присваивалась своя категория. Казалось бы, теперь поиск информации представлял собой сплошной мёд. Но ситуация продержалась недолго.

Теги тегами, а информации становилось всё больше, и общность всей системы начала рушиться, конкретика и определённость поиска информации начали расползаться. Теперь, чтобы найти всю информацию по нужной теме, мало стало провести поиск непосредственно по ней, стало необходимым ещё и отсеять результаты по дополнительным критериям. Стало понятным, что нужно продумывать новые системы поиска и структуризации информации из блогов и информационных ресурсов.

Для отслеживания обновлений в блогах используются разные feed-технологии, призванные донести информацию пользователю: Atom, RSS, RDF. Работают они исправно, у каждой есть плюсы и минусы, но они прозрачны для пользователя и он обычно не задумывается о выборе того или иного формата. Проблемы начинаются, когда в feed-листе пользователя поселяется больше 50 или 100 различных лент. Если агрегатор новостей — программа, то это забивание канала и трата трафика. Несколько легче обстоят дела с онлайн-агрегаторами, но всевозрастающее неудобство оперирования лентами остаётся. В этом году появятся сервисы (если уже не появились), которые позволят аккумулировать различные ленты в единые тематические потоки, а также проводить с этими потоками различные операции.

Чтобы сохранить здравую целостность интернета, необходимы, наконец, решительные шаги по направлению к семантическому вебу. Напомню, основной идеей семантического веба является создание такой структуры информации, которая будет понятна компьютерам. Одним из средств достижения этой цели становятся микроформаты (mf). Повсеместному внедрению mf мешает недопонимание обществом их ценности. Исправят это допущение новые расширенные mf и сервисы, оперирующие ими. После этого сразу начнётся повальное внедрение mf в сервисы и ПО.

Вот только немногие вещи, которые, как мне кажется, мы увидим в новом 2007 году.
Всего голосов 19: ↑15 и ↓4 +11
Просмотры 216
Комментарии 34

Про Web 3.0 и не только

Чулан
Тема поднятая вокруг Web 2.0 сейчас очень популярна и ей посвещено множество интересных ресурсов. А каким тогда будет Web 3.0?

Сначала о Web 2.0

Выделяют несколько основных аспектов этого явления

1. Веб-службы
2. AJAX
3. Веб-синдикация
4. Mash-up
5. Метки (теги)

В статье «Тим О’Рейли, Что такое Веб 2.0 „(Компьютерра, 11 октября 2005 года) показана карта Веба 2.0



Но ведь после Web 2.0 будет Web 3.0

Что это будет за монстр?

В Интернете под Web 3.0 понимается следующее:

Web 3.0 — это система, которая сможет дать чёткий и максимально полный ответ на простой запрос вроде этого: «Я ищу тёплый курорт, чтобы отдохнуть во время отпуска; у меня есть на это $3000. И кстати, со мной будет 11-летний ребёнок». В нынешних условиях поиск такой информации может занять не один час: придётся просмотреть списки авиарейсов, отелей, фирм по аренде автомобилей. В условиях «Веб 3.0» пользователь в идеале должен сразу получить полный пакет информации так же профессионально и оперативно, как если бы это делал агент туристической фирмы.


Таким образом это переход от выдачи информации по запросу к выдаче информации по потребностям клиента

Пока возможен следующий вариант развития этой схемы:

Изменение обработки поисковых запросов от пользователей, поисковая система будет знать информацию о пользователе, т.к. соберет данные о пользователе и проанализирует их. Возможно перед тем, как ввести запрос в окно поиска нужно будет авторизоваться, после этого система идентифицирует пользователя и будет знать о его потребностях, после ввода поискового запроса, например «Туры в Египет», вместе с поиском по Интернету, запускается поиск по данным пользователя и по его записям в блогах. При выдаче результатов данные из анкеты и записей пользователя также учитываются. То есть, если пользователь съездил в прошлом году в Египет на такой-то курорт и ему это не понравилось, и он об этом написал в своем блоге, то при выдаче результата это учитывается.

Что очень интересно, если сопоставить последние данные о развитии компании Яндекс:

— Развитие поиска по блогам
— Покупка Яндексом сервиса «МойКруг»
— Запуск в тестовой версии сервиса “Я.ру»

Думаю, данную схему в скором времени может воплотить в реальность Яндекс.

Так что ждите прихода Web 3.0
Всего голосов 14: ↑8 и ↓6 +2
Просмотры 234
Комментарии 7

Вышло расширение Firefox Tabulator

Семантика *
Основное на коде Tabulator от создателя всемирной паутины Тима Бернес Ли.
Работает это все на AJAX. Правда лично у меня при попытке посмотреть FOAF FireBug начал ругаться, что и не мудрено, программка то на альфа тестировании. Но то что я видел на примере (смотри ссылку) мне определено понравилось. Она позволяет работать еще и с микроформатами и показывать гео-расположение на Google Maps.
Всего голосов 7: ↑4 и ↓3 +1
Просмотры 567
Комментарии 7

GRDDL теперь является рекомендацией W3C

Микроформаты *
11 сентября инфраструктура GRDDL приобрела статус «W3C Recommendation».

Это мост между существующими диалектами XML и RDF. Использование GRDDL смещает точку приложения усилий с формирования RDF к созданию алгоритмов преобразования существующих данных в RDF.

Документы могут быть включены в инфраструктуру GRDDL разными путями. В общем случае для XML для этого нужно объявить пространство имён `grddl` и указать в аттрибуте корневого элемента идентификатор ресурса соответствующего преобразования из XML в RDF (например, файла XSLT). Механизм также позволяет указывать преобразования для целых классов XML-документов (имеются в виду классы по профилю или пространству имён).
Всего голосов 5: ↑5 и ↓0 +5
Просмотры 754
Комментарии 2

Что ж такое этот загадочный третий веб?

Семантика *
Решил написать небольшую разъяснительную статью на эту тему.

Немного воды для начала


Совсем недавно стали появляться новости о том, то IBM и BBC принялись за разработку Web 3.0. Затем поступила информация, что между Европейским Союзом и США намечается конкуренция за право первенства в технологиях Web 3.0, или, как еще называют, Семантической Сети.

Вообщем-то Web3.0 довольно условное название, ибо не все признают и веб 2.0, потому далее буду называть это нечто семантической сетью.

Что же такое в действительности Семантический Веб и достоин ли он прийти на смену существующему интернету – основные вопросы пользователей и сетевых инвесторов. Об этом и пойдет речь.

Читать дальше →
Всего голосов 56: ↑46 и ↓10 +36
Просмотры 3K
Комментарии 41

W3C: Логотип семантической сети и юзербары

Семантика *
Всемирный Консорциум WWW опубликовал логотип семантической сети и полоски для пользователей:

И таблица юзербаров.

GRDDL SW Button - GRDDL - blue SW Button - GRDDL - green SW Button - GRDDL - orange SW Button - GRDDL - gray SW Button - GRDDL - magenta
OWL SW Button - OWL - blue SW Button - OWL - green SW Button - OWL - orange SW Button - OWL - gray SW Button - OWL - magenta
RDF SW Button - RDF - blue SW Button - RDF - green SW Button - RDF - orange SW Button - RDF - gray SW Button - RDF - magenta
SPARQL SW Button - SPARQL - blue SW Button - SPARQL - green SW Button - SPARQL - orange SW Button - SPARQL - gray SW Button - SPARQL - magenta


Далее опубликована лицензия и правила использования.
Всего голосов 34: ↑29 и ↓5 +24
Просмотры 1K
Комментарии 33

Библиотека 3.0

Семантика *
Представьте себе библиотеку неимоверных размеров. Со многими миллионами книг. Книг самых разных, из всех возможных сфер человеческой деятельности, на все возможные и невозможные темы. Библиотеку общедоступную и бесплатную.

И всё было бы хорошо и замечательно в этой Библиотеке. Если бы не одна досадная особенность.

Книги в Библиотеке не имеют обложек, оглавлений и предметных указателей. И расставлены все книги по полкам случайным образом.
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 1.4K
Комментарии 20

Семантизация Wordpress.

Семантика *
Многие из нас ведут стендалон блог. Как правило на движке Wordpress. Поскольку блог посвящен семантической сети, то логично будет, если я размещу тут восьмерку используемых мною плагинов.

Читать далее>>
Линк ведет на мой блог, но можно и мне получить капельку пиара?
Всего голосов 14: ↑9 и ↓5 +4
Просмотры 645
Комментарии 10

Большая паранойя 2. Алчность наносит ответный удар.

Семантика *
money059.jpg
Я прошлый раз мы рассмотрели параноидальные страхи людей по поводу личной информации. Недавно поговорил с людьми на всё ту же тему, понял что у людей есть еще один страх. О нем ниже.

Как нас учили на курсе “Зарубежной литературы” (по совместительству философии, люди делятся на энтузиастов и филистеров. И последние вечно хотят видеть какую-то пользу для себя. Так сказать “монетизацию”.
Так вот те самый люди, с которыми я говорил, не верят в GGG, потому что не видят там денег.
Сегодня я попытаюсь их (и вас) разубедить.
Читать далее>>
Всего голосов 12: ↑4 и ↓8 -4
Просмотры 637
Комментарии 3

Семантическому вебу — крутые адреса!

Семантика *
Небольшое лирическое отступление. Глядя на историю веба, понимаешь что делали как в хороших городках: сначала клали основные тротуары. В добавок к этому люди протаптывали удобные тропинки. А потом эти тропинки (там где людям удобно) асфальтировали, и получалось все хорошо. Так и в вебе. Сначала появился довольно убогий HTML, который до нашего времени разросся практически в универсальный и совершенный инструмент. Потому что доделывали его так, что б было удобно, основываясь на опыте, а не на тычке пальцем в небо.

Так вот, W3C поглядев, как люди привязывают к одному адресу FOAF, OpenID и что-нибудь еще решили стандартизировать это все и сделать более умным.

Задачу они себе поставили — стандартизировать URI тут я приведу выводы их последнего драфта.

К примеру есть корпорация Example Inc. там работают Алиса и Боб.
www.example.com
the homepage of Example Inc.
www.example.com/people/alice
the homepage of Alice
www.example.com/people/bob
the homepage of Bob



Сформулируем проблему?

Предположим компания хочет выпендриться и опубликовать информацию об Алисе в формате N3
<URI-Алисы> a foaf:Person;
foaf:name "Alice";
foaf:mbox <mailto:alice@example.com>;
foaf:homepage <http://www.example.com/people/alice>


По всем правилам RDF <URI-Алисы> должно содержать ссылку на нее. Но ссылку куда? На www.example.com/people/alice нельзя, потому что по правилам <URI-Алисы> a foaf:Person; должно содержать именно ссылку на человека.

Читать далее в моем блоге >>
Всего голосов 15: ↑8 и ↓7 +1
Просмотры 994
Комментарии 8

RDF for dummies

Семантика *
С этой статьи я начинаю совй цикл постов «для новичков» где максимально популярно растолкую понятия веб 3.0. В последствии все статьи перекочуют в вики и будут «изданы» мною в виде PDF книги.

Начнем со средств, и сегодня у нас основа основ — RDF.
Читать дальше →
Всего голосов 42: ↑37 и ↓5 +32
Просмотры 11K
Комментарии 71

FOAF for dummies

Семантика *
Вам довелось узнать что такое RDF.
Вам доводилось читать в моем блоге по каких-то страшных FOAF, SIOC, SKOS, DOAP...
Настало время узнать, что это такое, и зачем я рассказывал про RDF.

Начнем?

Читать дальше →
Всего голосов 31: ↑26 и ↓5 +21
Просмотры 4.2K
Комментарии 9

Социальные сервисы и права пользователей

Чулан
То, что мы наблюдаем сегодня — это шквальный рост числа новых сервисов. Каждый день появляется что-то новое. Что можно сказать о пользователях, на которых рассчитаны все эти сервисы? Они растерянны, сбиты с толку этим бесконечным потоком предложений. Они мне представляются как несчастные граждане, не ведающие о своих правах, завязшие в водовороте бурлящего рынка. А есть ли какие-либо права у пользователей этого «дикого» социального веба? Участники группы Open Social Web убеждены, что каждый пользователь имеет право владения персональными данными, право контроля над тем, с кем эти данные могут быть разделены и право предоставлять постоянный доступ к этим данным для определенных внешних сайтов. Но чем это может помочь нашим раздосадованным пользователям? Видите ли, для того чтобы в полной мере опробовать какой-либо новый сервис, требуется регистрироваться в нем, заполнять все свои персональные данные, формировать свой круг друзей, проявлять активность и накапливать авторитет. Вот она — проблема.
Читать дальше →
Всего голосов 31: ↑28 и ↓3 +25
Просмотры 413
Комментарии 13

Конференция SemTech 2008

Семантика *
11-22 мая в San Jose (California) проходила конференция SemTech 2008. Это событие было посвящено Semantic Web в целом, а также сопутствующим ей технологиям. Были представлены презентации об уже работающих web-решениях и множество докладов, посвященных внедрению semantic-технологий в существующие проекты.

Официальный сайт конференции
Блог-пост о конференции с кратким обзором
Статья, посвященная вопросам инвестирования semantic web стартапов (интервью с инвесторами)
Всего голосов 6: ↑5 и ↓1 +4
Просмотры 515
Комментарии 0

Интеграция пользователей в социальный граф. Подход MetaID

Социальные сети и сообщества
Социальные сети стали тем явлением, что вывело интернет на новый этап развития. Сложно представить современного пользователя интернета, который не был бы частью одной из них. Но, безусловно, это далеко не последний этап. И в этой статье я расскажу о том, как видят дальнейшее развитие социальной части интернета всемирно известные гуру и как пытаемся реализовать эти идеи на практике мы, разработчики проекта MetaID.

дальше...
Всего голосов 1: ↑1 и ↓0 +1
Просмотры 714
Комментарии 76

Как создать соединению между обсуждениями с помощью SIOC

Семантика *
Перевод
SIOC предоставляет словари для описания контента и взаимодействия: семантический слой который может работать с существующими платформами обсуждений. Используя SIOC создаются различные связи с указанными ресурсами, это открывает новые методы доступа с данными:
  • Виртуальные форумы


    Это может быть сборище постов или цепочек обсуждения распределенных по платформе обсуждения, к примеру, когда пользователь нашел некое количество блогов, то агенты через некоторое время предложат ему блоги со сходными темами.
  • Распределенные беседы


    Трэкбек часто используется для связи поста на блоге с предыдущими или родственными топиками. Создавая ссылки в обоих направлениях и не только на блог, но и в отношении всех видов интернет дискуссий цепочки могут быть использованы независимо от того какое URI загружено в браузер,
  • Объединённые сообщества


    Помимо создания веб-страницы с рядом ссылок на блоги, форумы или людей, состоящих в том или ином обществе, нет стандартного способа определить, что составляет онлайн сообщества (за исключением группирования людей в FOAF или OPML) SIOC позволяет просто определить, какие объекты являются составными частями сообщества, или сказать, к какой общине принадлежит объект (используя sioc:has_part / part_of): пользователей, групп, форумов, блогов и др.
  • Общие темы


    Technorati (Поисковая система блогов) и BoardTracker (для досок объявлений) задействовали систему текстовых меток, которые люди прикрепляли к их постам. SIOC позволяет определение таких тегов (с использованием данного имущества), но также позволяет иерархическое или не иерархическое определение тем, используя sioc:topic, когда тема двусмысленна или требуется больше информации для её описания. СВ сочетании с другими веб-словарями темы и теги могут быть описаны используя систему организации SKOS.
  • Один человек, много аккаунтов


    SIOC также имеет целью решить вопрос множественной идентичности, давая возможность пользователям определить, что они содержат другие аккаунты или в том, что их аккаунты принадлежат к какой-либо конкретной личности (через foaf:holdsOnlineAccount или sioc:account_of). Поэтому все должности, или замечания, сделанные от конкретного лица, связанные с использованием различных учетных записей пользователей на разных платформах могут быть определены.
Рейтинг 0
Просмотры 689
Комментарии 0

Как создать соединения между обсуждениями с помощью SIOC

Семантика *
Перевод
SIOC предоставляет словари для описания контента и взаимодействия: семантический слой который может работать с существующими платформами обсуждений. Используя SIOC создаются различные связи с указанными ресурсами, это открывает новые методы доступа с данными:
Читать дальше →
Всего голосов 20: ↑14 и ↓6 +8
Просмотры 622
Комментарии 15

Практический HTML: улучшаем семантику ссылок

Микроформаты *
Перевод

Примечание: ниже перевод статьи «Boost Your Hyperlink Power». В ней освещается использование атрибутов rel и rev, а также некоторые микроформаты.



Часть HTML-тегов и атрибуты мы используем каждый день в свой работе. Заголовки, параграфы, списки и картинки являются основой разметки каждого веб-разработчика. Но наиболее распространенным элементом, наверное, будет ссылка — простой тег, который связывает воедино все страницы, создавая ту самую беспорядочную структуру, которую мы называем Всемирная Сеть Интернет (WWW).



Ссылка как она есть



Весь потенциал ссылок заключается в атрибуте href, сокращение от hypertext reference. Он создает одностороннюю связь текущей страницы с другим ресурсом, обычно другой такой же страницей в интернете:



   <a href="http://allinthehead.com/">


Атрибут href находится в открывающем теге a, между открывающим и закрывающим тегами находится текст для описания ссылки:



   <a href="http://allinthehead.com/">Drew McLellan</a>


«Ну и что», — скажите вы. — «Это я все и так знаю», — и будете абсолютно правы! Но у ссылки есть еще кое-что, кроме атрибута href.


Читать дальше →
Всего голосов 43: ↑41 и ↓2 +39
Просмотры 8.2K
Комментарии 44

Миллион долларов за идею

Чулан
Перевод
Стартапов, занимающихся семантическим анализом, в штатах сейчас много. Что бы ты делал на месте небольшой компании, написавшей мощный движок для семантического анализа, которая хочет на нем заработать?

Правильно, ты предлагаешь приз в миллион долларов любому, кто предложит наиболее доходную идею использования твоих технологий и назовешь этот конкурс «Semantic Hacker». Именно так и поступила компания TextWise. Ее движок сканирует веб-страницы и находит наиболее подходящие для них контекстные рекламные блоки, используя обработку естественного языка и семантический анализ. И теперь создатели TextWise хотят понять, что другие предприимчивые люди могут сделать с помощью их технологий.

Условия конкурса — выигравшие участники получат сто тысяч долларов сразу же, как только передадут компании права на идею. Скорее всего они так же получат предложение работать на компанию, а также 50% доходов от развития своей идеи за первый год, вплоть до миллиона долларов.
Всего голосов 13: ↑11 и ↓2 +9
Просмотры 212
Комментарии 2