Как стать автором
Обновить

О Wikidata для тех кто вообще не слышал: открытая база данных, сестринский проект Википедии — с ней же и интегрирован

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров5.8K

Здравствуйте, на Хабре не много о Викиданных, хочу рассказать об этом бесплатном открытом интересном и полезном сервисе. Веб интерфейс располагается по адресу https://www.wikidata.org/wiki/Wikidata:Main_Page.

Источник: https://upload.wikimedia.org/wikipedia/commons/d/d9/Wikidata_IO_at_Repository_Fringe_2017_-_Session_1-_Adding_data_to_Wikidata.pdf

Пример айтема - прекрасная компьютерная игра Armies of Exigo https://www.wikidata.org/wiki/Q686963, как видите справа - статьи на разных языках (и пустые блоки с другими продуктами Wikimedia) - одной из первых задач Викиданных было связывание статей:

Ключ-значение с уточняющими свойствами, многие значения это не текст а ссылка на соответствующий айтем - например для игры - кто издатель, кто разработчик, также можно посмотреть кто ссылается на этот айтем (Alt-Shift-J) - слева есть кнопка. Как и в Википедии - есть история, страница обсуждений каждого айтема, можно по почте получать уведомления когда кто-то что-то изменил. Меняете язык сайта - айтемы тоже будут на этом же языке - у каждого айтема есть label на разных языках. Редактировать может каждый, как и Википедию. Из статьи в Википедии можно перейти на соответствующий айтем - слева есть кнопка, или Alt-Shift-G. Редактировать можно не только руками в браузере - есть разные инструменты, некоторые скриптами создают миллионы айтемов, распаршивая другие сайты (осторожно с лицензией).

Вот например так выглядят Викиданные
Вот например так выглядят Викиданные

Викиданные это координирующий узел других сайтов и баз данных. Например игра ссылается на страницы обзоров, где ее скачать, музыкальный трек среди прочего может ссылаться на https://musicbrainz.org - другая большая база данных, но только о музыке. Если у вас есть любимая тема, но значимости по ней не хватает для статьи для Википедии (или уже удалили администраторы) - можно создать айтем в Викиданных. Тоже можно вставлять источники. Айтемы бывают большими - и без чтения соответствующей статьи в Википедии уже можно многое узнать. Бывают с картинками, видео, аудио. Вот айтем Хабра.

Как и в Википедии, вокруг Викиданных суетятся боты - например вставили вы линк на Гитхаб - придет бот и проставит все версии, с датами:

Вставлять версии - работа для машины
Вставлять версии - работа для машины

Инфобоксы в Википедии справа - часто берут данные из Викиданных. Как и поисковые машины. Еще один пример интеграции - одна строка генерирует братьев-побратим любого города:

Разные языковые разделы Википедии одной и той же статьи могут содержать разные цифры - в идеале цифры хранятся в Викиданных и уже оттуда вставляются в Википедию, вот примеры

Eсть встроенный инструмент для создания запросов - вот сегодня написал квери (язык SPARQL) чтобы получить все freeware игры для Windows, отсортированные по годам, с линками на Steam и сайт:

Вот большая страница примеров - можно взять готовый, поменять айди - и увидеть новые результаты.

Вот еще интересный для меня запрос - показывает свободные програмные проекты написанные на Go.

Есть разные встроенные визуализации данных, например люди рожденные в Минске - два нажатия мыши - и мы видим уже не список а фотографии:

Еще одна встроенная визуализация - график, например население Минска:

всплеск потому что какой-то айтем содержит некорректную цифру
всплеск потому что какой-то айтем содержит некорректную цифру

Визуализация шарами - например популярные цвета глаз:

Связанный список - например метро Минска:

Еще одна визуализация - Timeline:

Карта - у айтемов могут быть координаты - места или события:

Есть API. access-control-allow-origin: * - то есть можно делать запросы даже из браузера:

Есть экосистема программ для загрузки, анализа, чтения, визуализации данных из Викиданных, вот несколько примеров:

Визуализация битв - где и когда:

Похожий пример - где и когда построили церковь:

Где и когда ближайшие выборы:

Связи людей - тут Симпсоны:

Род Никиты Михалкова:

Тут список инструментов для запросов.

Тут список инструментов для визуализации данных.

Всю базу можно скачать - 110 гигабайт. Програмное обеспечение такое же открытое как и Википедия - можно установить себе.

Одна из причин для меня написать этот текст - реклама сервиса, чтобы больше людей вкладывалось. Например у вас есть любимые игры, фильмы, книги, города - можете проверить как они присутствуют на Викиданных и возможно улучшить или добавить если их там нет - находите пример (другая популярная игра, фильм, книга) - и нажимайте Create a new item. Документация и комьюнити вам помогут, в том числе Дискорд. Викиданные - это полезный инструмент для анализа, быть может вам пригодится.

Теги:
Хабы:
Всего голосов 34: ↑31 и ↓3+35
Комментарии11

Публикации

Истории

Работа

Data Scientist
94 вакансии

Ближайшие события

27 августа – 7 октября
Премия digital-кейсов «Проксима»
МоскваОнлайн
28 сентября – 5 октября
О! Хакатон
Онлайн
3 – 18 октября
Kokoc Hackathon 2024
Онлайн
10 – 11 октября
HR IT & Team Lead конференция «Битва за IT-таланты»
МоскваОнлайн
25 октября
Конференция по росту продуктов EGC’24
МоскваОнлайн
7 – 8 ноября
Конференция byteoilgas_conf 2024
МоскваОнлайн