Как стать автором
Обновить
20.2

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Собираем «Плохие данные» (bad data)

Время на прочтение1 мин
Количество просмотров6.9K
Не секрет что больше данных — это не означает что данные станут лучше. Чаще это происходит иначе и примеров когда данные публикуются в ужасающем виде немало.

Например, данные Рособоронзаказа о которых я писал ранее ( habrahabr.ru/company/infoculture/blog/201260 ) и где можно увидеть.
Точно также данные публикует и МВД России — это вот такой массив — mvd.ru/opendata/od1

А есть много других данных когда CSV файлы создаются на базе непригодных для анализа Excel файлов, или когда данные публикуют без описания схем, или когда публикуют невалидные XML файлы и многое другое.

Чтобы собрать все такие случаи коллеги из Open Knowledge Foundation начали собирать все примеры.


Читать дальше →
Всего голосов 12: ↑10 и ↓2+8
Комментарии6

Открытые данные уже здесь

Время на прочтение6 мин
Количество просмотров9.8K
Не так давно я наткнулся на активно развивающуюся в России тему, которая у многих на слуху — Открытые данные.
Поскольку государственные органы агрегируют в себе большой массив полезных и важных данных, очевидна мотивация раскрыть информацию общественности.

Из официальных определений:
Открытые данные – это информация, созданная госорганами в пределах своих полномочий, которая может использоваться в любых законных целях без ограничения.


Погрузившись в поисковики, я нашел несколько площадок и даже конкурсных номинаций, где публикуются перспективные сервисы на основе государственных открытых данных, что мнгновенно натолкнуло меня на желание сделать для вас небольшой обзор наиболее заинтересовавших меня сервисов.

Читать дальше →
Всего голосов 18: ↑15 и ↓3+12
Комментарии8

API для поиска конгрессменов и выборов от Google на основе открытых проектов

Время на прочтение3 мин
Количество просмотров1.9K
Чтобы понять как устроена открытость публичной политики в США интересно обратиться к самым свежим примерам.

Буквально несколько дней назад компания Google анонсирована появление Google Civic Information API (API Google с гражданской информацией) в котором теперь публикуют информацию о выборах, об избранных представителях и избирательных участках.



Все сводится к нескольким вызовам:

electionQuery

Возвращает список выборов

Пример вызова:
https://www.googleapis.com/civicinfo/us_v1/elections?key=<YOUR_API_KEY>


Пример результатов выборки:
{
 "kind": "civicinfo#electionsqueryresponse",
 "elections": [
  {
   "id": "2000",
   "name": "VIP Test Election",
   "electionDay": "2013-06-06"
  },
  {
   "id": "2124",
   "name": "Rhode Island 2012 Primary Election",
   "electionDay": "2012-09-11"
  },
  {
   "id": "2126",
   "name": "Delaware 2012 Primary Election",
   "electionDay": "2012-09-11"
  }
 ]
}

Читать дальше →
Всего голосов 9: ↑7 и ↓2+5
Комментарии2

Об информационной свободе

Время на прочтение19 мин
Количество просмотров4.8K
Что является неотъемлемой частью жизни? Конечно свобода этой жизни, это её сущностная характеристика. Но если раньше во времена до истории и в первой части истории жизнь могла быть скована металлическими цепями, то теперь она скована новой формой порабощения: цепями информационными. Как рабы божие подвластны высшим духовным силам, поскольку они информационно открыты для них, не могут ничего скрыть от всевидящих очей свыше, так и сегодня люди вне зависимости от вероисповедания открыты для очей спутников, без устали снимающих земное пространство и находящиеся на нём объекты и субъекты. Но это не самое страшное, ведь также открыты и звуки переговоров, и тексты, и фотографии и практически всё что угодно, представленное и выраженное в цифроформе. А в ней сегодня выражено почти всё или многое. Но кто же новые боги информационного общества: люди, сервера или власти? И о таком ли «открытом» обществе мечтали идеологи открытого общества и информационного пространства, создавая всемирную сеть?
Читать дальше →
Всего голосов 17: ↑5 и ↓12-7
Комментарии3

Истории

Полезные ресурсы по открытым данным в России

Время на прочтение2 мин
Количество просмотров34K
Для тех кто интересуется открытыми данными, тем что это такое и как с ними работать в этом посте собраны ссылки на открытые данные по России.

Федеральная власть




Регионы и муниципалитеты




Общественные проекты и блоги




Журналистика данных


Читать дальше →
Всего голосов 28: ↑27 и ↓1+26
Комментарии7

API для Российской общественной инициативы. Шаг 2.2: опыт США в работе с данными электронных петиций — API Белого Дома

Время на прочтение4 мин
Количество просмотров4.3K
Ранее я писал в паре постов о том как устроена открытость электронных петиций в разных странах, какие данные есть в России и как можно сделать APO для небезызвестной Российской общественной инициативы — www.roi.ru.

Прочитать всё это можно здесь:


В этот раз мы рассмотрим то как устроены электронные петиции Белого Дома, в первую очередь, с точки зрения их открытости и пригодности к данных для использования.



Справка


Особенности петиций в США

  1. Относятся именно к президенту и ответы дает его администрация.
  2. Не требуют ничего кроме email'а для подписи — дополнительная авторизация ненужна.
  3. Петиции должны пройти 2 порога — 150 подписей за 30 дней чтобы их можно было найти (по прямой ссылке они доступны) и 100 000 подписей за 30 дней чтобы получить официальный ответ — petitions.whitehouse.gov/how-why/terms-participation

В цифрах

  • всего 2246 петиций
  • даны ответы на 208 петиций
  • в ожидании ответа 26 петиций
  • закрыто 1972 петиций
  • открыто для голосования 40 петиций

Цифры учитывают только те петиции что прошли 1-й порог в 150 подписей за 30 дней.

WhiteHouse.gov/developers



Одно из важных отличий сайта Белого Дома США от сайтов всех лидеров в мире — это ориентированность на разработчиков. На сайте даже есть специальный раздел /Developers где размещены данные, раскрыт исходный код проектов и описаны API многих из инициатив если не всех вообще.

Открытый код


Поскольку нас интересуют в первую очередь петиции, то рассмотрим их подробнее.

Во первых исходный код петиций полностью опубликован на Github — https://github.com/WhiteHouse/petitions

У репозитория больше 15 контрибьюторов, несколько десятков багов и вопросов и мы можем говорить о том что разработка проекта идет открытым образом.

Открытое API

Другая сторона происходящего в том для разработчиков доступен не только исходный код, но и API и данные накопленные на сервисе.
Все API по петициям доступны по ссылке — https://petitions.whitehouse.gov/developers

API доступа к данным состоит из 3-х эндпоинтов:
Читать дальше →
Всего голосов 17: ↑16 и ↓1+15
Комментарии14

Как нельзя публиковать открытые данные и почему не все XML файлы одинаково полезны

Время на прочтение2 мин
Количество просмотров27K
Когда пишешь о лучших и худших примерах публикации открытых данных очень сложно не превратить эту рубрику в кунсткамеру и не показать насколько странно иной раз происходит публикация данных и что может скрываться за данными на самом деле.

Случай который я опишу в этот раз не то чтобы уникальный, но редкий.
Речь пойдет об открытых данных, не много не мало, а Федеральной службы по оборонному заказу (сайт — www.fsoz.gov.ru).

На сайте этой службы совсем недавно появился раздел "Открытые данные" где собственно открытые данные в машиночитаемом формате и публикуются.
Размещено там немного не мало, а 15 наборов данных.

Ссылки на них есть на сайте, а я приведу полный список.
Читать дальше →
Всего голосов 95: ↑88 и ↓7+81
Комментарии34

API для Российской общественной инициативы. Шаг 2.1: опыт Великобритании в работе с данными электронных петиций

Время на прочтение3 мин
Количество просмотров3.4K
Ранее в посте на Хабре я писал про самый первый шаг для создания API для РОИ — выгрузка имеющихся данных с помощью парсера.
API для Российской общественной инициативы. Шаг 1: сбор и анализ данных


Но шаг этот, конечно, хотя и важный, но не последний в понимании того что мы хотим сделать. Есть еще один шаг — это посмотреть что сделали другие. В мире проектов по электронным петициям немало, рассмотрим несколько из них с точки зрения API и открытых данных.



Электронные петиции Великобритании (epetitions.direct.gov.uk)



Великобритания была одной из первых стран внедривших практику сбора петиций от граждан и обязательность их рассмотрения.
Через британский проект epetitions.direct.gov.uk прошло несколько десятков тысяч петиций из которых —
  • открыто 5 741 петиция
  • закрыто 18 323 петиции
  • отклонено 21 030 петиций

все цифры на 5 ноября 2013 года
Подробности на сайте http://epetitions.direct.gov.uk/petitions?state=open

Российские петиции отчасти похожи на британские, там также необходимо собрать 100 тысяч подписей и на все отводиться не более 1 года.

Однако у петиций Великобритании есть несколько важных особенностей:
Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Комментарии8

Образовательные ресурсы и материалы по открытым данным

Время на прочтение2 мин
Количество просмотров6K
Если еще пару лет назад очень многие чиновники, журналисты, разработчики в разговорах про открытые данные переспрашивали что это такое, то в последнее время ситуация стала меняться и выправляться.

Вопросов не стало меньше — они стали другими. Например, за последние 3 месяца я занимался тем что регулярно выступал с лекциями на Школе открытых данных, на мероприятиях некоммерческих организаций, конференциях и в рамках программ обучения госслужащих.

Во всех случаях есть свои особенности:
  • некоммерческие организации почти всегда не имеют ресурсов и жалуются на отсутствие разработчиков
  • госслужащие редко умеют программировать сами и чаще всего говорят что у них используют компьютеры только как печатные машинки
  • разработчики редко знают о том где взять данные и чаще всего задают вопросы именно на эту тему


И во всех случаях всегда много вопросов о том чем открытые данные отличаются от свободы доступа к информации, что такое открытые лицензии и зачем они нужны, а также какие проекты создаются на открытых данных.

Всё это было в качестве вступления, а в качестве развития мы собрали небольшой список образовательных и просветительских проектов в этой области которые могут быть всем интересны. Все подобранные курсы бесплатны и открыты.

Открытые данные

School of Data (OKF)



Школа данных от Open Knowledge Foundation. Первая школа посвященная именно открытым данным. Много онлайн курсов в форматах вебинаров.
Ссылка: schoolofdata.org
Читать дальше →
Всего голосов 4: ↑4 и ↓0+4
Комментарии0

API для Российской общественной инициативы. Шаг 1: сбор и анализ данных

Время на прочтение4 мин
Количество просмотров9.2K

В качестве введения


Вы все наверняка помните о таком явлении как Российская общественная инициатива (www.roi.ru) — провозглашенная государством в лице федерального правительства инициатива по сбору подписей за онлайн петиции. Предполагается что если за 1 год по петиции будет собрано 100 тысяч голосов, то и петиция будет официально рассмотрена нашими властями. И даже имеет шанс получить статус законопроекта.

При этом уже 6 петиций прошли такой фильтр — https://www.roi.ru/complete/ две из них настоящему прошедшие сбор по 100 тысяч голосов и 4 петиции набравшие голосов сильно меньше, но органы власти успели прореагировать.

И, хотя петиции не дают гарантии что решение вообще какое-либо будет принято, многие создают их не только в надежде на положительное решение, но и для того чтобы поместить проблему в «медийную повестку» иначе говоря, для того чтобы об этом начали писать СМИ и была бы публичная государственная реакция.

Поэтому РОИ, пока что, не последний из государственных проектов и интерес к нему есть. При этом у РОИ есть ряд недостатков и проблем.

Проблемы РОИ


Читать дальше →
Всего голосов 32: ↑28 и ↓4+24
Комментарии29

Открытые данные Москвы и соревнование API Challenge на их основе

Время на прочтение6 мин
Количество просмотров8.4K
По моему опыту общения с разработчиками которые когда-либо участвовали в соревнования по открытым данным — все они говорят о том что нужны данные как можно большего уровня детализации.

Например, не статистика по регионам, а статистика по муниципалитетам. Не сводка преступлений/ДТП, а информация с адресами и координатами.
Не просто адреса учреждений с координатами, а подробная информация о каждом.

Пока таких детальных данных, прямо скажем, в удобном виде немного. Если взять Москву как пример, то даже на московском портале data.mos.ru большая часть данных — это геоданные или данные с геопривязкой в виде адреса и какой-то еще минимальной информацией. Понятное дело что сделать с ними что-то действительно интересное сложно. Поэтому скажем спасибо Правительству Москвы за то что они хотя бы это раскрыли и попробуем понять где взять более интересные данные и что с ними делать.

Конкурсы и соревнования

На вопрос зачем это нужно отвечу сразу — невозможно провести ни один конкурс/хакатон/соревнование для разработчиков не имея достаточного количества интересных данных. С этим мы сталкивались на хакатоне Яндекса, прошедшем конкурсе Apps4Russia и многих других.

Поэтому сейчас, поскольку мы помогаем в подготовке конкурса API Challenge мы решили подготовить столько полезных данных сколько только возможно. А поскольку API Challenge — это конкурс идущий от власти Москвы и ориентированный на Москву — мы и данные собираем по Москве.


Чтобы этого добиться мы начали просматривать десятки госсайтов и ищем на них то что можно использовать законно и с пользой.

Как это происходило и продолжается

Читать дальше →
Всего голосов 19: ↑18 и ↓1+17
Комментарии0

Почему Открытые данные — это культура работы с информацией на примере Росздравнадзора

Время на прочтение2 мин
Количество просмотров21K
Вместо вступления и введения сразу предлагаю посмотреть на картинку. Сразу предупрежу — рекламы Internet Explorer'а в ней нет.

вы можете получить аналогичное ей сообщение просто попытавшись открыть систему оперативного мониторинга лекарственных средств (МОЛС) http://mols.roszdravnadzor.ru/
Это такая государственная автоматизированная информационная система Росздравнадзора.

Я не сомневаюсь что многие из вас сталкивались с похожими ситуациями по огромному числу государственных проектов, работе с банками и многое другое.

Собственно вот такие случаи нарушают один из принциповы открытых данных — доступность. Технологические ограничения никак не делают их доступными и та же самая ситуация со многими другими реестрами Росздравнадзора.
Например:


Казалось бы, наверняка сотрудники Росздравнадзора должны были знать об этих ограничениях и они могли бы открыть хотя бы часть данных в созданном недавно разделе открытых данных на их сайте, вот тут — http://roszdravnadzor.ru/opendata

Однако все несколько иначе.

Во первых, в списке массивов что опубликованы Росздравназдором ни одного из реестров выше просто нет.
Во вторых даже то что «опубликовано» по факту отсутствуют.

Я не могу привести прямых ссылок, поскольку на сайте они разместили всё странным Javascript кодом вместо пермалинков, поэтому текстом.

Если мы откроем массив N5 «Статистическая информация, сформированная федеральным органом исполнительной власти в соответствии с федеральным планом статистических работ, а также статистическая информация по результатам проведенных плановых и внеплановых проверок»

То увидим что там ничего нет.


А если мы посмотрим в наборы данных:
  • N4 Информация о результатах плановых и внеплановых проверок, проведенных федеральным органом исполнительной власти и его территориальными органами в пределах их полномочий, а также о результатах проверок, проведенных в федеральном органе исполнительной власти, его территориальных органах и подведомственных организациях
  • N6 Сведения о вакантных должностях государственной гражданской службы, имеющихся в федеральном органе исполнительной власти и его территориальных органах
  • N7 Реестры лицензий на конкретные виды деятельности, лицензирование которых осуществляется федеральными органами исполнительной власти


То обнаружим что ссылки на массив данных ничего не содержат кроме описания полей. Да и те описаны весьма странно.
Читать дальше →
Всего голосов 72: ↑66 и ↓6+60
Комментарии53

О сайте gdemvd.ru

Время на прочтение1 мин
Количество просмотров5.7K
Изредка просматривая свои ленты в соцсетях, недавно заметил интересное интервью в «Московских новостях». Оказалось, что сайт gdemvd.ru придумали и реализовали люди знакомые. Вкратце идея: собрать из разрозненных официальных источников данные об отделениях милиции в Росиии и показать пользователю на карте ближайшие. Был удивлен, что оказывается, Яндекс такого не предлагал. Сами данные формально доступны, но выковыривать их нужно из разных темных уголков, и информация предлагается в разных форматах, не всегда удобных — например, doc-файлы и т.д.



Пример карты — по данным сайта в Московской области чуть подальше от Москвы отделений не так уж и много. Кусок Можайского и Нарофоминского районов.

Читать дальше →
Всего голосов 12: ↑8 и ↓4+4
Комментарии16

Ближайшие события

Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн

Совет по открытым данным: террабайты Минкультуры, выше в рейтинге G8 и о том куда идет Минэкономразвития

Время на прочтение3 мин
Количество просмотров6.9K

21 октября выдался днём богатым на общественные мероприятия, об одном из них, заседании общественного совета при Росстате, я писал ранее. А вот про Совет по открытым данным вполне можно поговорить подробнее.

Прежде чем я перескажу всё своими словами — посмотрите на официальную новость там какие-то из вопросов раскрыты, а какие то я расскажу сейчас.

Итак, было 3 большие темы:
1. Открытые данные Минкультуры
2. Выполнение Россией требований хартии G8
3. Техтребования на портал открытых данных от Минэкономразвития России

Открытые данные Минкультуры



Выступал Михаил Городилов из Минкультуры и, если кратко, то его выступление можно свести к следующим тезисам:
  1. «Мы открыты» Они только-только начали открывать данные открытые данные и что-то уже разместили на сайте Минкультуры — mkrf.ru/opendata/
  2. «Цифровой контент — это тоже данные» Обещают очень много данных цифрового контента и то что планируют оцифровывать и создавать до 280 террабайт в год
  3. «Мы хотим денег» Это прозвучало совершенно недвусмысленно, о том что Минкультуры хочет чтобы работы по созданию ими открытых данных в том числе из цифрового контента были профинансированы из госпрограммы «Информационное общество».
  4. «Мы хотим чтобы бизнес платил» Посыл также очень простой. Чтобы бизнес который потенциально использовал бы их данные далее бы тоже участвовал в финансировании их создания. Прозрачно намекалось на Яндекс и Гугл и другие крупные интернет-холдинги


Вот такие нехитрые мысли прозвучали от Минкультуры. При этом у них, на самом деле, много есть данных которые давно пора открыть, но до сих пор ничего из них они не разместили. Ни государственный реестр фильмов, ни базу по культурному наследию, ни многое другое. Позиция та же что и у Росстата, только понимания пока еще меньше.

Дадут ли им денег? Не знаю. В этом году всем Минфин обрезает финансирование и не дает денег на новые инициативы. Надо ли их дожимать открывать то что уже есть? Я считаю что надо.

Хартия G8


Читать дальше →
Всего голосов 24: ↑22 и ↓2+20
Комментарии12

Росстат обещает открываться, но не забесплатно

Время на прочтение2 мин
Количество просмотров21K


Поскольку я вхожу в Совет по открытым данным при Правительственной комиссии я регулярно присутствую на большом числе мероприятий по открытости данных и открытости вообще.

Не могу похвастаться что там бывает много интересного, чаще всего это много разговоров на языке далеком от простого человека, однако такая работа по «лоббированию открытости» тоже нужна.

И вот сегодняшний день был буквально заполнен такими мероприятиями. Мне довелось побывать утром на Общественном совете при Росстате на заседание которого меня позвали сотрудники Росстата. А вечером на Совете по открытым данным.

Про Совет я ещё напишу отдельно, а вот про Росстат прямо сейчас.

Как всегда есть две новости — хорошая и плохая.

Итак, хорошая новость.

В Росстате лучше всех понимают что такое открытые данные и данные вообще они тоже очень хорошо понимают. Они сразу поняли что такое Semantic Web, SPARQL, Linked Data и другие термины пугающие остальных чиновников. Они очень хорошо понимают что надо сделать чтобы данные преобразовать в машиночитаемые и довести до связанных данных.

В плане понимания — они безусловные лидеры. Вот просто они первые кто понимает так хорошо, на удивление.

Но есть и плохая новость.
Читать дальше →
Всего голосов 48: ↑45 и ↓3+42
Комментарии49

Открытые данные из существующих государственных порталов

Время на прочтение4 мин
Количество просмотров15K

Когда мы говорим про открытые данные которые государственные органы должны раскрывать, мы, чаще всего, сталкиваемся с тем что данных в нужной нам форме нет. Или, по крайней мере, так утверждают те кто должен вести базы данных и реестры создаваемые государством.

И действительно, есть данные которых, скорее всего, просто не существует, например данее по границам участков почтовых отделений. В мире, например в переписи открытых данных Open Knowledge Foundation это один из важных наборов данных, но полноценно отсутствующий в России.

Но есть и другая сторона этой медали. Есть уже созданные государственные порталы и проекты в которых собраны большие базы данных недоступные в машиночитаемом виде для граждан. И это именно тот случай когда чиновники не могут сказать что данных нет, вопрос лишь в качестве данных и их доступности в удобном виде.

Далее я буду писать только о тех порталах и проектах что созданы и поддерживаются на государственные деньги. И тех которые содержат немало полезной информации.

ОБД Мемориал


Ссылка: http://obd-memorial.ru


С сайта мы можем узнать что:
На сегодняшний день в ОБД введено 13,7 млн. цифровых копий документов о безвозвратных потерях периода Великой Отечественной войны из 38 тыс. архивных дел ЦА МО РФ, ЦВМА, РГВА, ГА РФ, региональных архивов Росархива и 42,2 тыс. паспортов воинских захоронений существующих мест воинских захоронений в Российской Федерации и за ее пределами.

Дополнительно в ОБД загружено более 1000 томов Книги Памяти.

Всего в ОБД около 29 млн. записей из архивных документов (не путать с общим числом боевых потерь — 8,67 млн. чел.) и около 10 млн. записей из Книги Памяти.


Иначе говоря за государственный счет была проведена маштабнейшая работа по оцифровке данных и переводе их в базу данных онлайн, но при этом не предоставлено ни одного интерфейса для работы с данными — ни дампов базы, ни API с REST+JSON, ничего другого что позволило бы вести аналитическую работу над данными.

Зачем это нужно? То что не сделало государство — могут сделать желающие волонтеры и разработчики проведя геокодирование данных, создавая мобильные приложения и региональные проекты посвященные Великой отечественной войне.

Читать дальше →
Всего голосов 18: ↑15 и ↓3+12
Комментарии7

Несколько мифов об открытом доступе к науке (Open Access)

Время на прочтение6 мин
Количество просмотров63K


4 октября журнал Science опубликовал исследование, посвященное публикации псевдонаучной статьи в 157 рецензируемых журналах открытого доступа (Open Access, OA). Автор исследования “Who’s afraid of peer review?” (“Кто боится рецензирования?”) — биолог Джон Боханнон (John Bohannon) — рассказывает о подготовке статьи, содержащей очевидные методологические ошибки, и ее отправке в несколько сотен журналов открытого доступа.
В результате...
Всего голосов 104: ↑89 и ↓15+74
Комментарии56

Базы знаний. Часть 1 — введение

Время на прочтение5 мин
Количество просмотров67K
Одной из причин слабого использования Linked Data-баз знаний в обычных, ненаучных приложениях является то, что мы не привыкли придумывать юзкейсы, видя перед собой только данные. Трудно спорить с тем, что сейчас в России производится крайне мало взаимосвязанных данных. Однако это не значит, что разработчик, создающий приложение для русскоязычной аудитории совсем уж отрезан от мира семантического веба: кое-что всё-таки у нас есть.
image
Основными источниками данных для нас являются международные базы знаний, включающие русскоязычный контент: DBpedia, Freebase и Wikidata. В первую очередь это справочные, лингвистические и энциклопедические данные. Каждый раз когда вам в голову приходит мысль распарсить кусочек википедии или викисловаря — ущипните себя как следует и вспомните о том, что всё, что хранится в категориях, инфобоксах или таблицах, уже распарсено и доступно через API с помощью SPARQL или MQL-интерфейса.

Я попробую привести несколько примеров полезных энциклопедических данных, которые вы не найдете нигде, кроме Linked Data.

Эта статья — первая из цикла Базы знаний. Следите за обновлениями.


Читать дальше →
Всего голосов 69: ↑66 и ↓3+63
Комментарии29

Спасем крупнейшую медиатеку в рунете. Вся база rutracker у Вас на компьютере

Время на прочтение10 мин
Количество просмотров194K
image

В контексте последних законов, событий и тенденций как никогда очевидна ценность рутрекера как базы данных различного контента, а не как конкретного ресурса. К сожалению все мои призывы к администрации рутрекера предоставить общедоступный, полный, удобный дамп их базы наткнулся на полное непонимание с их стороны. Выкладывать нечто, что они называют зашифрованной «базой» — я не считаю решением проблемы по причинам, изложенным в вышеприведенных ветках обсуждения и продублированным ниже.

К сожалению, решить проблему своими силами у меня не хватило ни времени, ни, будем откровенны, знаний. Но, к счастью, мои слова возымели действие на людей, которые и тем и другим обладают. В итоге эти люди организовались и сообща сделали то, о чём так долго говорили большевики о чем я писал, а именно с помощью скриптов обошли рутрекер, сдампили все описания раздач с хешами, распарсили их и скомпоновали в удобную для употребления базу. В дополнение к этому так же была написана «морда»: программа для удобной работы с базой конечных пользователей, не знающих с какого конца держат grep. К сожалению, аккаунта на хабре никто из этой команды не имеет (если не считать read-only), в песочнице статья могла бы потеряться, поэтому меня выбрали как рупор для данной площадки. Я, честно говоря, раздумывал совсем недолго и только над тем, как правильнее все сделать. Если будут какие-то вопросы — задавайте мне в комментах, я либо отвечу сам, либо переадресую разработчикам. Технические тексты от первого лица, но я имею к ним косвенное отношение, они оставлены в таком виде для простоты восприятия.

Прежде, чем перейти к технической части и ссылкам, хотел бы добавить, что весь смысл этой затеи в том, чтобы как можно больше людей сохранили эту базу к себе. Поэтому очень Вас прошу, скачать данные по ссылкам ниже (желательно использовать торрент) и оставаться на раздаче как можно дольше. Скорее всего в будущем база будет обновляться, но этот момент еще не продуман до конца.

Техническая часть, ссылки и немного лирики
Всего голосов 290: ↑274 и ↓16+258
Комментарии257

Идеи для проектов по открытым данным и ближайшие хакатоны и соревнования на которые еще можно успеть

Время на прочтение3 мин
Количество просмотров5.8K
Вы наверняка знаете что сейчас идет, заканчивается и начинается много соревнований по открытым данным и многие проводят хакатоны.

Например, Хакатон Яндекса пройдет завтра-послезавтра и еще не поздно зарегистрироваться, наши друзья в Санкт-Петербурге проводят свой Хакатон 5-6 октября.

Хакатоны — это прекрасный формат чтобы познакомиться с темой, попробовать себя и сделать что-то простое и интересное. На хакатоне, однако, редко получается сделать сложный продукт и даже найти возможность монетизации. Если Вы делаете что-то большое или хотите сделать — мы продляем наш конкурс Apps4Russia до 1 октября и очень ждем ваши заявки.

Идеи



Тем временем, чтобы чуть облегчить поиск идей и, возможно получится, побудить подумать над собственными идеями на открытых данных — я подготовил небольшую подборку собранного нами.

  1. Игры и депутаты

    Игра Hot or Not по депутатам. Берем список депутатов из API — api.duma.gov.ru — фото с duma.gov.ru и запускаем крутилку со сравнениями. Прогоняем по сотням посетителей сайта и получаем интереснейшую статистику.
    Идеально — виджет для внедрения в сайты СМИ.

  2. Мониторинг качества воды

    Взять данные по качеству воды в Москве по районам и сделать приложение для мобильного телефона показывающие качество воды в районе. Данные уже готовы и находятся здесь — http://hubofdata.ru/dataset/moswaterquality-2013


Читать дальше →
Всего голосов 11: ↑11 и ↓0+11
Комментарии1