Как стать автором
Обновить
20.2

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Рост хоккеистов: анализируем данные всех чемпионатов мира в текущем веке

Время на прочтение15 мин
Количество просмотров48K




На днях завершился очередной чемпионат мира по хоккею.


За просмотром матчей родилась идея. Когда в перерывах телевизионная камера показывает уходящих в раздевалку игроков, трудно не заметить, насколько они огромные. На фоне тренеров, функционеров команд, сотрудников ледовой арены, журналистов или просто фанатов они, как правило, выглядят очень внушительно.


Вот, к примеру, восходящие звезды финского хоккея, Патрик Лайне и Александр Барков, вместе с преданными поклонниками

И я задался вопросами. Действительно ли хоккеисты выше обычных людей? Как изменяется рост хоккеистов со временем в сравнении с обычными людьми? Есть ли устойчивые межстрановые различия?

Читать дальше →
Всего голосов 29: ↑26 и ↓3+23
Комментарии14

Как мы рисовали road shields на карте

Время на прочтение4 мин
Количество просмотров5.8K
В начале 20-го века на главных дорогах общего пользования начали появляться таблички (далее shield) с номерами. Отображение их на карте не является обязательным атрибутом, но является важным с точки зрения удобства использования. Людям, которые видят таблички в реальности, проще сориентироваться на местности. Также это придает карте “местный колорит”. Стоит отметить, что одна и та же дорога может иметь несколько табличек одновременно. Это связано с тем, что дорожные маршруты могут накладываться друг на друга.


В OsmAnd мы решили нарисовать максимально приближенные к реальности shield, используя данные OpenStreetMap.


Читать дальше →
Всего голосов 22: ↑20 и ↓2+18
Комментарии2

Как мы парсили декларации о доходах при помощи открытых данных

Время на прочтение11 мин
Количество просмотров14K
Уже второй год я занимаюсь государственными открытыми данными РФ и работой с госорганами и пора бы начинать рассказывать интересные истории о том, как появляются данные. Однако сегодня речь пойдет о более привычной для разработчика области — парсинге данных для проекта «Декларатор» и о том, какую неожиданную пользу могут при этом принести открытые данные.



«Декларатор» — это постоянно пополняемая база деклараций о доходах и имуществе публичных должностных лиц: депутатов, чиновников, судей, представителей региональной и муниципальной власти, иных органов, госкорпораций и госкомпанией. Проект работает как информационно-справочная база для СМИ, активистов, занимающихся общественным контролем, и исследователей.
В России сведения о доходах должны публиковать более миллиона человек.

Интересный факт: существуют единые правила для госсайтов по размещению деклараций о доходах (в частности, они всегда находятся в разделе «Противодействие коррупции») и отвечает за всю эту тему Министерство труда и социальной защиты РФ. Массовое размещение деклараций происходит в мае. Далее у Минтруда есть всего месяц на то, чтобы провести мониторинг по всем без исключения сайтам, обязанным размещать информацию. Мониторинг проводится вручную.
Читать дальше →
Всего голосов 24: ↑23 и ↓1+22
Комментарии10

Кто и как зарабатывает на открытых государственных финансовых данных?

Время на прочтение6 мин
Количество просмотров26K
image

Кадр из к/ф «Приключения Буратино». «Беларусьфильм», Творческое объединение «Телефильм».

Открытые данные и коммерческие проекты


Открытые данные обсуждаются уже давно. Я лично занимаюсь продвижением этой темы уже более 7 лет, а многие энтузиасты по всему миру продвигают идеологию открытости чуть ли не всю свою сознательную жизнь.

Да, открытые данные приносят много явной и неявной пользы для общественных инициатив. Данные по движению транспорта в реальном времени помогают гражданам лучше планировать логистику своих передвижений. Данные деклараций чиновников помогают создавать общественные проекты по прозрачности госслужбы и при этом не тратить огромные ресурсы на оцифровку и распознавание деклараций, заполненных от руки. Можно привести ещё много примеров того, как открытые данные помогают гражданам и государству.

При этом многие в последнее время говорят и про заработок на открытых данных. Но каждый раз, когда я слышу об этом от выступающих аналитиков, хочется их спросить: почему же вы рассказываете о том, как могут заработать другие, но не делаете этого сами? Где же все те, кто непосредственно зарабатывает на открытых данных? Почему они так непубличны? Почему владельцы и создатели проектов так редко бывают представлены широкой публике?
Читать дальше →
Всего голосов 11: ↑8 и ↓3+5
Комментарии20

Истории

Из командной строки за знаниями

Время на прочтение4 мин
Количество просмотров5.8K

Один из наиболее распространенных стандартов работы с базами знаний являются представление RDF и язык запросов SPARQL. Доступ к базе обычно осуществляется через SPARQL-endpoint по протоколу HTTP (Jena и Sesame могут использоваться как встраиваемые базы, например через обертку banana-rdf, а к Virtuoso можно обращаться так же по ODBC, добавив к строке запроса префикс 'SPARQL ').
Есть много открытых «точек доступа SPARQL» — по wikipedia DBpedia, большой набор биологических баз знаний, геоданные.
К endpoint, как правило, прилагается web-интерфейс, но браузер — это слишком громоздко, и мы хотим обращаться к ним напрямую из командной строки!
Читать дальше →
Всего голосов 2: ↑1 и ↓10
Комментарии3

Как понадеяться на МЧС и сгинуть в лесах Карелии — вредные советы от опытного туриста

Время на прочтение3 мин
Количество просмотров34K
Сижу я в комнате для раздумий и читаю «Вестник МЧС» от 2007 года, потому что баллончик освежителя уже надоел, а на обложке издания есть громкая фраза «Туристы должны быть защищены». А у меня как раз на носу турпоход на майских праздниках, грех не ознакомиться с материалом. В материале рассказано, что Александр Чуприян, в бытность свою замминистра, поднял актуальный вопрос о регулировании спасательных действий и глобальном учёте тургрупп, маршрутов следования и прочих данных для оперативного спасения туристов в случае внезапного ЧС. И деятельность такая на тот момент в некоторых регионах уже ведётся. И готовить будут многолетний план по распространению сей деятельности на все регионы.

image

«Туристы должны знать, что они защищены!» — поставил Александр Чуприян задачу коллегам по службе. Это было в далёком 2007 году.

Читать дальше →
Всего голосов 62: ↑52 и ↓10+42
Комментарии39

Социальное неравенство и зарплаты чиновников

Время на прочтение7 мин
Количество просмотров68K
Волею судеб, ко мне в руки попали данные о заработных платах, премиях и сверхурочных множества госслужащих одного крупного портового города, от мэра до сторожа бассейна. Не теряя ни минуты, я бросился вгрызаться в цифры. Нет ничего любопытнее, чем смотреть на чужие зарплаты, особенно, когда можно оправдать себя тем, что занимаешься Data Science!

Как только прошли первые приступы зависти, я осознал, что в датасете присутствует информация не только по крупным руководителям, но и по рядовым сотрудникам от самого низкого уровня. Получается, что по этим данным можно воочию наблюдать основные закономерности в распределении доходов в реальном мире. Пользуясь случаем, я приглашаю всех диванных экономистов в увлекательное турне в мир роскошных окладов и скупой статистики!

Сегодня мы поговорим про средние и медианные зарплаты, индекс социального неравенства Джини, отношения между богатыми и бедными (индекс Rich/Poor), непреодолимый разрыв доходов (эффект Матфея) и карьерный рост.

San-Francisco
Читать дальше →
Всего голосов 92: ↑83 и ↓9+74
Комментарии62

Анатомия взлома: Sony

Время на прочтение3 мин
Количество просмотров3.7K
Для защиты ваших данных на протяжении всего жизненного были создали новые UBA модели угроз (User Behavior Analytics – поведенческий анализ пользователей), которые основаны на основных этапах цепочки действий по проникновению в инфраструктуру.

Что же это означает? Давайте рассмотрим анатомию взлома.

Как произошел взлом Sony?


Читать дальше →
Всего голосов 4: ↑2 и ↓20
Комментарии3

Частотный словарь запрещённых сайтов

Время на прочтение1 мин
Количество просмотров32K


Исследование проводилось в целях создания корпуса слов сайтов, заблокированных государственными органами Российской Федерации.
Читать дальше →
Всего голосов 33: ↑28 и ↓5+23
Комментарии31

Шаг за шагом: Трансляция данных на flightradar24

Время на прочтение11 мин
Количество просмотров43K


1. Введение


Моя текущая деятельность никак не связана с авиацией, но так случилось, что я заболел ею. В какой точно момент это произошло – сложно сказать, наверное, первый полет здорово поспособствовал этому. Через некоторое время я начал смотреть фильмы на авиационную тематику, интересоваться строением и отличиями в самолетах и искать, как связать свою деятельность хоть немного с моим увлечением. Так я познакомился с технологией ADS-B и ее неожиданным применением среди энтузиастов – радарспоттингом. На просторах Хабра не часто появляются статьи по данной тематике (раз, два). Поэтому здесь я хочу немного поговорить на тему радарспоттинга и подробно описать процесс создания самостоятельной трансляции данных на популярный ресурс flightradar24.
Итак, всем, кто интересуется (болен) темой авиации и наблюдения за самолетами, а также желает принять в этом свое непосредственное участие, добро пожаловать под кат.
Читать дальше →
Всего голосов 29: ↑29 и ↓0+29
Комментарии39

1 000 000 жилых домов России

Время на прочтение2 мин
Количество просмотров68K
Есть прекрасный сайт www.reformagkh.ru. На нём можно найти, управляющую компанию, закреплённую за домом, сколько денег, на что тратится и всё такое. Но кроме этого можно узнать разные интересные вещи о нашей стране в целом, например, для каждого дома на сайте указана дата его постройки, поэтому можно посмотреть, как строилась Москва с 1900 года:



Ещё более эпичная картинка получается, если посмотреть на Россию целиком:


Читать дальше →
Всего голосов 86: ↑78 и ↓8+70
Комментарии118

Анализ результатов выборов в Госдуму. Готовимся к голосованию 2016 года

Время на прочтение3 мин
Количество просмотров35K
Выборы в Государственную думу только осенью, но мы уже начинаем готовиться. Если повторится история 2011 года, будет очень интересно. Наверное, многие помнят, как сразу после тех выборов появилась куча статистических исследований, намекающих на фальсификации и как все узнали, как выглядит распределение Гаусса. Я хотел бы рассказать, где искать данные про выборы и как с ними работать. Кроме хорошо известных графиков я покажу некоторые другие прикольные картинки, которых раньше в паблике не видел. Так, например, выглядит распределение голосов за Единую Россию по стране, хорошо видны регионы с максимальной поддержкой партии власти — Северный Кавказ и Татарстан:


Есть такой замечательный сайт izbirkom.ru. Его здесь даже недавно упоминали в контексте, что, типа, на него потратили слишком много денег. Но лично мне не жалко, сайт прекрасный:

Читать дальше →
Всего голосов 68: ↑60 и ↓8+52
Комментарии114

Успехи импортозамещения или занимательная статистика на основе Реестра федеральных государственных информационных систем

Время на прочтение3 мин
Количество просмотров43K
Есть такой замечательный ресурс — Реестр федеральных государственных информационных систем, в котором государственные структуры обязаны регистрировать свои более-менее серьезные (но не секретные) информационные системы. Он довольно небольшой, давно хотелось поковыряться в нем и посмотреть поближе, что же представляют из себя и на чем работают системы, каждый день делающие жизнь простого гражданина еще легче и счастливее.

Реестр размещается на портале Роскомнадзора, который старается быть в тренде гласности, поэтому на нем присутствует раздел с наборами открытых данных — здорово! Качаем самый свежий архив Реестра от 16.02.2016, внутри лежит xml-выгрузка от сентября 2015 года… Хорошая попытка, гражданин. Придется дополнять «открытые данные» свежей информацией непосредственно с сайта, где сделано все, чтоб усложнить врагам парсинг Реестра. В итоге, по состоянию на 8 марта 2016 года, получился список из 339 федеральных государственных информационных систем, некоторую занимательную инфографику по которому, я и хочу вам представить далее.
Читать дальше →
Всего голосов 39: ↑34 и ↓5+29
Комментарии40

Ближайшие события

Как самостоятельно проанализировать рынок труда

Время на прочтение5 мин
Количество просмотров29K
На данный момент IT в целом — это одно из самых динамично развивающихся направлений. Каждый день появляется сотня новых библиотек, каждый месяц кто-нибудь придумывает новый язык или платформу — да что там, появляются целые направления. Время бежит и какие-то строки в Вашем резюме устаревают — грубо говоря, они больше не добавляют Вам очков в глазах работодателя. А какие-то навыки наоборот, могли бы существенно поднять Ваш рейтинг.
Как не потеряться в этом море возможностей, выбрать главное и не ошибиться? Очевидно, нужно держать руку на пульсе и отслеживать рынок труда. О том как это можно сделать с помощью собственного велосипеда — под катом.
Конструкция велосипеда
Всего голосов 22: ↑20 и ↓2+18
Комментарии28

Проблема вредоносного ПО для PoS – терминалов в гостиничной индустрии

Время на прочтение5 мин
Количество просмотров4K
Только я один заметил недавний рост утечек данных в гостиничной индустрии, пугающий своими масштабами? Путешествуя, Вы находитесь в уязвимом положении, и хочется быть уверенным верить, что забронированный Вами люкс будет безопасен. А безопасность эта будет обеспечена дверьми с несколькими замками, номерами, в которых часто есть небольшие сейфы для хранения ценных вещей и охранной системой видеонаблюдения, имеющейся в отеле.

В отелях конечно же имеются различные подобные средства, и персонал несет перед нами определенную ответственность, как хозяин перед гостем.



Но отели также хранят ваши данные, обычно данные кредитной карты. Принимая во внимание резонансные кражи данных в отелях, можно резюмировать, что эта отрасль не оправдала себя с точки зрения безопасности. Оказывается, направление атак, которое выбирают злоумышленники в точности такое же, как и в случае использования вредоносного ПО для атак PoS-терминалов (Point-of-Sale) крупных розничных сетей.
Читать дальше →
Всего голосов 2: ↑2 и ↓0+2
Комментарии2

Анализ активности пользователей и разработчиков

Время на прочтение5 мин
Количество просмотров11K


Недавно у нас были два юбилейных числа — 5000 пользователей в группе социальной сети ВКонтакте и 6000-й билд ОС. Поскольку группа vk.com/kolibri_os появилась относительно недавно и стремительно растет, то очевидно, что скоро количество участников этой группы обгонит количество билдов. И это значит, что нам надо понять, какая у нашего проекта активность и кто наши пользователи. И тут мы вспомнили, что 3 года назад начался уникальный социально-психологический эксперимент, о котором, среди прочего, мы и поведаем в этой статье.
Читать дальше →
Всего голосов 13: ↑12 и ↓1+11
Комментарии7

Тематическая картография: одномерные карты

Время на прочтение17 мин
Количество просмотров13K


Всем привет!
Это перевод второй части руководства по тематической картографии от ребят из axismaps.
Первая часть: Тематическая картография: общие вопросы.

Рекомендую к прочтению информационным дизайнерам, журналистам (данных), аналитикам, начинающим картографам, а также всем, кто хочет научиться читать тематические карты и отличать хорошую карту от плохой, вводящей читателя в заблуждение. Всех заинтересовавшихся приглашаю под кат.
Читать дальше →
Всего голосов 13: ↑13 и ↓0+13
Комментарии6

Почему и зачем писать open-source код?

Время на прочтение3 мин
Количество просмотров30K
image

Под катом интересный опрос

Возможно, заголовок этой статьи покажется Вам не корректным, ”Как можно писать open-source код? И что это за код такой?” — спросите Вы.

Чем open-source код отличается от “просто-кода”? Open-source проект — это ответственность за качество кода, за покрытие его тестами, за документацию, за своевременные ответы на вопросы и реагирование на bug репорты, за обработку pull-request’ов. Ваше поведение и мысли во время написания open-source кода, который увидит мир будут другие, соответственно и код на выходе получается другой.

Open-Source проект живет своей жизнью — жизнью сообщества, которое образуется вокруг проекта. Идеи, отзывы, bug репорты, обсуждение и благодарности от других членов сообщества влияют на Вас и проект напрямую, и стимулируют написание кода — понятного, документированного и покрытого тестами.
Читать дальше →
Всего голосов 43: ↑33 и ↓10+23
Комментарии65

Сводные данные о зарегистрированных доменах второго уровня в зоне .RU

Время на прочтение3 мин
Количество просмотров16K
crawljob

Целью исследования являлось получение актуального списка всех активных доменов в зоне .RU, к 01.01.2016 зарегистрировано в которой было 5040277 имён. Приняли решение пройтись по каждому имени краулером и проанализировать результат.
Читать дальше →
Всего голосов 17: ↑14 и ↓3+11
Комментарии28

Об открытых данных Федерального Казначейства. Доклад к следующему общественному совету в феврале 2016 года

Время на прочтение3 мин
Количество просмотров6.6K
Так сложилось, что я являюсь членом разных советов и комиссий, в том числе общественных советов и экспертных советов. У них у всех разные функции и задачи и очень разная эффективность, однако некоторые вполне интересны и касаются открытых данных. Поэтому я хочу взять за правило хорошую привычку рассказывать в открытом доступе в формате мини-отчётов что и как проходит на таких общественных советах.



Итак, сегодня, например, прошёл общественный совет при Федеральном Казначействе и в этот совет я также вхожу. Зачем нужны общественные советы? Предполагается, что в них участвуют представители общества и от лица общества предлагают ведомствам вносить изменения в их деятельность, комментируют и вносят предложения в их планы работ и так далее. Какие-то ведомства этому не то чтобы сопротивляются, но общественные советы в них скорее формальны, чем практичны. А другие наоборот более чем содержательны.
Читать дальше →
Всего голосов 13: ↑10 и ↓3+7
Комментарии8