Обновить
30.44

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

Время на прочтение13 мин
Охват и читатели77K
Как определить чиновников, наиболее подозрительных с точки зрения коррупции? Проще всего — сравнив их доходы и уровень жизни.

В этой статье я хочу показать возможности сайтов с открытой информацией о чиновниках, посмотреть на то, как эти чиновники живут и попытаться определить тех, кто наиболее подозрителен с точки зрения коррупции.

Почему открытая информация о доходах чиновников важна? Потому что это позволяет их контролировать.

image
Фото из инстаграмма дочери бывшего руководителя ГАИ Украины Александра Ершова. На фото дочь Ершова в Каннах рядом с Пэрис Хилтон. В результате скандала из-за несоответствия задекларированных доходов и образа жизни семьи Ершов подал в отставку.
Читать дальше →

Вычисляемые знания по анатомии в Wolfram Language

Время на прочтение4 мин
Охват и читатели7.6K

Перевод поста Keiko Hirayama "Dissecting the New Anatomy Content in the Wolfram Language".

Код, приведенный в статье, можно скачать здесь.

Выражаю огромную благодарность Кириллу Гузенко KirillGuzenko за помощь в переводе и подготовке публикации

Тело человека является предметом изучения с самого начала человеческой истории. Современные научные направления в анатомии и физиологии происходят из симбиоза искусства и анатомии, возникшего в эпоху ренессанса. В начале 16-го века Леонардо да Винчи одним из первых представил достаточно подробные и точные эскизы человеческого тела и его структур. В 1543 году Везалий опубликовал знаменитый учебник De Humani Corporis Fabrica (О строении человеческого тела) с красивыми иллюстрациями оного.

Имея современные технологии в нашем распоряжении, мы можем представлять данные по физиологии и анатомии в вычислимом формате. С помощью Wolfram|Alpha мы создали для всех возможность легко изучить то, как отдельные анатомические структуры связаны друг с другом в организме человека, а также исследовать как целые системы органов, так и их микроскопические составляющие.


Читать дальше →

Исследование результатов ЕГЭ, ГИА и олимпиад для московских школ. Из каких школ в какие ВУЗы поступают

Время на прочтение4 мин
Охват и читатели34K
Месяц назад я писал про наше участие в хакатоне по открытым данным.

После хакатона мы не остановились на достигнутом, как это обычно бывает, а продолжили работу. У нас на руках оказались данные, к которым раньше имели доступ, наверное, только сотрудники Министерства образования: результаты ГИА и победы на олимпиадах за 2014-2015 год для 90% московских школ. Для 55% школ удалось собрать данные по ЕГЭ за 2015 год. Прокачали все аккаунты московских школьников в Контакте, посмотрели, какие ВУЗы они указывают у себя в профайлах после окончания.

Естественно, было интересно поизучать такой датасет. Сначала тривиальные вещи, о которых люди из образования, наверное, хорошо знают:
  • Баллы по ЕГЭ по гуманитарным предметам выше, чем по техническим. История — исключение;
  • Естественно-научные дисциплины посередине.


Читать дальше →

Конкурс kaggle по анализу данных анкетирования населения

Время на прочтение4 мин
Охват и читатели8.8K
На kaggle сейчас проходит конкурс USA Census по поиску интересных фактов в American Community Survey данных за 2013 год. Данные этого анкетирования выложены в свободный доступ, подробности можно найти здесь.
Kaggle выбрал для анализа два направления — персональные сведения (пол, возраст, семейное положение и т.д.) и сведения о домохозяйствах (различные характеристики жилья, доход домохозяйства, налоговые платежи и прочее). Хочу поделиться своими результатами, которые сфокусированы на различиях домохозяйств в зависимости от вида права собственности на их жилье — владение с ограничением (ипотека или заем), владение без ограничений и не владеют (аренда).


infographics: American Housing Survey Factsheets
Читать дальше →

О проектах на открытых данных, поиске финансирования общественных проектов и об открытых данных о госфинансах

Время на прочтение5 мин
Охват и читатели5.7K
Когда мы говорим про открытые данные, то всегда важно помнить что они невозможны без принципиального наличия данных вообще. Я как человек, занимающийся анализом данных госданных в области госфинансов, и вся команда нашего проекта Госзатраты, занимаемся тем, что регулярно пытаемся убедить ведомства, ответственные за госполитику в этой области, в том, чтобы открытые данные были доступны и чтобы с ними было максимально удобно работать.



Во многом именно в этом и является залог успеха общественных проектов. Найти «топливо» в виде данных на которых проект может быть построен и найти «топливо» в виде финансирования которое позволило бы проекту появится и поддерживаться. Например, проект Госзатраты где мы анализируем данные госконтрактов поддерживается Комитетом Гражданских инициатив (http://komitetgi.ru). И Госзатраты это один из немногих технологических некоммерческих проектов КГИ и технологических некоммерческих проектов в России в принципе.

Я хочу затронуть сразу несколько важных тем. И прошу каждую из этих тем рассматривать как вопрос.

Негосударственные проекты создающие открытые данные
Читать дальше →

Тематическая картография: общие вопросы

Время на прочтение26 мин
Охват и читатели30K


Хочу поделиться с вами переводом руководства по тематической картографии от ребят из axismaps.

Рекомендую к прочтению информационным дизайнерам, журналистам (данных), аналитикам, начинающим картографам, а также всем, кто хочет научиться читать тематические карты и отличать хорошую карту от плохой, вводящей читателя в заблуждение. Всех заинтересовавшихся приглашаю под кат.
Читать дальше →

Тысяча и один блистер. Поиск лекарств с завышенной ценой

Время на прочтение3 мин
Охват и читатели41K
Недавно Минздрав выложил таблицу с предельными ценами на жизненно необходимые лекарства, я неслабо заморочился и проверил как часто эти пределы в Москве превышаются.


Читать дальше →

SYNful knock на ОС маршрутизаторов Cisco Systems

Время на прочтение1 мин
Охват и читатели7.7K
Специалисты по работе с проблемами информационной безопасности компании FireEye опубликовали отчет о вредоносной модификации инфраструктурных решений от Cisco. С помощью данного backdoor-патча злоумышленники собирали огромные объемы данных и оставались незамеченными.

Читать дальше →

Как я писал карту дождей

Время на прочтение14 мин
Охват и читатели16K
По следам недавней публикации про работу с картами метеорадаров я решил написать о собственном подобном опыте.

Где-то в конце мая, очередной раз прикидывая, соберется ли гроза из вон тех туч за окном, я подумал: если даже на самолетах ставят метеорадары, по которым они обходят грозы, то неужели нет аналогичных стационарных радаров? И если они есть, то не доступны ли изображения с них в интернете?

Не самый быстрый поиск в интернете показал, что такие радары есть, называются ДМРЛ (доплеровские метеорологические радиолокаторы), и снимки с них действительно выставляются в интернете. Есть российский сайт meteorad.ru, белорусский meteoinfo.by (правда, недоступно из России, не из России см. раскрывающееся меню слева), и еще есть сайт orm.mipt.ru. При этом самые приятные картинки — на meteorad.

Вскоре понял, что метеораду не хватает трех вещей: хорошей картографической подложки, истории за последние несколько часов и объединения картинок с нескольких радаров. На каком-то другом сайте я нашел карту с таким функционалом, но там не было наиболее меня интересующего нижегородского радара. Что ж, значит, надо сделать такую карту самому.

Читать дальше →

Карта дождей

Время на прочтение2 мин
Охват и читатели63K
Я часто езжу на велосипеде и мотоцикле, поэтому вопрос «а будет ли дождь» беспокоит меня достаточно часто. Как оказалось, Центральная Аэрологическая Обсерватория регулярно выкладывает у себя на сайте снимки с метеорологических радиолокаторов. Чтобы ими пользоваться не хватает двух вещей: возможности приблизить карту и посмотреть как двигались облака за последний час. Если добавить эти две фичи, получается полезная штука:

Плохие новости: Росгидромет запретил ЦАО публиковать данные в реальном времени, теперь они доступны с задержкой в 24 часа. Ставьте лайки, возможно, получится в каком-то виде получить актуальные данные обратно.
Ничоси, про это даже петиция есть — "Вернуть открытый доступ снимков ДМРЛ (радары)". И в Росгидромет уже письма писали.
Читать дальше →

Видео про эффективный альтруизм

Время на прочтение1 мин
Охват и читатели4.1K
Видео на русском языке, коротко и ясно излагающее идеи нового международного движения «Эффективный альтруизм», участники которого разрабатывают научные основы эффективной благотворительности (доклад на встрече сообщества LessWrong в Москве).

Ко-кластеризация: cегментирование данных вдоль и поперёк

Время на прочтение6 мин
Охват и читатели11K
Обычно кластеризация подразумевает выделение нескольких групп объектов со схожими характеристиками внутри группы, а между группами — различными. Особенность ко-кластеризации — группирование не только объектов, но и самих характеристик этих объектов. То есть, если данные представлены в виде матрицы, то кластеризация — это перегруппировка строк или столбцов матрицы, а ко-кластеризация — перегруппировка и строк и столбцов матрицы данных.
Как и в предыдущих моих публикациях, примеры использования методов и визуализация решений показаны на данных результатов опросов. Типичная область применения алгоритмов ко-кластеризации — биоинформатика, сегментирование изображений, анализ текстов.



Читать дальше →

«Кто на первой базе» — новый географический справочник от Mapzen

Время на прочтение17 мин
Охват и читатели11K

Маленькая версия




Все административные единицы! Пока всё сыро и сложно!!! Но это пока!!!

Большая версия


Mapzen создаёт географический справочник административных единиц. Не то, чтобы всех, но подавляющего большинства, и, мы надеемся, большинства их видов. Географический справочник — это большой список административных единиц, каждая из которых имеет постоянный идентификатор и некоторое количество свойств, описывающих их местонахождение. Интересно рассматривать справочник как пространство, где дебаты вокруг административных единиц ведутся, но не решаются. Мы называем наш справочник «Who’s On First» (Кто на первой базе), или короче — «WOF».

Читать дальше →

Ближайшие события

Таблицы сопряженности: лог-линейные модели и Марковские сети

Время на прочтение7 мин
Охват и читатели17K
В предыдущей части публикации был рассмотрен метод факторизации неотрицательных матриц в качестве снижения размерности и визуализации таблиц сопряженности. В этой части будет проведен статистический анализ полученных диаграмм с использованием лог-линейных моделей. Напомню, примеры демонстрируются для complex survey данных — стратифицированных, кластеризованных и взвешенных выборок. Это обстоятельство предполагает применение специальных методов оценки и выбора моделей. Для визуализации полученных результатов применяются Марковские сети — удобный инструмент графического представления взаимодействия факторов лог-линейных моделей.



Читать дальше →

Офис как Платформа, выпуск №3: Power BI. Получаем данные из REST API

Время на прочтение6 мин
Охват и читатели31K
Это наш очередной пост в колонку “Office как Платформа”. На этот раз приветствуем Дмитрия Соловьева ( dmitriysolovev), руководителя центра поддержки Office 365 в компании АстроСофт – автора уже нескольких статей по технологии PowerBI. В этой статье Дмитрий расскажет о том, как использовать REST API для получения данных из внешних источников для визуализации и анализа в PowerBI. – Владимир Юнев

Всем привет! На хабре было уже несколько постов на тему Power BI. Если судить по комментариям, то как минимум нескольким читателям актуальна тема получения данных из REST веб-сервисов. Сегодня ее и рассмотрим на примере получения и обработки данных с портала открытых данных г. Санкт-Петербурга (http://data.gov.spb.ru/). Экзекуции будут подвергнуты данные технико-экономических паспортов многоквартирных домов (http://data.gov.spb.ru/datasets/69/). В роли «пыточного инструмента» выступит Excel 2016, в состав которого теперь по умолчанию встроен Power Query.

Введение


В целом Power Query позволяет получать данные из открытых и не очень источников различными способами (рис.1):

  1. Получение данных «Из интернета». В этом случае достаточно указать URL страницы, на которой находятся интересующие нас данные и загрузить их. Из недостатков – стабильно работает только на страницах, использующих табличную вёрстку; приходится писать функции в случае, если данные разбиты на страницы; администраторы сайта могут Вас забанить, если будет слишком много запросов (а они будут, если страниц много);
  2. Получение данных из канала OData. Этот вариант подходит для различных LOB-приложений, которые поддерживают OData;
  3. Написать запрос с нуля, используя возможности языка «M». Как раз этот вариант я и буду использовать в данном случае.
Читать дальше →

Таблицы сопряженности и факторизация неотрицательных матриц

Время на прочтение6 мин
Охват и читатели16K
Факторизация неотрицательных матриц (NMF) — это представление матрицы V в виде произведения матриц W и H, в котором все элементы трех матриц неотрицательны. Это разложение используется в различных областях знаний, например, в биологии, компьютерном зрении, рекомендательных системах. В этой публикации пойдет речь о таблицах сопряженности социологических и маркетинговых данных, факторизация которых помогает понять структуру данных этих таблиц.


Читать дальше →

Анализ открытых данных в R, часть 1

Время на прочтение5 мин
Охват и читатели15K

Введение


На момент написания статьи большинство приложений на основе открытых данных (на официальных сайтах data.mos.ru/apps и data.gov.ru) представляют собой интерактивные справочники по инфраструктуре города или поселения с наглядной визуализацией и часто с опцией выбора оптимального маршрута. Цель этой и последующих публикаций состоит в том, чтобы привлечь внимание сообщества к обсуждению стратегий анализа открытых данных, в т.ч. направленных на прогнозирование, построение статистических моделей и извлечение информации, не представленной в явном виде. В качестве инструментария используется язык R и среда разработки RStudio.
Читать дальше →

Office как Платформа, выпуск №2: Power BI – новый подход к созданию бизнес-аналитики

Время на прочтение6 мин
Охват и читатели50K


На сегодняшний день, одной из важных задач, с которыми мы сталкиваемся в процессе работы, является задача правильного и красивого предоставления данных. Мы стремимся превратить безликие цифры в интересные и информативные материалы, оживить свои отчеты и презентации. Более того, объем данных, поступаемых в мозг человека, увеличивается с каждым годом, поэтому, наряду с получением любых результатов нам необходимо правильно их обработать и структурировать.

Сегодня, на примере ряда задач, мы с вами рассмотрим мощный облачный инструмент, который позволяет создавать различные яркие и красочные отчеты на основе огромного числа источников данных. А именно, спешу поделиться с вами новым инструментом, который поможет вам визуализировать ваши данные – Power BI.
Читать дальше →

Опрос: Какие данные открывать налоговой службе?

Время на прочтение1 мин
Охват и читатели13K
В качестве вступления, я немного повторю текст которым сопровождаю все опросы.

Вполне возможно что многие из Вас знают про Совет по открытым данным, это такая рабочая группа при Правительственной комиссии по открытости в которой обсуждают и рекомендуют правительству открывать данные. Я не только вхожу в эту рабочую группу, но и являюсь заместителем её председателя и считаю важным чтобы деятельность совета помогала тем кто понимает какие данные и в какой форме нужны от органов власти.

Поэтому на регулярной основе мы проводим опросы разработчиков о том как и что нужно от конкретного органа власти.



На сей раз пришла пора Федеральной Налоговой Службы. Ранее эксперты совета встречались с коллегами из ФНС России и обсуждали те данные которые считали наиболее приоритетными. Но, безусловно, важнее что об этом думают конечные потребители.

Для тех кто ранее не сталкивался с данными ФНС, их можно найти у них на сайте в "разделе Открытые данные" и большая база данных это данные системы ФИАС доступные по адресу fias.nalog.ru

Читать дальше →

Исторические бюджеты с 1866 и долгая дорога по превращению их в открытые данные

Время на прочтение2 мин
Охват и читатели14K
Вчера случилось небольшое, но важное событие — Минфин России выложил в открытый доступ все сканы бюджетных росписей и бюджетных справочников начиная с 1866 года.

Можно прочитать это в виде анонса , можно сразу пройти в раздел Исторический бюджет на их сайте, а можно узнать о том как всё это происходило и почему это очень даже важно и интересно.

Вот уже несколько лет как я занимаюсь такой интересной и узкой темой открытых данных как открытые исторические данные. Когда работаешь с данными по истории очень часто хочется оперировать не только фактами, но и базами которые за этими фактами скрыты. Например, переписями населения, демографическими справочниками и иными любыми справочниками с таблицами и цифрами на основе которых можно понять что тогда происходило.

И эти несколько лет я лично ходил и обивал пороги нескольких министерств и ведомств пытаясь донести до них простую мысль что сидеть как «собаки на данных» — это неприлично и всё что не под грифом надо оцифровывать и выкладывать хотя бы сканами, а потом и превращать в базы данных.

Не могу сказать что это происходило успешно. Например, даже будучи членом общественного совета при Росстате мне не удалось их убедить начать оцифровывать свои исторические справочники. Любой разговор всегда сводился (и сводится сейчас) к тому что у Росстата нет денег, вот совсем просто таки нету и поэтому ничего сканировать они не будут и не планируют. И получить доступ к их архивам мне так и не удалось.

Было еще несколько ведомств и несколько попыток, большая часть из которых заканчивалась круглыми глазами чиновников и словами что у них то и архивов не осталось.

И было лишь одно ведомство у которого справочники остались. Не просто остались, но хранились и хранятся вот уже почти 150 лет — это Минфин России


Первая бюджетная роспись (написанная не от руки) хранится там аж с 1866 года и далее доступна по годам за каждый бюджетный год Российской Империи и за большую часть лет РСФСР и СССР.

Как можно использовать эту информацию? Да просто бесконечным числом способов!

  • Для начала можно посмотреть на исторические аналогии. Сравнить бюджет России сейчас и 100 лет назад, прямо в разгар Первой мировой войны.
  • Можно посмотреть предреволюционный проект бюджета на 1917 год.
  • Можно выяснить каким был довоенный и послевоенный бюджет СССР.
  • Можно узнать когда какие налоги формировали основные деньги государства.


И многое другое.
И, чуть ли не самое главное.
Читать дальше →