Как стать автором
Обновить
7.8

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Об открытых данных Федерального Казначейства. Доклад к следующему общественному совету в феврале 2016 года

Время на прочтение3 мин
Количество просмотров6.6K
Так сложилось, что я являюсь членом разных советов и комиссий, в том числе общественных советов и экспертных советов. У них у всех разные функции и задачи и очень разная эффективность, однако некоторые вполне интересны и касаются открытых данных. Поэтому я хочу взять за правило хорошую привычку рассказывать в открытом доступе в формате мини-отчётов что и как проходит на таких общественных советах.



Итак, сегодня, например, прошёл общественный совет при Федеральном Казначействе и в этот совет я также вхожу. Зачем нужны общественные советы? Предполагается, что в них участвуют представители общества и от лица общества предлагают ведомствам вносить изменения в их деятельность, комментируют и вносят предложения в их планы работ и так далее. Какие-то ведомства этому не то чтобы сопротивляются, но общественные советы в них скорее формальны, чем практичны. А другие наоборот более чем содержательны.
Читать дальше →
Всего голосов 13: ↑10 и ↓3+7
Комментарии8

Про открытые данные, проектах на их основе и о том что происходит с открытыми государственными данными в России

Время на прочтение5 мин
Количество просмотров17K


Кто-то возможно знает, для кого-то может быть новостью, но вчера и позавчера в России завершился саммит по открытым данным. И по его итогам, а также по итогам года я понимаю, что пора рассказать о том, что творится с открытыми данными и с другими частями открытости нашего государства.

К тому же мой опыт (и опыт вот уже очень долгий) создания проектов на открытых данных очень сильно отличается от слов чиновников и политиков, которые можно услышать на таких публичных мероприятиях.

Начну с саммита.

Саммит по открытым данным

На фоне всех остальных мероприятий по открытым данным за последние годы — это одно из первых организованных на довольно хорошем уровне. Даже на «совете по открытым данным» в Яндексе в июне 2015 года было очень много непрофильных выступлений, подробнее в заметке "Приоткрытые данные" в этот же раз все не отходили от темы открытых данных и это главный и важный плюс всего произошедшего.

В плюсы я могу записать также те части саммита в которых я участвовал. Это были круглые столы посвящённые темам криминальной статистики и востребованности государственных финансов.

Если коротко, то видно что эти данные нужны и востребованы. На круглом столе про востребованность госфинансов вообще очень много было вопросов про информацию связанную с открытыми данными по госзакупкам.

Подробнее и отдельно я напишу ещё про эти круглые столы, но суть общая что данные будут и что ведомства — готовы к диалогу с потребителями.

Плюс у меня просто руки не доходят рассказать про все проходящие мероприятия связанные с открытыми данными — встречи с разработчиками, заседания общественных советов и так далее. Я обязательно всё напишу, материалы копятся и тексты пишутся.

А теперь о том что у нас происходит с открытыми данными.
Читать дальше →
Всего голосов 26: ↑23 и ↓3+20
Комментарии15

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

Время на прочтение13 мин
Количество просмотров77K
Как определить чиновников, наиболее подозрительных с точки зрения коррупции? Проще всего — сравнив их доходы и уровень жизни.

В этой статье я хочу показать возможности сайтов с открытой информацией о чиновниках, посмотреть на то, как эти чиновники живут и попытаться определить тех, кто наиболее подозрителен с точки зрения коррупции.

Почему открытая информация о доходах чиновников важна? Потому что это позволяет их контролировать.

image
Фото из инстаграмма дочери бывшего руководителя ГАИ Украины Александра Ершова. На фото дочь Ершова в Каннах рядом с Пэрис Хилтон. В результате скандала из-за несоответствия задекларированных доходов и образа жизни семьи Ершов подал в отставку.
Читать дальше →
Всего голосов 165: ↑156 и ↓9+147
Комментарии149

Вычисляемые знания по анатомии в Wolfram Language

Время на прочтение4 мин
Количество просмотров7.4K

Перевод поста Keiko Hirayama "Dissecting the New Anatomy Content in the Wolfram Language".

Код, приведенный в статье, можно скачать здесь.

Выражаю огромную благодарность Кириллу Гузенко KirillGuzenko за помощь в переводе и подготовке публикации

Тело человека является предметом изучения с самого начала человеческой истории. Современные научные направления в анатомии и физиологии происходят из симбиоза искусства и анатомии, возникшего в эпоху ренессанса. В начале 16-го века Леонардо да Винчи одним из первых представил достаточно подробные и точные эскизы человеческого тела и его структур. В 1543 году Везалий опубликовал знаменитый учебник De Humani Corporis Fabrica (О строении человеческого тела) с красивыми иллюстрациями оного.

Имея современные технологии в нашем распоряжении, мы можем представлять данные по физиологии и анатомии в вычислимом формате. С помощью Wolfram|Alpha мы создали для всех возможность легко изучить то, как отдельные анатомические структуры связаны друг с другом в организме человека, а также исследовать как целые системы органов, так и их микроскопические составляющие.


Читать дальше →
Всего голосов 21: ↑19 и ↓2+17
Комментарии1

Истории

Исследование результатов ЕГЭ, ГИА и олимпиад для московских школ. Из каких школ в какие ВУЗы поступают

Время на прочтение4 мин
Количество просмотров33K
Месяц назад я писал про наше участие в хакатоне по открытым данным.

После хакатона мы не остановились на достигнутом, как это обычно бывает, а продолжили работу. У нас на руках оказались данные, к которым раньше имели доступ, наверное, только сотрудники Министерства образования: результаты ГИА и победы на олимпиадах за 2014-2015 год для 90% московских школ. Для 55% школ удалось собрать данные по ЕГЭ за 2015 год. Прокачали все аккаунты московских школьников в Контакте, посмотрели, какие ВУЗы они указывают у себя в профайлах после окончания.

Естественно, было интересно поизучать такой датасет. Сначала тривиальные вещи, о которых люди из образования, наверное, хорошо знают:
  • Баллы по ЕГЭ по гуманитарным предметам выше, чем по техническим. История — исключение;
  • Естественно-научные дисциплины посередине.


Читать дальше →
Всего голосов 40: ↑39 и ↓1+38
Комментарии31

Конкурс kaggle по анализу данных анкетирования населения

Время на прочтение4 мин
Количество просмотров8.7K
На kaggle сейчас проходит конкурс USA Census по поиску интересных фактов в American Community Survey данных за 2013 год. Данные этого анкетирования выложены в свободный доступ, подробности можно найти здесь.
Kaggle выбрал для анализа два направления — персональные сведения (пол, возраст, семейное положение и т.д.) и сведения о домохозяйствах (различные характеристики жилья, доход домохозяйства, налоговые платежи и прочее). Хочу поделиться своими результатами, которые сфокусированы на различиях домохозяйств в зависимости от вида права собственности на их жилье — владение с ограничением (ипотека или заем), владение без ограничений и не владеют (аренда).


infographics: American Housing Survey Factsheets
Читать дальше →
Всего голосов 9: ↑9 и ↓0+9
Комментарии4

О проектах на открытых данных, поиске финансирования общественных проектов и об открытых данных о госфинансах

Время на прочтение5 мин
Количество просмотров5.5K
Когда мы говорим про открытые данные, то всегда важно помнить что они невозможны без принципиального наличия данных вообще. Я как человек, занимающийся анализом данных госданных в области госфинансов, и вся команда нашего проекта Госзатраты, занимаемся тем, что регулярно пытаемся убедить ведомства, ответственные за госполитику в этой области, в том, чтобы открытые данные были доступны и чтобы с ними было максимально удобно работать.



Во многом именно в этом и является залог успеха общественных проектов. Найти «топливо» в виде данных на которых проект может быть построен и найти «топливо» в виде финансирования которое позволило бы проекту появится и поддерживаться. Например, проект Госзатраты где мы анализируем данные госконтрактов поддерживается Комитетом Гражданских инициатив (http://komitetgi.ru). И Госзатраты это один из немногих технологических некоммерческих проектов КГИ и технологических некоммерческих проектов в России в принципе.

Я хочу затронуть сразу несколько важных тем. И прошу каждую из этих тем рассматривать как вопрос.

Негосударственные проекты создающие открытые данные
Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии5

Тематическая картография: общие вопросы

Время на прочтение26 мин
Количество просмотров28K


Хочу поделиться с вами переводом руководства по тематической картографии от ребят из axismaps.

Рекомендую к прочтению информационным дизайнерам, журналистам (данных), аналитикам, начинающим картографам, а также всем, кто хочет научиться читать тематические карты и отличать хорошую карту от плохой, вводящей читателя в заблуждение. Всех заинтересовавшихся приглашаю под кат.
Читать дальше →
Всего голосов 21: ↑21 и ↓0+21
Комментарии6

Тысяча и один блистер. Поиск лекарств с завышенной ценой

Время на прочтение3 мин
Количество просмотров41K
Недавно Минздрав выложил таблицу с предельными ценами на жизненно необходимые лекарства, я неслабо заморочился и проверил как часто эти пределы в Москве превышаются.


Читать дальше →
Всего голосов 98: ↑94 и ↓4+90
Комментарии174

SYNful knock на ОС маршрутизаторов Cisco Systems

Время на прочтение1 мин
Количество просмотров7.6K
Специалисты по работе с проблемами информационной безопасности компании FireEye опубликовали отчет о вредоносной модификации инфраструктурных решений от Cisco. С помощью данного backdoor-патча злоумышленники собирали огромные объемы данных и оставались незамеченными.

Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии6

Как я писал карту дождей

Время на прочтение14 мин
Количество просмотров16K
По следам недавней публикации про работу с картами метеорадаров я решил написать о собственном подобном опыте.

Где-то в конце мая, очередной раз прикидывая, соберется ли гроза из вон тех туч за окном, я подумал: если даже на самолетах ставят метеорадары, по которым они обходят грозы, то неужели нет аналогичных стационарных радаров? И если они есть, то не доступны ли изображения с них в интернете?

Не самый быстрый поиск в интернете показал, что такие радары есть, называются ДМРЛ (доплеровские метеорологические радиолокаторы), и снимки с них действительно выставляются в интернете. Есть российский сайт meteorad.ru, белорусский meteoinfo.by (правда, недоступно из России, не из России см. раскрывающееся меню слева), и еще есть сайт orm.mipt.ru. При этом самые приятные картинки — на meteorad.

Вскоре понял, что метеораду не хватает трех вещей: хорошей картографической подложки, истории за последние несколько часов и объединения картинок с нескольких радаров. На каком-то другом сайте я нашел карту с таким функционалом, но там не было наиболее меня интересующего нижегородского радара. Что ж, значит, надо сделать такую карту самому.

Читать дальше →
Всего голосов 24: ↑24 и ↓0+24
Комментарии17

Карта дождей

Время на прочтение2 мин
Количество просмотров62K
Я часто езжу на велосипеде и мотоцикле, поэтому вопрос «а будет ли дождь» беспокоит меня достаточно часто. Как оказалось, Центральная Аэрологическая Обсерватория регулярно выкладывает у себя на сайте снимки с метеорологических радиолокаторов. Чтобы ими пользоваться не хватает двух вещей: возможности приблизить карту и посмотреть как двигались облака за последний час. Если добавить эти две фичи, получается полезная штука:

Плохие новости: Росгидромет запретил ЦАО публиковать данные в реальном времени, теперь они доступны с задержкой в 24 часа. Ставьте лайки, возможно, получится в каком-то виде получить актуальные данные обратно.
Ничоси, про это даже петиция есть — "Вернуть открытый доступ снимков ДМРЛ (радары)". И в Росгидромет уже письма писали.
Читать дальше →
Всего голосов 105: ↑101 и ↓4+97
Комментарии114

Видео про эффективный альтруизм

Время на прочтение1 мин
Количество просмотров4K
Видео на русском языке, коротко и ясно излагающее идеи нового международного движения «Эффективный альтруизм», участники которого разрабатывают научные основы эффективной благотворительности (доклад на встрече сообщества LessWrong в Москве).

Всего голосов 11: ↑7 и ↓4+3
Комментарии0

Ближайшие события

Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург

Ко-кластеризация: cегментирование данных вдоль и поперёк

Время на прочтение6 мин
Количество просмотров11K
Обычно кластеризация подразумевает выделение нескольких групп объектов со схожими характеристиками внутри группы, а между группами — различными. Особенность ко-кластеризации — группирование не только объектов, но и самих характеристик этих объектов. То есть, если данные представлены в виде матрицы, то кластеризация — это перегруппировка строк или столбцов матрицы, а ко-кластеризация — перегруппировка и строк и столбцов матрицы данных.
Как и в предыдущих моих публикациях, примеры использования методов и визуализация решений показаны на данных результатов опросов. Типичная область применения алгоритмов ко-кластеризации — биоинформатика, сегментирование изображений, анализ текстов.



Читать дальше →
Всего голосов 16: ↑13 и ↓3+10
Комментарии0

«Кто на первой базе» — новый географический справочник от Mapzen

Время на прочтение17 мин
Количество просмотров11K

Маленькая версия




Все административные единицы! Пока всё сыро и сложно!!! Но это пока!!!

Большая версия


Mapzen создаёт географический справочник административных единиц. Не то, чтобы всех, но подавляющего большинства, и, мы надеемся, большинства их видов. Географический справочник — это большой список административных единиц, каждая из которых имеет постоянный идентификатор и некоторое количество свойств, описывающих их местонахождение. Интересно рассматривать справочник как пространство, где дебаты вокруг административных единиц ведутся, но не решаются. Мы называем наш справочник «Who’s On First» (Кто на первой базе), или короче — «WOF».

Читать дальше →
Всего голосов 20: ↑17 и ↓3+14
Комментарии6

Таблицы сопряженности: лог-линейные модели и Марковские сети

Время на прочтение7 мин
Количество просмотров16K
В предыдущей части публикации был рассмотрен метод факторизации неотрицательных матриц в качестве снижения размерности и визуализации таблиц сопряженности. В этой части будет проведен статистический анализ полученных диаграмм с использованием лог-линейных моделей. Напомню, примеры демонстрируются для complex survey данных — стратифицированных, кластеризованных и взвешенных выборок. Это обстоятельство предполагает применение специальных методов оценки и выбора моделей. Для визуализации полученных результатов применяются Марковские сети — удобный инструмент графического представления взаимодействия факторов лог-линейных моделей.



Читать дальше →
Всего голосов 20: ↑20 и ↓0+20
Комментарии0

Офис как Платформа, выпуск №3: Power BI. Получаем данные из REST API

Время на прочтение6 мин
Количество просмотров24K
Это наш очередной пост в колонку “Office как Платформа”. На этот раз приветствуем Дмитрия Соловьева ( dmitriysolovev), руководителя центра поддержки Office 365 в компании АстроСофт – автора уже нескольких статей по технологии PowerBI. В этой статье Дмитрий расскажет о том, как использовать REST API для получения данных из внешних источников для визуализации и анализа в PowerBI. – Владимир Юнев

Всем привет! На хабре было уже несколько постов на тему Power BI. Если судить по комментариям, то как минимум нескольким читателям актуальна тема получения данных из REST веб-сервисов. Сегодня ее и рассмотрим на примере получения и обработки данных с портала открытых данных г. Санкт-Петербурга (http://data.gov.spb.ru/). Экзекуции будут подвергнуты данные технико-экономических паспортов многоквартирных домов (http://data.gov.spb.ru/datasets/69/). В роли «пыточного инструмента» выступит Excel 2016, в состав которого теперь по умолчанию встроен Power Query.

Введение


В целом Power Query позволяет получать данные из открытых и не очень источников различными способами (рис.1):

  1. Получение данных «Из интернета». В этом случае достаточно указать URL страницы, на которой находятся интересующие нас данные и загрузить их. Из недостатков – стабильно работает только на страницах, использующих табличную вёрстку; приходится писать функции в случае, если данные разбиты на страницы; администраторы сайта могут Вас забанить, если будет слишком много запросов (а они будут, если страниц много);
  2. Получение данных из канала OData. Этот вариант подходит для различных LOB-приложений, которые поддерживают OData;
  3. Написать запрос с нуля, используя возможности языка «M». Как раз этот вариант я и буду использовать в данном случае.
Читать дальше →
Всего голосов 14: ↑11 и ↓3+8
Комментарии1

Таблицы сопряженности и факторизация неотрицательных матриц

Время на прочтение6 мин
Количество просмотров15K
Факторизация неотрицательных матриц (NMF) — это представление матрицы V в виде произведения матриц W и H, в котором все элементы трех матриц неотрицательны. Это разложение используется в различных областях знаний, например, в биологии, компьютерном зрении, рекомендательных системах. В этой публикации пойдет речь о таблицах сопряженности социологических и маркетинговых данных, факторизация которых помогает понять структуру данных этих таблиц.


Читать дальше →
Всего голосов 14: ↑13 и ↓1+12
Комментарии5

Анализ открытых данных в R, часть 1

Время на прочтение5 мин
Количество просмотров15K

Введение


На момент написания статьи большинство приложений на основе открытых данных (на официальных сайтах data.mos.ru/apps и data.gov.ru) представляют собой интерактивные справочники по инфраструктуре города или поселения с наглядной визуализацией и часто с опцией выбора оптимального маршрута. Цель этой и последующих публикаций состоит в том, чтобы привлечь внимание сообщества к обсуждению стратегий анализа открытых данных, в т.ч. направленных на прогнозирование, построение статистических моделей и извлечение информации, не представленной в явном виде. В качестве инструментария используется язык R и среда разработки RStudio.
Читать дальше →
Всего голосов 17: ↑12 и ↓5+7
Комментарии7

Office как Платформа, выпуск №2: Power BI – новый подход к созданию бизнес-аналитики

Время на прочтение6 мин
Количество просмотров49K


На сегодняшний день, одной из важных задач, с которыми мы сталкиваемся в процессе работы, является задача правильного и красивого предоставления данных. Мы стремимся превратить безликие цифры в интересные и информативные материалы, оживить свои отчеты и презентации. Более того, объем данных, поступаемых в мозг человека, увеличивается с каждым годом, поэтому, наряду с получением любых результатов нам необходимо правильно их обработать и структурировать.

Сегодня, на примере ряда задач, мы с вами рассмотрим мощный облачный инструмент, который позволяет создавать различные яркие и красочные отчеты на основе огромного числа источников данных. А именно, спешу поделиться с вами новым инструментом, который поможет вам визуализировать ваши данные – Power BI.
Читать дальше →
Всего голосов 19: ↑18 и ↓1+17
Комментарии17