Все потоки

Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

@pro100olga 26 ноя 2015 в 12:50

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

13 мин

77K

Проектирование API * Data Mining * R * Открытые данные *

Из песочницы

Как определить чиновников, наиболее подозрительных с точки зрения коррупции? Проще всего — сравнив их доходы и уровень жизни.

В этой статье я хочу показать возможности сайтов с открытой информацией о чиновниках, посмотреть на то, как эти чиновники живут и попытаться определить тех, кто наиболее подозрителен с точки зрения коррупции.

Почему открытая информация о доходах чиновников важна? Потому что это позволяет их контролировать.

Фото из инстаграмма дочери бывшего руководителя ГАИ Украины Александра Ершова. На фото дочь Ершова в Каннах рядом с Пэрис Хилтон. В результате скандала из-за несоответствия задекларированных доходов и образа жизни семьи Ершов подал в отставку.

Читать дальше →

+146

@OsipovRoman 25 ноя 2015 в 09:20

Вычисляемые знания по анатомии в Wolfram Language

4 мин

7.6K

Блог компании Wolfram ResearchВизуализация данных * Занимательные задачкиОткрытые данные * Программирование *

Перевод

Перевод поста Keiko Hirayama "Dissecting the New Anatomy Content in the Wolfram Language".

Код, приведенный в статье, можно скачать здесь.

Выражаю огромную благодарность Кириллу Гузенко KirillGuzenko за помощь в переводе и подготовке публикации

Тело человека является предметом изучения с самого начала человеческой истории. Современные научные направления в анатомии и физиологии происходят из симбиоза искусства и анатомии, возникшего в эпоху ренессанса. В начале 16-го века Леонардо да Винчи одним из первых представил достаточно подробные и точные эскизы человеческого тела и его структур. В 1543 году Везалий опубликовал знаменитый учебник De Humani Corporis Fabrica (О строении человеческого тела) с красивыми иллюстрациями оного.

Имея современные технологии в нашем распоряжении, мы можем представлять данные по физиологии и анатомии в вычислимом формате. С помощью Wolfram|Alpha мы создали для всех возможность легко изучить то, как отдельные анатомические структуры связаны друг с другом в организме человека, а также исследовать как целые системы органов, так и их микроскопические составляющие.

Читать дальше →

+16

@alexanderkuk 11 ноя 2015 в 15:46

Исследование результатов ЕГЭ, ГИА и олимпиад для московских школ. Из каких школ в какие ВУЗы поступают

4 мин

34K

Открытые данные * Визуализация данных * VK API * Data Mining * Big Data *

Месяц назад я писал про наше участие в хакатоне по открытым данным.

После хакатона мы не остановились на достигнутом, как это обычно бывает, а продолжили работу. У нас на руках оказались данные, к которым раньше имели доступ, наверное, только сотрудники Министерства образования: результаты ГИА и победы на олимпиадах за 2014-2015 год для 90% московских школ. Для 55% школ удалось собрать данные по ЕГЭ за 2015 год. Прокачали все аккаунты московских школьников в Контакте, посмотрели, какие ВУЗы они указывают у себя в профайлах после окончания.

Естественно, было интересно поизучать такой датасет. Сначала тривиальные вещи, о которых люди из образования, наверное, хорошо знают:

Баллы по ЕГЭ по гуманитарным предметам выше, чем по техническим. История — исключение;
Естественно-научные дисциплины посередине.

Читать дальше →

+37

@jzha 4 ноя 2015 в 20:45

Конкурс kaggle по анализу данных анкетирования населения

4 мин

8.8K

Открытые данные * Визуализация данных * R * Data Mining *

На kaggle сейчас проходит конкурс USA Census по поиску интересных фактов в American Community Survey данных за 2013 год. Данные этого анкетирования выложены в свободный доступ, подробности можно найти здесь.
Kaggle выбрал для анализа два направления — персональные сведения (пол, возраст, семейное положение и т.д.) и сведения о домохозяйствах (различные характеристики жилья, доход домохозяйства, налоговые платежи и прочее). Хочу поделиться своими результатами, которые сфокусированы на различиях домохозяйств в зависимости от вида права собственности на их жилье — владение с ограничением (ипотека или заем), владение без ограничений и не владеют (аренда).

infographics: American Housing Survey Factsheets

Читать дальше →

+8

@ibegtin 4 ноя 2015 в 08:10

О проектах на открытых данных, поиске финансирования общественных проектов и об открытых данных о госфинансах

5 мин

5.7K

Блог компании «Информационная культура»Big Data * Открытые данные *

Когда мы говорим про открытые данные, то всегда важно помнить что они невозможны без принципиального наличия данных вообще. Я как человек, занимающийся анализом данных госданных в области госфинансов, и вся команда нашего проекта Госзатраты, занимаемся тем, что регулярно пытаемся убедить ведомства, ответственные за госполитику в этой области, в том, чтобы открытые данные были доступны и чтобы с ними было максимально удобно работать.

Во многом именно в этом и является залог успеха общественных проектов. Найти «топливо» в виде данных на которых проект может быть построен и найти «топливо» в виде финансирования которое позволило бы проекту появится и поддерживаться. Например, проект Госзатраты где мы анализируем данные госконтрактов поддерживается Комитетом Гражданских инициатив (http://komitetgi.ru). И Госзатраты это один из немногих технологических некоммерческих проектов КГИ и технологических некоммерческих проектов в России в принципе.

Я хочу затронуть сразу несколько важных тем. И прошу каждую из этих тем рассматривать как вопрос.

Негосударственные проекты создающие открытые данные

Читать дальше →

+9

@KoGor 16 окт 2015 в 08:34

Тематическая картография: общие вопросы

26 мин

30K

Визуализация данных * Геоинформационные сервисы * Открытые данные *

Туториал

Хочу поделиться с вами переводом руководства по тематической картографии от ребят из axismaps.

Рекомендую к прочтению информационным дизайнерам, журналистам (данных), аналитикам, начинающим картографам, а также всем, кто хочет научиться читать тематические карты и отличать хорошую карту от плохой, вводящей читателя в заблуждение. Всех заинтересовавшихся приглашаю под кат.

Читать дальше →

+20

@alexanderkuk 20 сен 2015 в 21:05

Тысяча и один блистер. Поиск лекарств с завышенной ценой

3 мин

41K

Big Data * Data Mining * Открытые данные *

Недавно Минздрав выложил таблицу с предельными ценами на жизненно необходимые лекарства, я неслабо заморочился и проверил как часто эти пределы в Москве превышаются.

Читать дальше →

+89

@it_man 17 сен 2015 в 11:03

SYNful knock на ОС маршрутизаторов Cisco Systems

1 мин

7.7K

Блог компании MWSИнформационная безопасность * Открытые данные * Высоконагруженные системы * Big Data *

Специалисты по работе с проблемами информационной безопасности компании FireEye опубликовали отчет о вредоносной модификации инфраструктурных решений от Cisco. С помощью данного backdoor-патча злоумышленники собирали огромные объемы данных и оставались незамеченными.

Читать дальше →

+9

@pkalinin 11 сен 2015 в 11:14

Как я писал карту дождей

14 мин

16K

Геоинформационные сервисы * Обработка изображений * Открытые данные *

По следам недавней публикации про работу с картами метеорадаров я решил написать о собственном подобном опыте.

Где-то в конце мая, очередной раз прикидывая, соберется ли гроза из вон тех туч за окном, я подумал: если даже на самолетах ставят метеорадары, по которым они обходят грозы, то неужели нет аналогичных стационарных радаров? И если они есть, то не доступны ли изображения с них в интернете?

Не самый быстрый поиск в интернете показал, что такие радары есть, называются ДМРЛ (доплеровские метеорологические радиолокаторы), и снимки с них действительно выставляются в интернете. Есть российский сайт meteorad.ru, белорусский meteoinfo.by (правда, недоступно из России, не из России см. раскрывающееся меню слева), и еще есть сайт orm.mipt.ru. При этом самые приятные картинки — на meteorad.

Вскоре понял, что метеораду не хватает трех вещей: хорошей картографической подложки, истории за последние несколько часов и объединения картинок с нескольких радаров. На каком-то другом сайте я нашел карту с таким функционалом, но там не было наиболее меня интересующего нижегородского радара. Что ж, значит, надо сделать такую карту самому.

Читать дальше →

+23

@alexanderkuk 6 сен 2015 в 18:52

Карта дождей

2 мин

63K

Big Data * Data Mining * Обработка изображений * Открытые данные *

Я часто езжу на велосипеде и мотоцикле, поэтому вопрос «а будет ли дождь» беспокоит меня достаточно часто. Как оказалось, Центральная Аэрологическая Обсерватория регулярно выкладывает у себя на сайте снимки с метеорологических радиолокаторов. Чтобы ими пользоваться не хватает двух вещей: возможности приблизить карту и посмотреть как двигались облака за последний час. Если добавить эти две фичи, получается полезная штука:

Плохие новости: Росгидромет запретил ЦАО публиковать данные в реальном времени, теперь они доступны с задержкой в 24 часа. Ставьте лайки, возможно, получится в каком-то виде получить актуальные данные обратно.
Ничоси, про это даже петиция есть — "Вернуть открытый доступ снимков ДМРЛ (радары)". И в Росгидромет уже письма писали.

Читать дальше →

+96

@ParadiseMaker 1 сен 2015 в 11:39

Видео про эффективный альтруизм

1 мин

4.1K

Открытые данные *

Видео на русском языке, коротко и ясно излагающее идеи нового международного движения «Эффективный альтруизм», участники которого разрабатывают научные основы эффективной благотворительности (доклад на встрече сообщества LessWrong в Москве).

+2

@jzha 29 авг 2015 в 07:54

Ко-кластеризация: cегментирование данных вдоль и поперёк

6 мин

11K

Data Mining * R * Визуализация данных * Открытые данные *

Обычно кластеризация подразумевает выделение нескольких групп объектов со схожими характеристиками внутри группы, а между группами — различными. Особенность ко-кластеризации — группирование не только объектов, но и самих характеристик этих объектов. То есть, если данные представлены в виде матрицы, то кластеризация — это перегруппировка строк или столбцов матрицы, а ко-кластеризация — перегруппировка и строк и столбцов матрицы данных.
Как и в предыдущих моих публикациях, примеры использования методов и визуализация решений показаны на данных результатов опросов. Типичная область применения алгоритмов ко-кластеризации — биоинформатика, сегментирование изображений, анализ текстов.

Читать дальше →

+9

@equinoxe 28 авг 2015 в 21:07

«Кто на первой базе» — новый географический справочник от Mapzen

17 мин

11K

Open source * Геоинформационные сервисы * Открытые данные *

Перевод

Маленькая версия

Все административные единицы! Пока всё сыро и сложно!!! Но это пока!!!

Большая версия

Mapzen создаёт географический справочник административных единиц. Не то, чтобы всех, но подавляющего большинства, и, мы надеемся, большинства их видов. Географический справочник — это большой список административных единиц, каждая из которых имеет постоянный идентификатор и некоторое количество свойств, описывающих их местонахождение. Интересно рассматривать справочник как пространство, где дебаты вокруг административных единиц ведутся, но не решаются. Мы называем наш справочник «Who’s On First» (Кто на первой базе), или короче — «WOF».

Читать дальше →

+13

@jzha 14 авг 2015 в 21:30

Таблицы сопряженности: лог-линейные модели и Марковские сети

7 мин

17K

Data Mining * R * Визуализация данных * Открытые данные *

В предыдущей части публикации был рассмотрен метод факторизации неотрицательных матриц в качестве снижения размерности и визуализации таблиц сопряженности. В этой части будет проведен статистический анализ полученных диаграмм с использованием лог-линейных моделей. Напомню, примеры демонстрируются для complex survey данных — стратифицированных, кластеризованных и взвешенных выборок. Это обстоятельство предполагает применение специальных методов оценки и выбора моделей. Для визуализации полученных результатов применяются Марковские сети — удобный инструмент графического представления взаимодействия факторов лог-линейных моделей.

Читать дальше →

+19

@XaocCPS 13 авг 2015 в 07:59

Офис как Платформа, выпуск №3: Power BI. Получаем данные из REST API

6 мин

31K

Блог компании MicrosoftВизуализация данных * Открытые данные * Office 365 * Веб-разработка *

Это наш очередной пост в колонку “Office как Платформа”. На этот раз приветствуем Дмитрия Соловьева ( dmitriysolovev), руководителя центра поддержки Office 365 в компании АстроСофт – автора уже нескольких статей по технологии PowerBI. В этой статье Дмитрий расскажет о том, как использовать REST API для получения данных из внешних источников для визуализации и анализа в PowerBI. – Владимир Юнев

Всем привет! На хабре было уже несколько постов на тему Power BI. Если судить по комментариям, то как минимум нескольким читателям актуальна тема получения данных из REST веб-сервисов. Сегодня ее и рассмотрим на примере получения и обработки данных с портала открытых данных г. Санкт-Петербурга (http://data.gov.spb.ru/). Экзекуции будут подвергнуты данные технико-экономических паспортов многоквартирных домов (http://data.gov.spb.ru/datasets/69/). В роли «пыточного инструмента» выступит Excel 2016, в состав которого теперь по умолчанию встроен Power Query.

Введение

В целом Power Query позволяет получать данные из открытых и не очень источников различными способами (рис.1):

Получение данных «Из интернета». В этом случае достаточно указать URL страницы, на которой находятся интересующие нас данные и загрузить их. Из недостатков – стабильно работает только на страницах, использующих табличную вёрстку; приходится писать функции в случае, если данные разбиты на страницы; администраторы сайта могут Вас забанить, если будет слишком много запросов (а они будут, если страниц много);
Получение данных из канала OData. Этот вариант подходит для различных LOB-приложений, которые поддерживают OData;
Написать запрос с нуля, используя возможности языка «M». Как раз этот вариант я и буду использовать в данном случае.

Читать дальше →

+7

@jzha 9 авг 2015 в 20:01

Таблицы сопряженности и факторизация неотрицательных матриц

6 мин

16K

Data Mining * R * Визуализация данных * Открытые данные *

Факторизация неотрицательных матриц (NMF) — это представление матрицы V в виде произведения матриц W и H, в котором все элементы трех матриц неотрицательны. Это разложение используется в различных областях знаний, например, в биологии, компьютерном зрении, рекомендательных системах. В этой публикации пойдет речь о таблицах сопряженности социологических и маркетинговых данных, факторизация которых помогает понять структуру данных этих таблиц.

Читать дальше →

+11

@9851754 4 авг 2015 в 12:56

Анализ открытых данных в R, часть 1

5 мин

15K

Открытые данные * R *

Из песочницы

Введение

На момент написания статьи большинство приложений на основе открытых данных (на официальных сайтах data.mos.ru/apps и data.gov.ru) представляют собой интерактивные справочники по инфраструктуре города или поселения с наглядной визуализацией и часто с опцией выбора оптимального маршрута. Цель этой и последующих публикаций состоит в том, чтобы привлечь внимание сообщества к обсуждению стратегий анализа открытых данных, в т.ч. направленных на прогнозирование, построение статистических моделей и извлечение информации, не представленной в явном виде. В качестве инструментария используется язык R и среда разработки RStudio.

Читать дальше →

+6

@a_bogdanova 4 авг 2015 в 06:58

Office как Платформа, выпуск №2: Power BI – новый подход к созданию бизнес-аналитики

6 мин

50K

Блог компании MicrosoftBig Data * Визуализация данных * Открытые данные * Office 365 *

На сегодняшний день, одной из важных задач, с которыми мы сталкиваемся в процессе работы, является задача правильного и красивого предоставления данных. Мы стремимся превратить безликие цифры в интересные и информативные материалы, оживить свои отчеты и презентации. Более того, объем данных, поступаемых в мозг человека, увеличивается с каждым годом, поэтому, наряду с получением любых результатов нам необходимо правильно их обработать и структурировать.

Сегодня, на примере ряда задач, мы с вами рассмотрим мощный облачный инструмент, который позволяет создавать различные яркие и красочные отчеты на основе огромного числа источников данных. А именно, спешу поделиться с вами новым инструментом, который поможет вам визуализировать ваши данные – Power BI.

Читать дальше →

+16

@ibegtin 24 июл 2015 в 07:01

Опрос: Какие данные открывать налоговой службе?

1 мин

13K

Блог компании «Информационная культура»Big Data * Открытые данные *

В качестве вступления, я немного повторю текст которым сопровождаю все опросы.

Вполне возможно что многие из Вас знают про Совет по открытым данным, это такая рабочая группа при Правительственной комиссии по открытости в которой обсуждают и рекомендуют правительству открывать данные. Я не только вхожу в эту рабочую группу, но и являюсь заместителем её председателя и считаю важным чтобы деятельность совета помогала тем кто понимает какие данные и в какой форме нужны от органов власти.

Поэтому на регулярной основе мы проводим опросы разработчиков о том как и что нужно от конкретного органа власти.

На сей раз пришла пора Федеральной Налоговой Службы. Ранее эксперты совета встречались с коллегами из ФНС России и обсуждали те данные которые считали наиболее приоритетными. Но, безусловно, важнее что об этом думают конечные потребители.

Для тех кто ранее не сталкивался с данными ФНС, их можно найти у них на сайте в "разделе Открытые данные" и большая база данных это данные системы ФИАС доступные по адресу fias.nalog.ru

Читать дальше →

+12

@ibegtin 21 июл 2015 в 11:02

Исторические бюджеты с 1866 и долгая дорога по превращению их в открытые данные

2 мин

14K

Блог компании «Информационная культура»Открытые данные *

Вчера случилось небольшое, но важное событие — Минфин России выложил в открытый доступ все сканы бюджетных росписей и бюджетных справочников начиная с 1866 года.

Можно прочитать это в виде анонса , можно сразу пройти в раздел Исторический бюджет на их сайте, а можно узнать о том как всё это происходило и почему это очень даже важно и интересно.

Вот уже несколько лет как я занимаюсь такой интересной и узкой темой открытых данных как открытые исторические данные. Когда работаешь с данными по истории очень часто хочется оперировать не только фактами, но и базами которые за этими фактами скрыты. Например, переписями населения, демографическими справочниками и иными любыми справочниками с таблицами и цифрами на основе которых можно понять что тогда происходило.

И эти несколько лет я лично ходил и обивал пороги нескольких министерств и ведомств пытаясь донести до них простую мысль что сидеть как «собаки на данных» — это неприлично и всё что не под грифом надо оцифровывать и выкладывать хотя бы сканами, а потом и превращать в базы данных.

Не могу сказать что это происходило успешно. Например, даже будучи членом общественного совета при Росстате мне не удалось их убедить начать оцифровывать свои исторические справочники. Любой разговор всегда сводился (и сводится сейчас) к тому что у Росстата нет денег, вот совсем просто таки нету и поэтому ничего сканировать они не будут и не планируют. И получить доступ к их архивам мне так и не удалось.

Было еще несколько ведомств и несколько попыток, большая часть из которых заканчивалась круглыми глазами чиновников и словами что у них то и архивов не осталось.

И было лишь одно ведомство у которого справочники остались. Не просто остались, но хранились и хранятся вот уже почти 150 лет — это Минфин России

Первая бюджетная роспись (написанная не от руки) хранится там аж с 1866 года и далее доступна по годам за каждый бюджетный год Российской Империи и за большую часть лет РСФСР и СССР.

Как можно использовать эту информацию? Да просто бесконечным числом способов!

Для начала можно посмотреть на исторические аналогии. Сравнить бюджет России сейчас и 100 лет назад, прямо в разгар Первой мировой войны.
Можно посмотреть предреволюционный проект бюджета на 1917 год.
Можно выяснить каким был довоенный и послевоенный бюджет СССР.
Можно узнать когда какие налоги формировали основные деньги государства.

И многое другое.
И, чуть ли не самое главное.

Читать дальше →

+26

1 2 ...

25

26 27 ...