Обновить
76.44

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Исторические бюджеты с 1866 и долгая дорога по превращению их в открытые данные

Время на прочтение2 мин
Просмотры14K
Вчера случилось небольшое, но важное событие — Минфин России выложил в открытый доступ все сканы бюджетных росписей и бюджетных справочников начиная с 1866 года.

Можно прочитать это в виде анонса , можно сразу пройти в раздел Исторический бюджет на их сайте, а можно узнать о том как всё это происходило и почему это очень даже важно и интересно.

Вот уже несколько лет как я занимаюсь такой интересной и узкой темой открытых данных как открытые исторические данные. Когда работаешь с данными по истории очень часто хочется оперировать не только фактами, но и базами которые за этими фактами скрыты. Например, переписями населения, демографическими справочниками и иными любыми справочниками с таблицами и цифрами на основе которых можно понять что тогда происходило.

И эти несколько лет я лично ходил и обивал пороги нескольких министерств и ведомств пытаясь донести до них простую мысль что сидеть как «собаки на данных» — это неприлично и всё что не под грифом надо оцифровывать и выкладывать хотя бы сканами, а потом и превращать в базы данных.

Не могу сказать что это происходило успешно. Например, даже будучи членом общественного совета при Росстате мне не удалось их убедить начать оцифровывать свои исторические справочники. Любой разговор всегда сводился (и сводится сейчас) к тому что у Росстата нет денег, вот совсем просто таки нету и поэтому ничего сканировать они не будут и не планируют. И получить доступ к их архивам мне так и не удалось.

Было еще несколько ведомств и несколько попыток, большая часть из которых заканчивалась круглыми глазами чиновников и словами что у них то и архивов не осталось.

И было лишь одно ведомство у которого справочники остались. Не просто остались, но хранились и хранятся вот уже почти 150 лет — это Минфин России


Первая бюджетная роспись (написанная не от руки) хранится там аж с 1866 года и далее доступна по годам за каждый бюджетный год Российской Империи и за большую часть лет РСФСР и СССР.

Как можно использовать эту информацию? Да просто бесконечным числом способов!

  • Для начала можно посмотреть на исторические аналогии. Сравнить бюджет России сейчас и 100 лет назад, прямо в разгар Первой мировой войны.
  • Можно посмотреть предреволюционный проект бюджета на 1917 год.
  • Можно выяснить каким был довоенный и послевоенный бюджет СССР.
  • Можно узнать когда какие налоги формировали основные деньги государства.


И многое другое.
И, чуть ли не самое главное.
Читать дальше →

DataTalks #3: онлайн-опросы

Время на прочтение3 мин
Просмотры3.8K
23 июля состоится третья встреча сообщества DataTalks.

В этот раз речь пойдет о том, как правильно собирать данные при помощи онлайн-опросов. Мы обсудим возможности и ограничения этого метода, а также поделимся секретами и трендами из сферы исследований предпочтений пользователей.
Секретами проведения и обработки результатов онлайн-опросов поделятся представители компаний Wargaming, «Студия Сорокина и Кулинкович», а также заместитель декана по науке НИУ ВШЭ.

Подробную программу вы найдете под катом.


Читать дальше →

Статистический анализ ассоциативных правил в результатах опросов

Время на прочтение7 мин
Просмотры7.2K
В предыдущей части статьи был рассмотрен метод поиска ассоциативных правил в данных европейского социального исследования. Эта часть о статистическом анализе полученных правил. Ключевой момент в том, что классические статистические методы, например, критерий согласия хи-квадрат, не имеют основания быть использованными для результатов опроса. Но по каким причинам? И как проверять гипотезы? Об этом пойдет речь в этой публикации.



Читать дальше →

Поиск ассоциативных правил в результатах опросов

Время на прочтение4 мин
Просмотры11K
Поиск ассоциативных правил хорошо известный метод анализа данных. На Хабре уже была публикация с историей вопроса об этом методе и общими определениями. В этой статье пойдет речь об адаптации алгоритма поиска ассоциативных правил в данных полученных опросами респондентов. Результаты работы алгоритма продемонстрированы на данных европейского социального исследования (ESS).


Foto: Owen Humphreys/AP

Читать дальше →

Открытые правоохранительные данные — статистика и данные по каждому преступлению

Время на прочтение2 мин
Просмотры16K
Когда мы говорим про открытые данные, те которые публикуются не для проформы, не для каких-то пиар акций государства, а про те которые «настоящие», которые касаются качества жизни каждого из нас, которые касаются окружающей среды — человеческой, инфраструктурной и бытовой, то речь заходит о нескольких важнейших направлениях открытости государства.

Это такие направления как:
  • данные о состоянии окружающей среды: качество воздуха, состояние почвы, качество воды, результаты проверки продуктов питания, очагах болезней, загрязняющем шуме и многое другое.
  • данные о качестве образования (средние баллы ЕГЭ по школам), средние зарплаты выпускников ВУЗов и многое другое;
  • данные о качестве работы учреждений здравоохранения. Процент успешных операций на сердце, муниципальная статистика по видам болезни, данные по причинам смертности и многое другое
  • данные о деятельности правоохранительных органов. Это статистика с детальностью до подразделения и деперсонализированная информация по каждому преступлению


Практически все эти наборы данных описаны в хартии открытых данных большой восьмерки и все они считаются наиболее важными и приоритетными для граждан.

Остановимся подробнее на правоохранительных данных.

Их особенность такова что в разных странах по разному осуществляется выполнение правоохранительных функций. Если в России или в Великобритании полиция является единой структурой вертикального подчинения, то в США существует множество полицейских управлений на уровне отдельных штатов и отдельных графств.

Если в некоторых странах существуют отдельные ведомства по анализу криминальной статистики, то в других это всё является частью функций полицейских управлений и прокуратуры.

В США совсем недавно Барак Обама создал специальную инициативу Police Data Initiative как раз по повышению качества открытости полицейских департаментов.
Читать дальше →

Общая концепция направления SafeCityNET

Время на прочтение3 мин
Просмотры2.3K
image

На Форсайт флоте 2015 было озвучено несколько интересных проектов в сфере обеспечения безопасности, которые в последствии были объединены в одно большое направление – SafeCityNET. Главная идея направления — это реализация на ограниченной территории (города) комплекса мероприятий, открывающих в перспективе новые рынки для предпринимателей из сферы безопасности и дающих им возможность реализовывать свои услуги и продукты по принципу uber модели. В этой заметке я хотел бы коротко рассмотреть 3 ключевых понятия, из которых на мой взгляд складывается направление SafeCityNET:

  1. Инфраструктура «умный город»
  2. Сервисная платформа
  3. Рынок сервисов безопасности

Далее рассмотрим более подробно каждое из понятий.
Читать дальше →

Гаджеты становятся «ближе к телу». Пять фактов, о которых вас хотят предупредить эксперты по информационной безопасности

Время на прочтение3 мин
Просмотры12K
В последнее время мы получаем много новостей о носимых гаджетах, используемых в области охраны здоровья и фитнеса. Компания Apple недавно объявила о выпуске приложения «Health», а также облачной платформы “Health Kit”. В связи с этим компания Nike снабдила специальным разъемом свой браслет Fuelband для анализа физической активности. Согласно общему мнению, фитнес-трекеры переживают упадок, в то время как рынок носимых гаджетов в целом — вспомните Google Glass или iWatch — находится на пике.

image

А как дела с защитой личной информации? На самом деле, в этой области много изменений, и следит за этим Федеральная торговая комиссия (ФТК)!
Читать дальше →

«Приоткрытые данные» / Заметки по следам совета по открытым данным 15 июня

Время на прочтение4 мин
Просмотры7.4K
Вчера, 15 июня прошло заседание совета по открытым данным. Как я понимаю пока еще никто не написал о том что там происходило, особенно не языком пресс-релизов, а то что там было по факту, так что это сделаю я.

Я не буду останавливаться на том что такое открытые данные, уверен что все читающие это и так знают, поэтому сразу перейду к делу и речь пойдет про сам совет.

"Совет по открытым данным" — это название рабочей группы при Правительственной комиссии по открытости в которую входят 35 человек (см. состав рабочей группы) и задачей которой является регулярные совещания о том что дальше делать с открытыми данными.



Я, Иван Бегтин, являюсь заместителем председателя этой рабочей группы и участвую практически во всех её заседаниях. И единственный из всех в неё входящих кто пишет на Хабре.

Итак, совет 15 июня.
Читать дальше →

Встреча в Минфине с разработчиками по теме открытых данных — 16 июня

Время на прочтение1 мин
Просмотры5.4K
Друзья, 16 июня мы организуем очередную встречу коллег из Минфина России публикующих открытые данные с разработчиками кто уже использует или планирует использовать эти данные.

Будут интересные доклады и возможность спросить у сотрудников Минфина России о том какие новые открытые данные публикуются и как лучше публиковать те что уже публикуют.

Обсуждать будем:
  • то как Минфин России публикует данные и что может опубликовать в будущем
  • конкурсы для разработчиков вроде ранее прошедшего BudgetApps
  • исторические данные такие как данные по бюджетам Российской Империи и СССР с 1865 по 1991 годы

От себя могу сказать что на сегодня Минфин — это единственное ведомство проводящее такие встречи на регулярной основе.

Поскольку в самом ведомстве паспортная система прошу всех зарегистрироваться на сайте мероприятия и приходить с паспортом.
Читать дальше →

Маленькие хитрости сбора паспортных данных

Время на прочтение5 мин
Просмотры59K
Хочу поделиться своим опытом, приобретённым при разработке и сопровождении информационной системы учёта физических лиц в одной организации. Масштаб — несколько десятков тысяч реальных людей. Разумеется, производился сбор в том числе и паспортных данных. Как это часто бывает, исчерпывающего ТЗ сформулировано не было и некоторые вещи пришлось доделывать в процессе. О тонкостях учёта физлиц для программистов, впервые сталкивающихся с такой задачей, я и хотел бы рассказать. В статье будут затронуты только вопросы ФИО, гражданства и документов, удостоверяющих личность. Материал получился несколько сумбурным в связи с тем, что содержит только личный опыт без пересказа общеизвестных фактов и цитирования официальных документов.
Итак, поехали

Технологии Semantic Web

Время на прочтение2 мин
Просмотры30K
Semantic Web (он же Web of Data, Linked Data, Linking Open Data) — это направление развития Всемирной паутины, позволяющее машинам не только отображать информацию в интернете, но и понимать ее смысл.

Смотреть первые две части

Трехмерные фигуры Сома как идея для детского конструктора

Время на прочтение2 мин
Просмотры17K
В прошлой публикации мы рассмотрели новый замок для кубиков из нашего конструктора. Очередное применение кубикам правильной формы мы нашли для построения фигур Сома. Все было как всегда: кто-то сказал, что это было идеально, а мы полезли в интернет и поняли, что это не просто идеально, а, практически, единственное правильное решение использовать для этого конструктор открытого проекта Куботроник. Более того, покупные решения обходятся не дешевле. Но обо всем по порядку.

Идеально, т.к. после соединения кубиков для получения нужных блоков НИЧЕГО не выступает.



После беглого ознакомления с источниками в интернете мы попали на официальную страницу кубиков Сома, по версии Википедии. В других источниках, в том числе, в книге Гарднер Мартин «МАТЕМАТИЧЕСКИЕ ГОЛОВОЛОМКИ И РАЗВЛЕЧЕНИЯ» 1971 года, были даны подробное обоснование уникальности предложенной концепции и примеры решений.
Читать дальше →

Граф жизни сайта, или визуализация связи между страницами

Время на прочтение4 мин
Просмотры14K
Когда я начал работать над виджетом рекомендаций aka «Читайте также», я даже не подозревал о том, что данные, полученные для формирования рекомендаций могут быть не менее полезны, чем сами рекомендации. Собственно, этими данными я и хочу сегодня с вами поделиться в топике. Из них вы можете почерпнуть интересные знания о специфике посещаемости разных сайтов. Под катом вас ждёт geek porn краткий экскурс с описанием, как эти данные формируются, разбор графов нескольких типовых подопытных, а также бонус 18+.

Для подогрева интереса вот вам картинка одного из подопытных:

Читать дальше →

Ближайшие события

Замок для конструктора

Время на прочтение2 мин
Просмотры16K
Экспериментируя с кубиками и получая отзывы от тех, кто напечатал и что-то построил уже из наших кубиков (наши — это кубики, которые печатаются без поддержек на обычном 3D принтере), была выявлена проблема, зависящая как от конструкции сооружения, так и от свойств пластика.

Проблема заключалась в том, что замок, этот выступ, который печатается сверху и используется для соединения кубиков между собой, после 20-30 неловких движений иногда ломался. Особенно если разъединять кубики не строго по оси замка.

image

Решение пришло после перебора вариантов и понимания того, что кубиков с отломанными лепестками у замков уже много.
Читать дальше →

Победитель конкурса — «Куботроник»

Время на прочтение1 мин
Просмотры9.8K
В прошлой публикации мы предложили хабровчанам придумать название для открытого проекта — конструктора из кубиков, напечатанных на 3D принтере.

image

Победитель выбран!
Читать дальше →

Открытая бухгалтерия в Министерстве образования и науки Украины

Время на прочтение2 мин
Просмотры30K
В 2009 Тим Бернерс-Ли в своем выступлении на TED говорил об открытых данных и будущем интернета. На 10 минуте он вместе с залом скандирует «Raw data, now!» (сырые данные, сейчас же). Рекомендую всем, кто этого еще не сделал, посмотреть это выступление.



21 февраля 2014 года студенты заняли здание Министерства образование и науки Украины с требованиями перемен. Вместе с политическими требованиями, они выдвинули требования открытой бухгалтерии. Уже 24 марта новый министр подписал указ №85-а о ежедневной публикации всех бухгалтерских проводок за день на сайте министерства. Само по себе открытие данных не должно было занять время, но оказалось, что в МОН фактически не было учетной системы, и, например, главная книга велась на бумаге.

Сегодня данные доступны на сайте министерства (UPD: спасибо за новую ссылку sad. Дамп можно скачать по ссылке), а под катом короткая инструкция как обрабатывать данные, кабель на миллион гривен (около 50 тыс. долларов), и почему пока открытая бухгалтерия не так эффективна.
Читать дальше →

Ищем название для открытого проекта

Время на прочтение1 мин
Просмотры11K
Мастер КИТ объявляет конкурс на название открытого проекта по созданию детского конструктора, который совместит обучение 3D моделированию и изучение электроники.

Сразу оговоримся, что проект не планируется коммерциализировать с нашей стороны. Мы опубликуем расчетные выкладки по геометрии соединения и 3D модели.

Первые шаги уже сделаны (готовы модели двух модулей), но нам нужны идеи по дальнейшему развитию проекта: название, модули и т.п.

image
Читать дальше →

Открытый доступ к результатам научных исследований

Время на прочтение2 мин
Просмотры18K

Ребята из Киберленинки запустили отличную инциативу на РОИ, которая предполагает введение тотального открытого доступа для всех (финансируемых государством) результатов научных исследований в РФ.

Открытый доступ к результатам научных исследований и введение открытых лицензий на них позволит нам повысить прозрачность науки, сократить нерациональные затраты, избавиться от финансирования дублирующих исследований и двойного финансирования.

Открытый доступ способствует развитию сервисов, основанных на научных данных, в том числе коммерческих (аналогов ORCID, DOI, сервисов построения и анализа фронтов науки, экспертных систем, систем распознавания плагиата, баз знаний, наукометрических и аналитических сервисов, мобильных приложений и др.).
Узнать зачем еще это надо

Геолокация без GPS (часть 1)

Время на прочтение2 мин
Просмотры61K
wifi
Представляю публичную базу геопозиций телефонных вышек и Wi-Fi роутеров. Мне понадобилась стабильная и безлимитная база для приложения Android, в котором нужна была точная геолокация из всех доступных источников (GPS, Wi-Fi, Mobile). Пришлось создать базу данных положений сотовых вышек и Wi-Fi. Всех заинтересовавшихся прошу под кат.
Читать дальше →

Сериал: Big Data — как мечта. Незапланированная 5-я серия: Большая игра. Частное мнение

Время на прочтение4 мин
Просмотры12K
В предыдущих сериях: Big Data — это не просто много данных. Big Data — процесс с положительной обратной связью. «Кнопка Обамы» как воплощение rtBD&A. Философия развития Big Data.

11 апреля Twitter объявил о прекращении контракта с DataSift. Казалось бы, ну и что? Фактически это означает начало Большой Игры, результаты которой можно сравнить с III Мировой. Звучит жутковато? Давайте расставим фигуры на доске и посмотрим.
Читать дальше →