Обновить
25.24

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Открытые данные. Роскосмос. Догоним Америку

Время на прочтение3 мин
Охват и читатели31K
Если спросить сегодня российского школьника или студента о том, что он знает об истории космонавтики, то уверен, ничего кроме имени Юрия Гагарина мы не услышим. Несколько человек, вполне возможно, вспомнят о Королеве, Международной космической станции или произнесут «Поехали» и «Мы первые!», и на этом все, знания закончатся.
Читать дальше →

Математическое расследование, как подделывали выборы губернатора в Приморье 16 сентября 2018 года

Время на прочтение19 мин
Охват и читатели98K
Во втором туре выборов губернатора Приморского края 16 сентября 2018 года встречались действующий и.о. губернатора Андрей Тарасенко и занявший второе место в первом туре коммунист Андрей Ищенко. В ходе подсчета голосов на сайте ЦИК РФ отображалась информационная панель с растущим числом обработанных протоколов и голосов за кандидатов.

Публикация подробных данных по участкам на официальном сайте ЦИК www.izbirkom.ru замерла после ввода 1484 (95.74%) протоколов и не возобновлялась до самого конца. Поэтому когда в трансляции лидер голосования вдруг поменялся с Ищенко на Тарасенко, было неясно, как именно это могло произойти. В СМИ просто писали «после обработки 99,03% протоколов лидер сменился».

Однако, располагая промежуточными суммарными данными из информационной панели, с помощью простой математики и программирования можно подробно установить, что именно происходило с протоколами в ночь после выборов. Используем Python, Colab от Google и Z3 theorem prover от Microsoft Research. Ну и добьём всё обычной дедукцией.


И что же там можно расследовать?

В Италии началась Open Source революция

Время на прочтение4 мин
Охват и читатели66K

Государственные учреждения страны теперь должны делать общедоступным весь разработанный для них код


Оригинальный пост на английском опубликован представителем итальянской государственной команды по цифровизации (Italian Government Digital Transformation Team) — прим. перев.


«Свобода, ведущая народ»


Цифровизация Италии достигла Рубикона. Вступивший в силу закон гласит, что государственные учреждения должны стараться использовать программное обеспечение с открытым исходным кодом в первую очередь, а также публиковать всё разработанное для них ПО как Open Source. На практике реализация закона закреплена в наборе обязательных принципов.


Следуя этим гайдлайнам гос. учреждения могут (и должны) опубликовать всё ПО, приобретённое ранее и приобретаемое с этого момента, на Developers Italia.

Мы впервые упомянули эти правила в 2018 году в статье «Открытое программное обеспечение и государство: онлайн-рекомендации по приобретению и повторному использованию ПО», в которой было анонсировано начало публичных консультаций. В течение этого периода нам прислали много ценных комментариев, которыми гайдлайны были дополнены. Это чётко показало, что пришло время окончательно принять парадигму Open Source.


Спустя несколько месяцев, после одобрения Объединённой конференцией и Европейской комиссией, процесс принятия был завершён, а гайдлайны опубликованы в Official Journal (такая публикация является условием вступления закона в силу — прим. перев.).

Читать дальше →

Карта ДТП

Время на прочтение5 мин
Охват и читатели63K
image

Расскажу вам о проекте “Карта ДТП” – интерактивной карте аварий в России. Карта упрощает анализ ДТП и помогает найти реальные причины происшествий. Как пришла идея, где брали данные и зачем открыли исходный код.

За 2018 год в ДТП на дорогах России погибли 19088 человек


Читать дальше →

База данных штрихкодов скачать бесплатно без регистрации (и прочей хурмы)

Время на прочтение5 мин
Охват и читатели93K
Добрый день. В открытом доступе наконец-то появился огромный справочник штрихкодов с наименованиями товаров, категориями и брендами.

Мы работаем над ним лет 8 и теперь в нем около 3 миллионов штрихкодов в стандартах EAN (EAN-13, EAN-8) и UPC (UPC-A, UPC-E).
Читать дальше →

Самая нужная программа на свете

Время на прочтение20 мин
Охват и читатели171K
image
Какими программами постоянно пользуются люди? Если подумать над этим вопросом, то окажется, что список этот не такой уж большой. К постоянно используемым программам можно отнести: саму операционную систему, файловый менеджер, текстовый редактор, браузер, мессенджер. Это именно тот базовый набор, которым пользуется на компьютере практически каждый человек. Требования к таким программам должны быть высокими: безотказная работа, быстрое выполнение всех функций, понятный и удобный интерфейс.

Можно сказать, что вышеперечисленный набор программ — это самые нужные программы, которыми пользуется человек в цифровую эпоху. Этот список покрывает все базовые потребности человека-пользователя. Или не все? Есть ли еще одна базовая потребность, которая не учтена в вышеприведенном списке самых необходимых программ? Является ли эта потребность самой важной из тех, что должен автоматизировать компьютер? Для меня такая потребность есть, но в списке самых используемых программ ей места не нашлось. Что же это за потребность?
Ранее компьютер считался устройством для проведения вычислений...

Найди коррупционера. Анализ данных чиновников из проектов Канцелярской сотни (с примерами на R)

Время на прочтение13 мин
Охват и читатели77K
Как определить чиновников, наиболее подозрительных с точки зрения коррупции? Проще всего — сравнив их доходы и уровень жизни.

В этой статье я хочу показать возможности сайтов с открытой информацией о чиновниках, посмотреть на то, как эти чиновники живут и попытаться определить тех, кто наиболее подозрителен с точки зрения коррупции.

Почему открытая информация о доходах чиновников важна? Потому что это позволяет их контролировать.

image
Фото из инстаграмма дочери бывшего руководителя ГАИ Украины Александра Ершова. На фото дочь Ершова в Каннах рядом с Пэрис Хилтон. В результате скандала из-за несоответствия задекларированных доходов и образа жизни семьи Ершов подал в отставку.
Читать дальше →

Истинные причины блокировок сайтов. Исследование по открытым данным

Время на прочтение4 мин
Охват и читатели121K
капитан очевидность
Около двух лет назад государство взяло курс на активное вмешательство в интернет-пространство и его регулирование. Самое время подвести итоги постепенного усиления цензуры в интернете.

Если вы помните, летом 2012 года Госдума внезапно приняла поправки в 139-ФЗ «о защите детей от вредной информации».Это объяснялось необходимостью защитить наших детишек от педофилов и наркоманов, а также от тех, кто их склоняет к совершению самоубийств. Закон, конечно, содержал гарнир в виде маркировки продукции для детей знаками 18+ и т.п., но вот мясцо этих поправок было в виде механизма цензуры посредством блокировки сайтов.

В этом мини-исследовании я выступлю как капитан очевидность и покажу то, что все и так знали, только для большей убедительности приведу ряд объективных показателей. Так что теперь можно будет оперировать и конкретными цифрами!

Итак, давайте посмотрим, действительно ли введение цензуры было продиктовано необходимостью защиты наших детей.
Читать дальше →

Спасем крупнейшую медиатеку в рунете. Вся база rutracker у Вас на компьютере

Время на прочтение10 мин
Охват и читатели196K
image

В контексте последних законов, событий и тенденций как никогда очевидна ценность рутрекера как базы данных различного контента, а не как конкретного ресурса. К сожалению все мои призывы к администрации рутрекера предоставить общедоступный, полный, удобный дамп их базы наткнулся на полное непонимание с их стороны. Выкладывать нечто, что они называют зашифрованной «базой» — я не считаю решением проблемы по причинам, изложенным в вышеприведенных ветках обсуждения и продублированным ниже.

К сожалению, решить проблему своими силами у меня не хватило ни времени, ни, будем откровенны, знаний. Но, к счастью, мои слова возымели действие на людей, которые и тем и другим обладают. В итоге эти люди организовались и сообща сделали то, о чём так долго говорили большевики о чем я писал, а именно с помощью скриптов обошли рутрекер, сдампили все описания раздач с хешами, распарсили их и скомпоновали в удобную для употребления базу. В дополнение к этому так же была написана «морда»: программа для удобной работы с базой конечных пользователей, не знающих с какого конца держат grep. К сожалению, аккаунта на хабре никто из этой команды не имеет (если не считать read-only), в песочнице статья могла бы потеряться, поэтому меня выбрали как рупор для данной площадки. Я, честно говоря, раздумывал совсем недолго и только над тем, как правильнее все сделать. Если будут какие-то вопросы — задавайте мне в комментах, я либо отвечу сам, либо переадресую разработчикам. Технические тексты от первого лица, но я имею к ним косвенное отношение, они оставлены в таком виде для простоты восприятия.

Прежде, чем перейти к технической части и ссылкам, хотел бы добавить, что весь смысл этой затеи в том, чтобы как можно больше людей сохранили эту базу к себе. Поэтому очень Вас прошу, скачать данные по ссылкам ниже (желательно использовать торрент) и оставаться на раздаче как можно дольше. Скорее всего в будущем база будет обновляться, но этот момент еще не продуман до конца.

Техническая часть, ссылки и немного лирики
2