Обновить
72.44

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Сим-сим, откройся! — Как мы запустили проект «Открытые данные»

Время на прочтение6 мин
Количество просмотров3.5K

Всем привет! Меня зовут Сергей Фолимонов, в ДомКлик я отвечаю за direct marketing и коммуникации с клиентами. С недавних пор я выступаю еще в роли PO проекта «Открытые данные», и хочу рассказать об истории создания этого продукта, сделав акцент на проблемах, с которыми нам пришлось столкнуться, на ошибках, которые были нами допущены, и на итоговом результате и вариантах его использования.
Читать дальше →

Парсинг сайта Умного Голосования и новый API на сайте ЦИК

Время на прочтение21 мин
Количество просмотров25K
image

13 сентября 2020 года в России прошёл единый день голосования. В некоторых регионах оппозицией была применена стратегия «Умного Голосования», заключающаяся в том, что оппозиционно настроенные избиратели голосуют за единого кандидата, имеющего наивысшие шансы победить представителя от властей.

Процесс отбора кандидатов для «Умного Голосования» уже второй год вызывает дискуссии на тему своей прозрачности. Кроме того, лично меня смущают сложности с подведением итогов стратегии, с которыми могут столкнуться независимые аналитики. Организаторы УмГ не публикуют подробные итоги стратегии, а лишь диаграммы, демонстрирующие сколько оппозиционных кандидатов прошло в региональный парламент.

На сайте «Умного Голосования» нельзя получить список поддержанных кандидатов, указав, например, город и округ. Если кто-то захочет собрать данные по региону, ему предстоит монотонная работа по подбору адресов для каждого округа.

Ни в коем случае не упрекаю разработчиков сайта УмГ, он имеет весь требуемый функционал для реализации стратегии голосования. Но в связи с тем, что в 2019 году никто не занимался сбором и публикацией подробных данных по итогам УмГ (вне московских выборов), на этих выборах я решил взять инициативу в свои руки.

В итоге получилась вот такая сводная таблица. В данной статье я расскажу, как был получен приведённый набор данных, как собиралась информация с сайтов Умного Голосования и нового веб-сервиса ЦИК.

image
Читать дальше →

Преступления на почве расизма в США: статистический анализ

Время на прочтение16 мин
Количество просмотров11K
После моей недавней статьи (части 1, 2, 3) о криминале и полицейской стрельбе в США и их связи с расовой принадлежностью я решил продолжить эту тему и в таком же ключе проанализировать другие открытые данные — благо, таких еще достаточно благодаря программе криминальной отчетности ФБР.

Сегодня будем исследовать данные по преступлениям, совершенным на почве нетерпимости. Сначала посмотрим на всю статистику целиком, а затем подробно рассмотрим именно расовую нетерпимость и конкретно преступления, совершаемые белыми и черными на почве вражды к белым и черным.
Читать дальше →

Информационная среда на принципах Open Data

Время на прочтение6 мин
Количество просмотров1.8K


Предлагаемая информационная среда является своего рода децентрализованной социальной сетью. Но в отличии от многих существующих решений — данная среда имеет ряд полезных свойств помимо децентрализации и создана на базе достаточно простых и стандартных технических решений (email, json, текстовые файлы и немного блокчейна). Что позволяет любому желающему с базовыми знаниями программирования создавать свои сервисы для данной среды.
Читать дальше →

«На благо нашего общего будущего». Creative Commons возглавила Кэтрин Стилер, бывший евродепутат и CEO OKF

Время на прочтение4 мин
Количество просмотров1.4K
Бывший евродепутат, ректор Сент-Эндрюсского университета и глава Open Knowledge Foundation Кэтрин Стилер заняла должность CEO в организации Creative Commons. Как MEP она занималась вопросами цифровой политики, цифрового рынка, защитой данных пользователей и реформой авторских прав.
Для меня большая честь присоединиться к CC в канун 20-летия организации.

На протяжении почти двух десятилетий CC работала, чтобы сделать мир более открытым и сбалансированным.

Когда CC начинала свою деятельность в 2001 году, я тогда только недавно была избрана членом Европарламента. Это было время, когда вопросы авторского права и доступа к информации начинали привлекать внимание общественности.

На протяжении 20 лет работы депутатом я непосредственно представляла более 5 миллионов человек в Шотландии и добивалась изменений для более, чем 500 миллионов жителей ЕС, занимаясь решением вопросов цифровой политики, таких как реформа авторского права, защита неприкосновенности частной жизни граждан, защита их данных, а также обеспечение доступа широкой публики к цифровым инструментам.

Сегодня мы оказались в совершенно ином мире. И когда я пытаюсь представить будущее, я чувствую, что работа CC никогда не была так важна.

У нас есть возможность играть ведущую роль в глобальной борьбе за устранение препятствий на пути распространения знаний и творчества.

Особенно это важно из-за возникших перед нами проблем, ведь пандемия коронавируса по-прежнему приводит к человеческим и экономическим потерям по всему земному шару.

Усиливается неравенство, и несправедливость становится ещё более очевидной.

Трагическое убийство Джорджа Флойда вызвало глобальное движение Black Lives Matter, а в ряде стран прошли продемократические акции протеста, в том числе недавно протесты состоялись в Беларуси.

СС выражает солидарность с теми, кто попал в беду, кто протестует против несправедливости, с теми, кто по всему миру борется за законность, представительство своих интересов и равноправие.
Читать дальше →

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 3

Время на прочтение25 мин
Количество просмотров17K

Продолжаем наше исследование, посвященное ситуации в США со стрельбой полицейских и уровнем преступности среди представителей белой и черной (афроамериканской) рас. Напомню, что в первой части я рассказал о предпосылках исследования, его целях и принятых оговорках / допущениях; а во второй части была демонстрация анализа взаимосвязи между расовой принадлежностью, преступностью и гибелью от рук служб правопорядка. В этот раз посмотрим на географическое распределение анализируемых данных по штатам США.

Читать далее

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 2

Время на прочтение15 мин
Количество просмотров33K

В первой части статьи я описал предпосылки для исследования, его цели, допущения, исходные данные и инструменты. Сейчас можно без дальнейших разглагольствований сказать гагаринское...

Поехали!

Black [O]lives Matter: раса, криминал и огонь на поражение в США. Часть 1

Время на прочтение9 мин
Количество просмотров17K

Действительно ли полицейские в США стреляют больше в чернокожих, чем в представителей других рас? Связано ли применение силы полицией с расой? Связана ли криминальность с расой? Какова вероятность быть застреленным полицейским в США, если ты белый и если ты чернокожий? Вооружимся открытыми данными, python, pandas и постараемся пролить чуть-чуть света, отставив в сторону пропаганду и политику.

Мне любопытно

Картирование цифровых прав, часть II. Право на доступ к информации

Время на прочтение6 мин
Количество просмотров1.6K

TL;DR: Эксперты делятся видением проблем в России, связанными с цифровым правом на доступ к информации.

12 и 13 сентября Теплица социальных технологий и РосКомСвобода проводят хакатон по цифровому гражданству и цифровым правам demhack.ru. В преддверии мероприятия организаторы публикуют вторую статью, посвященную картированию проблемного поля цифровых прав для того, чтобы вы смогли найти для себя интересный вызов. Первую статью по праву на публикацию цифровых произведений можно найти здесь.

Читать далее

Как найти количество всех букв на всех знаках вида «въезд в город Х» в стране? Точный способ ответить на такие вопросы

Время на прочтение7 мин
Количество просмотров4.5K
Недавно в рамках одного собеседования мне понадобилось решить задачу, условие которой приведено ниже:
У лучшего в мире управляющего по имени Пенультимо родилась очередная гениальнейшая идея, peализовать которую вам и предстоит. Он верит, что поток туристов на Исла-де-Эдукадос повысится, если он сможет рассказать всему миру, как же много замечательных дорожных знаков с длинными надписями eсть у них на острове. Вам предлагается придумать алгоритм, позволяющий подсчитать суммарное количество букв на всех знаках «Въезд в город Х» на острове, а затем применить полученные знания для подсчёта аналогичной метрики для Республики Беларусь. Обратите внимание язык, используемый для обозначения населённых пунктов, а также тот факт, что въездов в город может быть несколько. Пенультимо также приветствует инициативность, так что можете исследовать этот вопрос для отдельных областей, провести сравнение с количеством людей, проживающих в области, а также провести любые другие исследования, которые покажутся Вам интересными.

Под катом покажу точное решение этой и других похожих задач, например: «Сколько АЗС находится в пределах Москвы?»
Читать дальше →

Аномалии голосования по поправкам к Конституции России. Часть 2

Время на прочтение13 мин
Количество просмотров29K

Сcылка на первую часть


Основная цель второй части — это детально исследовать феномен массового рисования (выдумывания) результатов голосования на конкретных примерах.


Как и в первой части, все вычисления, визуализации и парсинг данных приведены в Google Colab, который доступен по этой ссылке Google Colab.


Читать дальше →

Открытые и персональные данные. Анализ кейса «утечки данных» с Авито

Время на прочтение5 мин
Количество просмотров9.3K


Две недели назад, на форумах обнаружили базы данных 600 тысяч клиентов сервисов Avito и Юла, среди которых фигурируют реальные адреса и номера телефонов. Базы до сих пор размещены в свободном доступе, их может скачать любой желающий. А представьте сколько человек уже скачало базу с умыслом разослать спам или, что еще хуже, выманить данные платежных карт пользователей. Администрация форумов не удаляет базы, так как
Читать дальше →

Мои пожелания к СУБД будущего, а также к Росреестру в части транзакционности

Время на прочтение4 мин
Количество просмотров3.2K

Клиент взаимодействует с базой данных.
С сайта http://corchaosis.ru, автор картины Jonathan Tiong.

Помимо того, что я являюсь программистом (преимущественно, это Delphi + всякие разные СУБД, в последнее время ОРАКЛ, + немного PHP), у меня есть хобби — это купля и продажа квартир. Я покупаю квартиру на этапе строительства от более менее надёжного застройщика по вкусной цене (например, сейчас таким застройщиком является Самолёт, квартиры возле м. Некрасовка продаются), дожидаюсь сдачи дома (часто на два года позже, с недорогими предложениями такое случается), делаю в ней ремонт и затем продаю за 95-100% её рыночной цены.

Так вот, я (как и все) столкнулся с проблемой отсутствия у РосРеестра транзакционности.

Проблема отсутствия у Росреестра транзакционности сделок

В программировании «Транзакция», а в недвижимости это «Сделка с альтернативой» (а также, как её часть, «Договор о банковской ячейке»), и там всё немного более сложно. Рассказываю.

Вася пришёл на просмотр квартиры, которую продаёт Петя. И Васе всё очень понравилось, в том числе и цена, но у Васи денег нет. Так начинается наша история.
Читать дальше →

Ближайшие события

Коронавирус: первые итоги пандемии и карантина

Время на прочтение9 мин
Количество просмотров160K
The Economist: Десятки миллионов хирургических операций были отложены в связи с пандемией во всём мире. Больницам потребуется несколько месяцев, чтобы справиться с накопившимся отставанием. Национальная служба здравоохранения Англии (NHS) считает, что она уже отложила более двух миллионов запланированных операций, освободив 12 000 коек для пациентов c COVID-19.

The Hill: По оценкам Национального института аллергии и инфекционных заболеваний США из-за карантина почти половина от 650 000 американских онкологических больных не получают лечение, не назначаются две трети процедур физиотерапии, количество операций по трансплантации сократилось на 85%, экстренные оценки случаев инсульта снизились на 40% и более половины детей не были вовремя привиты, что всё вместе указывает на массовую будущую катастрофу в области здравоохранения.

Mirror: Последствия блокировки коронавируса могут привести к 200 000 дополнительных смертей в Великобритании из-за задержек и неправильного распределения приоритетов в системе здравоохранения, говорится в государственном докладе. За шесть месяцев было отменено 75% процедур по плановой медицинской помощи, а число госпитализаций в марте и апреле сократилось на четверть по сравнению с предыдущим периодом. На момент публикации статьи в Mirror в Великобритании зарегистрировано 45 000 смертей среди людей с положительным тестом на коронавирус.

The Telegraph: ЮНИСЕФ предупреждает, что карантин может унести больше жизней, чем коронавирус, а именно повлечь за собой свыше миллиона детских смертей от малярии, пневмонии и диареи в развивающихся странах в ближайшиее шесть месяцев. Только это значение в разы превышает официальное количество смертей во всём мире среди людей с положительным тестом на COVID-19 с начала пандемии.
Читать дальше →

Аномалии голосования по поправкам к Конституции России. Часть 1

Время на прочтение5 мин
Количество просмотров68K

Общероссийское голосование по вопросу одобрения изменений, вносимых в Конституцию Российской Федерации, проводилось с 25 июня по 1 июля 2020 года (wikipedia).


Основная цель данной заметки — это продемонстрировать как можно быстро начать работать с данными голосования и показать наличие определенного вида аномалий в них.


Все вычисления, визуализации и парсинг данных приведены в Google Colab, который доступен по этой ссылке Google Colab.

Читать дальше →

Ресурсы для получения датасетов изображений, о которых вы могли не знать

Время на прочтение5 мин
Количество просмотров9.6K

Привет, Хабр! Как известно, топливом для машинного обучения являются наборы данных. В качестве источников для получения датасетов, которыми люди обычно пользуются и которые у всех на слуху, являются такие сайты как Kaggle, ImageNet, Google Dataset Search и Visual Genom, но довольно редко встречаю людей, которые для поиска данных используют такие сайты как Bing Image Search и Instagram. Поэтому в этой статье я покажу как легко получить данные с этих источников, написав две небольшие программы на Python.

Читать дальше

Где в России убивают больше всего? Анализ данных

Время на прочтение7 мин
Количество просмотров50K
Привет, Хабр.

Меня зовут Алексей Кнорре, и я криминолог, аспирант в UPenn и аффилированный научный сотрудник в ЕУСПб. Подумал, что сейчас, после месяцев карантина, самое время рассказать о преступности. Неясная экономическая ситуация, рост безработицы, ухудшение общественного здоровья — все это вызывает опасения в завтрашнем дне. Что будет с преступностью в России? Как криминолог, я использую статистические методы и программирование для того, чтобы эмпирически исследовать преступность, поэтому я постоянно работаю с данными, о которых сегодня и хотел бы рассказать доступным языком. На Хабре было всего два поста по тегу «криминология», поэтому надеюсь, мой рассказ будет интересным.

Кто-то из вас мог видеть в прошлом году рейтинг безопасности городов России. Как собирали данные о безопасности: вроде бы был опрос жителей, но сколько человек опросили? Не было ли в выборке систематических смещений, как если бы опрашивали только жителей больших многоквартирных домов? Насколько вообще люди могут точно сказать, что в их городе в целом безопасно? Безопасно по сравнению с чем, и как эту безопасность измерить? А вдруг анкетный опрос отражает больше общественные настроения, нежели реальную преступность — вероятность случайного нападения на улице, грабежа или кражи?

В науке преступность измеряют разными способами. Два года назад мы с коллегами, например, провели первый в России репрезентативный виктимизационный опрос, обзвонив 16 тыс. человек. Данные мы открыли для общего пользования. Основной вывод — уровень реальной преступности где-то в 8 раз выше регистрируемой правоохранительными органами. Вот визуализация процесса от Марии Бублик и Натальи Тогановой, вошедшая в шорт-лист премии Information is Beautiful — 2019.


Читать дальше →

Кто покупает данные о пользователях в США и за сколько? Взгляд на перспективы рынка в России

Время на прочтение6 мин
Количество просмотров2.3K

В конце мая один из самых крупных в мире независимых агрегаторов и продавцов данных, публичный американский Liveramp отчитался о своём бизнесе в мае. Сейчас на американской бирже они стоят 3 миллиарда долларов (для сравнения, весь Мейл.ру стоит на лондонской бирже 3.6 миллиарда). В их отчёте можно понять, кто и почём покупает данные у лидера рынка. Компания работает во всём мире, включая Китай.


Меня зовут Роман Нестер, я в 2012 с партнёрами основал стартап Segmento, а в 2018 продал его Сбербанку и "Системе". Сейчас я курирую магистратуру ВШЭ, которая учит data-driven маркетинговых и продакт-менеджеров. Я стараюсь внимательно следить за тем, что происходит в рынке данных в мире.

Читать дальше →

Core Expansion community detection algorithm (обзор статьи + код на GitHub)

Время на прочтение15 мин
Количество просмотров5.8K

Предлагается вниманию пересказ статьи Core expansion: a new community detection algorithm based on neighborhood overlap, вышедшей в журнале Social Network Analysis and Mining, номер 10, 30, (2020) с нашими комментариями. В этой статье описывается новый алгоритм для выделения сообществ в графе, основанный на Jaccard index.



Заявленными преимуществами алгоритма являются детерминированность и более крупные выделяемые сообщества при хорошей скорости работы. К сожалению, нам не удалось найти авторскую реализацию данного алгоритма, но мы с коллегами не отчаялись и за выходные написали свою.


Наша имплементация написана на Java и доступна в GitHub под MIT-лицензией. Возможно использование как в качестве отдельного приложения командной строки, так и в качестве разделяемой Java-библиотеки.


В конце этой статьи мы расскажем, где и для каких целей мы анализируем графы в Райффайзенбанке.

Читать дальше →

Как мы создаем Сognitive Agro Data Factory — самый большой нейронный университет в мире

Время на прочтение10 мин
Количество просмотров10K
Я начну с революционного: когда мы внедряем Искусственные мозги C-Pilot в сельхозтехнику, мы немного уподобляемся Создателю. Мы Предмет превращаем в думающее и анализирующее Существо, то есть комбайн с Cognitive Agro Pilot начинает видеть и понимать, что происходит вокруг, а также принимать решения по дальнейшим действиям в рамках той производственной задачи, которая перед ним стоит. В каком-то смысле идет создание нового социального слоя тружеников села — слой агроботов с Искусственным Интеллектом C-Pilot, которые обдумывают и решают поставленные человеком агрозадачи.

По сути это зарождающийся слой существ, который надо массово и правильно учить. У человечества были тысячелетия на развитие эволюционного слоя сознания, у роботов это — месяцы. Но для этого надо создать необходимую среду, масштабную фабрику по обучению Искусственных мозгов и подготовки информации для них. В этой статье мы приоткроем тайны Cognitive Data Factory: комбайнa для сбора и переработки данных для агроотрасли.

То по каким учебникам и с какими учителями учатся Ваши дети имеет определяющее значение в их развитии и будущей карьере. Так и в автомотив отрасли — качественные данные и их правильная разметка имеют первостепенное значение для создателей ИИ для беспилотного транспорта и других высокоавтоматизированных систем управления. Cognitive Pilot учится через нашу уникальную Data Factory. Как это устроено внутри?