Как стать автором
Обновить
7.8

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Астрологи объявили неделю страданий. +3 Неочевидные сложности в работе с открытыми данными о госзакупках

Время на прочтение6 мин
Количество просмотров1.8K

Привет, Хабр.

Мы — Анастасия Карасева и Елена Веретённик, научные сотрудники Прикладного Центра МАСТ Европейского университета в Санкт-Петербурге, а этот текст — о боли работы с открытыми неагрегированными данными госзакупок. Мы сделали свой первый самостоятельный дата-проект на данных из xml контрактов по 44-ФЗ, которые доступны в российской единой информационной системе «Закупки». Эта история — о страданиях, возрождении и ряде небольших открытий, которые помогут начинающим дата-сайентистам легче и увереннее пройти похожий путь в открытых хранилищах данных.

ЕИС «Закупки» — база открытых данных, в которой размещается различная документация о закупках начиная с 2011 года: извещения, контракты и пр. Данные, как правило, хранятся в зазипованных xml на ftp сервере. Структура папок и документов строго регламентирована справочниками, альбомами и схемами. Но не всё так однозначно…

(Помимо ЕИС, открытые данные о госзакупках — уже структурированные и обработанные — можно найти на сайтах «Госзатраты» и «Госрасходы», но там представлены не все тэги из оригинальных xml-файлов. Далее мы будем использовать для сравнения обработанные версии контрактов с «Госзатрат».) 

Целью нашего проекта было исследование сверхурочной работы в госзакупках в разных регионах России, и нам лучше подходили открытые и необработанные данные: там была метка о времени (таймстамп). Эта метка создаётся автоматически и отражает действие специалиста по закупкам в режиме реального времени, а значит, может служить надёжным цифровым следом его работы. 

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии3

Что быстро проверить у контрагента, чтобы не нарваться на мошенника

Время на прочтение7 мин
Количество просмотров3.7K

Владельцы компаний знают: перед тем как подписывать договор, контрагента хорошо бы проверить. Иначе рискуешь отдать деньги мошеннику или банкроту. Только времени и сил на проверку часто не хватает. Рассказываем, что с этим делать.

Читать далее
Всего голосов 7: ↑5 и ↓2+3
Комментарии12

Визуализация и анализ зимних температур Алматы за последние сто лет на Streamlit

Время на прочтение7 мин
Количество просмотров3.9K

Как менялись зимние температуры в Алматы за сто лет, анализ на Streamlit.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии2

Работа с отсутствующими значениями в Pandas

Время на прочтение9 мин
Количество просмотров73K

Когда значение данных для объекта для определенного наблюдения не сохраняется, это означает, что эта функция имеет недостающее значение. Обычно отсутствующее значение в наборе данных отображается как вопросительный знак , ноль, NaN или просто пустая ячейка. Но как можно справиться с недостающими данными?

Конечно, каждая ситуация отличается и должна оцениваться по-разному. Есть много способов справиться с недостающими значениями. Рассмотрим типичные варианты на примере набора данных - 'Titanic'. Эти данные являются открытым набором данных Kaggle.

Для анализа необходимо импортировать библиотеки Python и загрузить данные.

Для загрузки используется метод Pandas - read.csv(). В скобках указывается путь к файлу в кавычках, чтобы Pandas считывал файл во фрейм данных (Dataframes - df) с этого адреса. Путь к файлу может быть URL адрес или вашим локальным адресом файла.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии10

Истории

Как вытянуть данные через официальный API ВК

Время на прочтение12 мин
Количество просмотров29K

API ВКонтакте используют не только для сбора статистики, но и для отложенного постинга, отправки сообщений. Мы с командой активно применяем его для автоматизации отчетности по SMM и таргету. Поэтому поговорим про сценарии использования, когда нужно получить статистику из ВКонтакте для обработки в других системах. Кратко расскажем, как в целом работает API, поделимся методами, которыми пользуемся сами. В конце пройдемся по сложностям, от которых зависит результат.

Читать далее
Рейтинг0
Комментарии1

«Тюрьма народов»: сколько, кто и за что сидит в США, России и Европе

Время на прочтение32 мин
Количество просмотров55K

Результат исследования данных из открытых источников по тюрьмам США, России и Европы. Статья расскажет вам о численности тюрем, заключённых, их распределению по возрасту, полу, совершённым преступлениям и о многом-многом другом... Каков процент наполнения тюрем в России и США? Каков уровень рецидивизма? За что сидит большинство заключённых? Сколько приходится заключённых на одного охранника? Сколько тратит правительство на уголовную систему?

Узнать ответы
Всего голосов 119: ↑89 и ↓30+59
Комментарии78

Небезопасная разработка в Github

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров5.6K

Статья является продолжением статьи: История утечки персональных данных через Github.

Сегодняшняя подборка:

1. Персданные, пароли, рабочие секреты, все в куче

2. Пасхалка с персональными данными в рабочем проекте

3. Креды для доступа в даркнет

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии7

История утечки персональных данных через Github

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров6.8K

История про одного нерадивого участника воркшопа от GeekBrains и, как он случайно слил персональные данные и иную конфиденциальную информацию.

Читать далее
Всего голосов 6: ↑4 и ↓2+2
Комментарии18

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

Время на прочтение14 мин
Количество просмотров7.8K

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные
Всего голосов 15: ↑14 и ↓1+13
Комментарии2

Пока, ФИАС! Рассказываем, как устроен адресный справочник ГАР

Время на прочтение10 мин
Количество просмотров81K

1 сентября 2021 года ФНС перестала обновлять свой адресный справочник в формате ФИАС. Относительно новый ГАР внезапно стал единственным государственным адресный реестром, доступным общественности. Рассказываем, что из себя представляет новый справочник и чем он отличается от ФИАС.

Читать далее
Всего голосов 25: ↑22 и ↓3+19
Комментарии18

Парсим NFT транзакции на OpenSea

Время на прочтение15 мин
Количество просмотров12K

Примерно раз в год у меня появляется неутолимая жажда накопать много данных и что-то с ними сделать. В этот раз мой выбор пал на маркетплейс NFT OpenSea. Меня осенило что блокчейн - это про открытые данные, а учитывая 1.2 миллиона транзакций в сети ETH каждый день - то это ещё и много данных, так что точно должно быть интересно.

В этом туториале я расскажу откуда можно достать данные о транзакциях блокчейна ETH, и как эти данные анализировать, в частности, как находить самые дорогие транзакции. И самое главное - бонус, небольшая игра в сыщиков в конце статьи.

Читать далее
Всего голосов 16: ↑11 и ↓5+6
Комментарии5

БДСМ с БД ПМО или как я работал с госданными

Время на прочтение14 мин
Количество просмотров11K

Росстат ежегодно публикует порядка 4 тысяч показателей государственной статистики. Они доступны всем без каких-либо ограничений по статусу, правам доступа и т.п. Но публикуя данные, Росстат прежде всего ориентируется на то, что пользователи будут работать с ними вручную (глазами и руками), хотя последние 20 лет, мягко говоря, это не совсем тренд.

Меня зовут Веденьков Максим, я работаю в ЦПУР (Центр перспективных управленческих решений), некоммерческой организации, которая проводит исследования на государственных данных с целью повышения информированности общества о происходящих в стране процессах. Также мы собираем, обогащаем и публикуем датасеты с государственными данными, как ранее опубликованными, так и теми, которые раньше не публиковались.

В этой статье хочу рассказать об одном из таких наборов данных. Большом, сложном, важном, но при этом доступном в крайне неудобном для исследователей формате — базе данных показателей муниципальных образований (БД ПМО).

Читать далее
Всего голосов 33: ↑32 и ↓1+31
Комментарии14

Google отменяет бесплатный тариф G Suite Legacy. Как много сайтов в Рунете затронет такое решение и что с этим делать?

Время на прочтение5 мин
Количество просмотров10K
image

В январе Google объявила об окончательном закрытии бесплатного тарифа G Suite Legacy. Для новых пользователей free-версия была недоступна еще с 2012 года, однако каждый, кто оформил подписку до этого времени, мог продолжать пользоваться популярной облачной платформой (с 2020 года — Google Workspace) бесплатно на специальных условиях. Теперь же Google отказалась и от этого варианта: компания предлагает «ранним» пользователям перейти до 1 мая 2022 года на один из четырех платных тарифов Google Workspace, в противном случае, этот выбор произойдет автоматически.

Как одному из пользователей бесплатного тарифа G Suite Legacy мне стало интересно узнать и проанализировать объём его пользователей в российском сегменте интернета. Забегая вперед: я пришел к выводу, что количество доменов G Suite в зоне .ru может достигать 36 тысяч. О ходе моего небольшого исследования и размышлениях, как на нас повлияет решение Google, читайте под катом.
Читать дальше →
Всего голосов 28: ↑28 и ↓0+28
Комментарии47

Ближайшие события

One day offer от ВСК
Дата16 – 17 мая
Время09:00 – 18:00
Место
Онлайн
Конференция «Я.Железо»
Дата18 мая
Время14:00 – 23:59
Место
МоскваОнлайн
Антиконференция X5 Future Night
Дата30 мая
Время11:00 – 23:00
Место
Онлайн
Конференция «IT IS CONF 2024»
Дата20 июня
Время09:00 – 19:00
Место
Екатеринбург
Summer Merge
Дата28 – 30 июня
Время11:00
Место
Ульяновская область

ЕГРЮЛ, доходы и расходы, налоги, количество сотрудников в XML и JSON бесплатно

Время на прочтение7 мин
Количество просмотров33K

Налоговая отдаёт данные ЕГРЮЛ  по организации в виде PDF. Посредники за автоматический доступ по API хотят денег. На многих сайтах часть данных закрыто, часть функций недоступны бесплатно, и полно рекламы. 

Особенно интересно, что на некоторых сайтах предоставляющих данные по API имеется логотип Сколково. Это такой высокотехнологический бизнес, наверное, открытые данные продавать.

Налоговая просит 150 000 рублей в год за доступ к данным ЕГРЮЛ в виде сваленных в архивы XML-файлов. У ФНС классный бизнес. Вы проявляйте должную осмотрительность при выборе поставщиков, но доступ к данным за деньги. Если вы хотите получить доступ и к реестру индивидуальных предпринимателей (ЕГРИП), то платите ещё 150 000 рублей в год. Согласитесь 300 000 рублей в год приличная сумма.

Остальные реестры данных у налоговой доступны бесплатно. Однако, без базы ЕГРЮЛ их вряд ли можно использовать. Самая частая операция в бизнесе подставить реквизиты из ЕГРЮЛ по ИНН.

Сформировалась целая отрасль, можно сказать, торговцев воздухом открытыми данными, создающих ВВП из воздуха как бухгалтеры, работающие руками там, где должны работать программы. Сколько компаний платит налоговой по 300 000р. в год?! Сколько программистов занято написанием одинаковых по функциям парсеров, которые переводят данные из XML налоговой в SQL и JSON?! Сколько серверов заняты под одинаковые функции?! Где добавочная стоимость? Все вроде при деле, а за чей счёт банкет?

Ну, ладно, “скандалить, критиковать каждый может”(с) как говорил бессмертный товарищ Райкин. “А что ты предлагаешь?” — резонно вы меня спросите. А я вам отвечу.

Читать далее
Всего голосов 164: ↑162 и ↓2+160
Комментарии139

Дефицита нет, менеджмент эффективен

Время на прочтение10 мин
Количество просмотров15K

Продавец предлагает дефицитный товар, безбожно накручивая цену, торгует из-под полы - сделка происходит на «сером рынке». И покупатель соглашается купить!

Эта статья является продолжением материала "Дефицита нет, платить не нужно".

Читать далее
Всего голосов 77: ↑56 и ↓21+35
Комментарии105

Преступность в США и России: сравнительный обзор

Время на прочтение11 мин
Количество просмотров123K

В предыдущем цикле статей я начал рассматривать открытые данные по преступности в США в разных контекстах (связь с расовой принадлежностью, преступления на почве нетерпимости, нападения на полицейских). Мне стало интересно сравнить преступность в США с ситуацией в нашей стране, благо эти данные тоже легко найти. Получилось познавательно. Интересно?

🎩🚬🔫 Да
Всего голосов 187: ↑157 и ↓30+127
Комментарии465

Ларри Лессиг о создании Creative Commons 20 лет назад: «Мы были лучше, чем казались. Раньше наша доброта не была видна»

Время на прочтение7 мин
Количество просмотров2.6K
Creative Commons была основана в штате Массачусетс 19 декабря 2001 года. Ещё в мае этого юбилейного года CC запустила фандрайзинговую кампанию, планируя серию интервью и мероприятий. Первые лицензии были опубликованы не в момент основания, а спустя год, поэтому праздник не заканчивается в этом году. 2022 год также будет юбилейным для CC. Её глава Кэтрин Стилер отметила, что CC — глобальное движение в 86 странах, а лицензии и юридические инструменты CC используются для распространения более, чем 2 миллиардов произведений.

В таком интервью один из основателей Лоуренс Лессиг вспомнил, что 20 лет назад весь мир спорил о двух переменах. Технологии дали возможность делиться контентом в больших масштабах, но законы были изменены так, чтобы всё больше контролировать доступ к контенту и его распространение. Обе стороны находились в состоянии «гонки вооружений». И многие люди боялись, что такой закон победит технологии в этой войне.

Как сказал Лессиг, некоторые из нас подумали, может ли быть что-то другое, кроме системы «все права сохранены». Мы могли бы попытаться создать схему «некоторые права сохранены». Лессиг задался вопросом: «вместо того, чтобы говорить «нет», можно ли сделать пометку „да, пожалуйста, возьми то, что я создал, и поделись с другими“?». Мы не хотели сказать музыкантам, что их работа должна быть бесплатной. Мы не хотели сказать режиссеру, что он не может продавать билеты. Мы не хотели никому грозить пальцем, мы просто хотели дать каждому возможность делать то, что человек хочет делать. Правда в том, что успехи CC не были достигнуты критикой других людей. Вместо этого CC просто дала лёгкую возможность делать правильные вещи, делать то, что автор считает правильным.

«Запуск» лицензий состоялся уже в Сан-Франциско 16 декабря 2002 года. К сотням собравшихся обратились сам Лессиг, Джон Перри Барлоу (автор Декларации независимости киберпространства) и, что необычно, Джек Валенти (лоббист от киноиндустрии).

Читать дальше →
Всего голосов 16: ↑15 и ↓1+14
Комментарии3

Научные знания по свободной лицензии. Генеральная конференция ЮНЕСКО утвердила документ об «открытой науке»

Время на прочтение2 мин
Количество просмотров2.3K
Некоммерческая организация Creative Commons (CC) горячо приветствует единогласное утверждение Рекомендации ЮНЕСКО по открытой науке (UNESCO Recommendation on Open Science) на 41-й Генеральной конференции ЮНЕСКО. Этот знаковый документ является важным шагом на пути к созданию мира, в котором обмен научными данными изначально будет открытым и инклюзивным.

Для CC большая честь быть частью глобального сообщества, которое разрабатывало, анализировало и пересматривало Рекомендацию. Мы твердо убеждены, что открытый доступ к знаниям является необходимым, хотя и недостаточным условием для решения больших комплексных проблем. Улучшенный обмен научными статьями, данными и научными образовательными ресурсами является необходимым условием для достижения прогресса в достижении Целей устойчивого развития ООН, глобальных вызовов, с которыми мы сталкиваемся сегодня.

Как показали пандемия COVID и изменение климата, существует серьезная необходимость ускорить прогресс в создании, обмене и распространении научных знаний. Рекомендации ЮНЕСКО по открытой науке и открытым образовательным ресурсам — это международные принципы, которыми могут руководствоваться правительства стран, спонсоры, образовательные учреждения, ученые, педагоги и организации гражданского общества, работая над созданием мира, в котором открытый доступ к знаниям является одним из основных прав человека.

Рекомендация устанавливает международный стандарт, определяющий понятия «открытая наука» и соответствующие правила и практики, направленные на улучшение обмена знаниями в мировом научном сообществе.
Читать дальше →
Всего голосов 12: ↑12 и ↓0+12
Комментарии16

Парсим ГАР БД ФИАС в удобный формат в питоне. Бесплатно, без регистрации и СМС

Время на прочтение8 мин
Количество просмотров27K

20160419_182146


Если вам зачем-то понадобилась полная адресная база России, то самый простой и дешевый способ ее заполучить — это скачать на сайте налоговой. Да, вот так вот просто все. Ну почти.


Да, это полная официальная адресная база России, просто в открытом доступе, никто ничего не спрашивает, просто раздают. Сделали на наши налоги, и честно всем, как скамейку в парке, отдают в пользование. Прекрасно? Да!


"В чем же подвох?", — спросите вы, прищурившись.


Кратко: формат ужасен, документация очень плоха и должного единообразия данных не наблюдается, чем успешно пользуются коммерческие компании, перепродающие бесплатные данные (иногда пылесосят имейлы). Но такую несправедливость можно исправить.

Читать дальше →
Всего голосов 29: ↑19 и ↓10+9
Комментарии25

Как работать с HR-данными: беседа с Андреа Дерлер

Время на прочтение4 мин
Количество просмотров914
image

Имея опыт исследований в области управления, науки и консультирования по вопросам человеческого капитала, Андреа Дерлер привносит свое увлечение человеческой динамикой в организации, чтобы возглавить наши исследования.
Читать дальше →
Всего голосов 6: ↑5 и ↓1+4
Комментарии0