Все потоки

Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

Codeup1054 15 мая 2018 в 14:12

Парсинг 0.5Tb xml за несколько часов. Поиск организаций в открытых данных реестра субъектов МСП ФНС

9 мин

13K

XML * Открытые данные *

Из песочницы

По роду деятельности (автоматизация процессов и разработка архитектуры информационных систем) часто приходится сталкиваться с необходимостью написать скрипт и получить результат «здесь и сейчас» для неожиданно «прилетевшей» задачи в ситуации, когда нет возможности оперативно привлечь внешних разработчиков.

Решению одной из таких задач будет посвящен обзор. В какой-то момент появилась необходимость проанализировать на основе открытых данных “Единого реестра субъектов малого и среднего предпринимательства” Федеральной налоговой службы (далее Реестр МСП) динамику по месяцам количества организаций определенного вида деятельности, а именно, сельхозпредприятий. Подходы, которые использовались при ее решении, надеюсь будут полезны тем, кто ищет варианты обработки больших структурированных массивов данных XML, но распространенные средства обработки такие как SelectFromXML, он-лайн XML обработчики по каким-то причинам не подходят. Либо ограничен функционал, либо возникают проблемы при работе с кириллической кодировкой, либо не обеспечивается необходимая производительность, либо ограничены ресурсы «железа». Программисты и профессионалы надеюсь не буду слишком строги к стилю кодирования и выбору способов реализации, а критика и советы в комментариях приветствуются.

Итак задача:

Читать дальше →

+11

avgaydashenko 10 мая 2018 в 11:04

AI.Hack Санкт-Петербург

4 мин

4.2K

Блог компании Образовательные проекты JetBrainsХакатоныОткрытые данные * Машинное обучение *

Привет, Хабр! В этом посте расскажу вам про один из самых классных хакатонов с DS-треком, проходившем недавно в Питере. Под катом — общий обзор, кейсы, которые мы решали, и, конечно, о том, как сразу обе команды АУ смогли стать победителями.

Читать дальше →

+5

k0shk 8 мая 2018 в 15:44

Совет по открытым данным: открытость Росреестра и Росимущества, итоги 2017 года и планы на будущее

7 мин

4.5K

Блог компании «Информационная культура»Открытые данные *

В конце апреля прошло очередное заседание Совета по открытым данным, повесткой которого была открытость Росреестра и Росимущества, подведение итогов деятельности Совета по открытым данным и планы на будущее.

Читать дальше →

+13

nike32 2 мая 2018 в 20:07

Как заставить государство открываться, ч.1: Качаем статистику ДТП своими руками

8 мин

37K

Python * Открытые данные *

Туториал

Если хорошо поискать, можно обнаружить довольно много полезной, приличного качества, государственной информации. Но к сожалению, это все еще не: ЕГЭ и образование, погода, картография, данные о преступлениях… и ДТП.

Поэтому у меня как бы две жизни: в одной помогаю чиновникам открывать данные, которые просят люди или организации, а в другой — пишу парсеры, которые превращают общедоступные базы особо «упрямых» госорганов в открытые данные и учу этому других, в надежде, что таких проектов станет много, государство смирится с неизбежным и все выложит в удобном нам виде.

Эта статья станет первым мануалом в серии «как получать машиночитаемые данные с госсайтов». Итак, сегодня — про статистику ДТП, а раз государство нам ее не дает, мы научимся забирать ее самостоятельно. По традиции, код и данные — прилагаются.

Читать дальше →

+50

Rebryk 1 мая 2018 в 19:59

Муниципальные мойры или Что влияет на карьеру чиновника

5 мин

9.8K

Блог компании Образовательные проекты JetBrainsМашинное обучение * Открытые данные * Хакатоны

Привет, Хабр! Как и было обещано в предыдущем посте про Why So Serious Hack, мы подготовили следующий рассказ в этой серии. В этот раз речь пойдет про хакатон «Муниципальные мойры», который проводился 21-22 апреля Европейским университетом в Санкт-Петербурге.

Читать дальше →

+14

Rebryk 23 апр 2018 в 16:41

Как мы участвовали в хакатоне от OpenData

5 мин

5.9K

Блог компании Образовательные проекты JetBrainsМашинное обучение * Открытые данные * Хакатоны

Всем привет, в этой статье я хочу рассказать про Why So Serious Hack. Про то, что вообще нас туда привело, чем хакатоны в классическом понимании отличаются от хакатонов с контестом и что нам помогло выиграть.

Читать дальше →

+7

ZAITSAU 9 апр 2018 в 13:02

Как мы делали проект про выборы президента России 2018 года

5 мин

5K

Data Mining * Открытые данные * Веб-разработка *

Из песочницы

Recovery Mode

Осенью 2017 года ребята из ГОЛОСа подумали, что онлайн-трансляцию выборов надо выводить на новый уровень:

во-первых, расстраивало, что до сих пор на картах субъектов Российской федерации нет детализации до территориальных комиссий,
во-вторых, крайняя сложность и запутанность сайта ЦИК, которая не позволяет быстро узнать результаты по своему избирательному участку,
и в-третьих, решено было начать делать основу для энциклопедии результатов, когда можно посмотреть результаты по разным выборам для одного участка. Грубо говоря, узнать, как голосовали соседи.

И все это не только для того, чтобы узнать в каком регионе живет 39% избирателей за Грудинина, но и для того, чтобы проверить, есть ли такой участок в стране, где Путин не выиграл выборы.

Читать дальше →

0

modos189 30 мар 2018 в 11:54

Анализ результатов президентских выборов 2018 года. На федеральном и региональном уровне

5 мин

50K

Big Data * Data Mining * Открытые данные *

logo

Особенностью российских президентских выборов 2018 года стало то, что главным показателем теперь стал не процент за основного кандидата, а величина явки. Другим важным показателем стало рекордно высокое количество наблюдателей по всей стране. Наблюдатели были отправлены, в том числе в республики Северного Кавказа, где традиционно результаты попросту рисовались.

Президентские выборы, даже без учёта масштабной кампании по повышению явки с помощью конкурсов, местных референдумов, и административного давления, привлекают значительно больше внимания, чем парламентские выборы. Однако, проведя анализ результатов, можно продолжать замечать аномалии в результатах, хоть уже и менее выраженными на федеральном уровне.

Я провел анализ результатов как на федеральном, так и (что интереснее) региональных уровнях, а также расскажу о том, как создавал сервис для анализа выборов.

Читать дальше →

+92

oldshowstopper 19 мар 2018 в 03:00

Как создать приложение c 3D аналитикой для iPhone?

9 мин

4.9K

Big Data * Unity * Визуализация данных * Открытые данные * 3D-графика *

Существует множество трендов и направлений в анализе данных, и все мы знакомы с популярными словами Business Intelligence, Big Data, Machine Learning и т.д. Эти слова знакомы сейчас даже тем, кто не знает как написать SQL-запрос, не знаком с правилами визуализации и отображения информации, и тем более не сможет написать Python-скрипт. Но всегда в нас остаётся незыблемое желание, воплощение мечты любого руководителя и/или даже аналитика данных: «нажимаешь на клавишу» и через миллисекунды нам уже приходит ответ на вопрос «Что делать?», а желательно пусть сразу «Прибыль компании увеличена».

Читать дальше →

+1

afrikyan 7 мар 2018 в 12:17

Работа с Anaconda на примере поиска корреляции курсов криптовалют

11 мин

74K

Data Mining * Open source * Python * Визуализация данных * Открытые данные *

Туториал

Цель этой статьи — предоставить легкое введение в анализ данных с использованием Anaconda. Мы пройдем через написание простого скрипта Python для извлечения, анализа и визуализации данных по различным криптовалютам.

Читать дальше →

+20

fiftin 5 мар 2018 в 14:49

MyDataSpace — сервис публикации данных

3 мин

7.3K

Открытые данные *

Думаю многие уже наслышаны о пользе открытых данных. То здесь, то там открытые данные экономят бюджет, помогают бизнесу и многое другое. Тем не менее качество государственных открытых данных все ещё оставляет желать лучшего. Это сильно тормозит прогресс в этом направлении.

Очевидно, что ждать, когда государственные органы начнут публиковать данные в готовом для использования виде не имеет смысла. К тому же открытые данные не ограничиваются только государственными данными.

Поэтому представляю вашему вниманию проект MyDataSpace, который призван сделать открытые данные более доступными всем желающим.

MyDataSpace – это сервис публикации данных. Любой может опубликовать данные бесплатно (под свободной или своей лицензией) и любой же может получить доступ к ним через веб-интерфейс или API.

Читать дальше →

+31

kissel_natasha 27 фев 2018 в 17:30

День открытых данных в Москве 2018

4 мин

2.1K

Блог компании «Информационная культура»Открытые данные *

По сложившейся традиции Инфокультура ежегодно присоединяется к международному проекту Open Data Day. В начале марта в честь Дня открытых данных по всему миру проходят встречи, лекции и хакатоны, цель которых — продвигать концепцию открытости и доступности данных. В этом году уже запланировано 288 мероприятий по всему миру. 3-4 марта в пространстве Благосфера мы проведем “День открытых данных” в Москве.

Приглашаем к участию программистов, дизайнеров, аналитиков, журналистов, гражданских активистов, представителей органов власти, сотрудников некоммерческих организаций, студентов, ученых и всех, кому интересна и близка тема открытых данных.

Мы подготовили очень насыщенную программу лекций, круглых столов и мастер-классов. Пригласили рассказать о своем опыте тех спикеров, которым действительно есть чем поделиться. Подробная программа уже доступна на сайте мероприятия. Расскажем о наиболее важных моментах, которые ждут участников.

Читать дальше →

+12

ildarchegg 29 янв 2018 в 03:37

Анализируй это. Mista.ru

69 мин

16K

Big Data * Data Mining * Google Cloud Platform * Python * Открытые данные *

What, How, Why

Форум Mista.ru — один из самых старых и активных форумов, посвященных 1С. Первое сообщение датировано 2000 годом и на текущий момент счетчик тем перевалил за 800000, а количество сообщений больше 16 000 000. Форум был настолько популярен, что его даже пытались "зеркалировать", так как содержал неплохую базу вопросов-ответов по 1С, из-за чего админы форума добавили "защиту от скачивания". В этой статье будет описано то, как можно скачать этот (а наверное и любой другой) форум в относительно короткие сроки при помощи Google Cloud Platform.

Читать дальше →

+25

DataWondering 15 янв 2018 в 11:00

Парсим мемы в питоне: как обойти серверную блокировку

26 мин

106K

Блог компании Open Data ScienceData Mining * Python * Открытые данные * Программирование *

Туториал

Новогодние праздники — прекрасный повод попрокрастинировать в уютной домашней обстановке и вспомнить дорогие сердцу мемы из 2k17, уходящие навсегда, как совесть Electronic Arts.

Однако даже обильно сдобренная салатами совесть иногда просыпалась и требовала хоть немного взять себя в руки и заняться полезной деятельностью. Поэтому мы совместили приятное с полезным и на примере любимых мемов посмотрели, как можно спарсить себе небольшую базу
данных, попутно обходя всевозможные блокировки, ловушки и ограничения, расставленные сервером на нашем пути. Всех заинтересованных любезно приглашаем под кат.

Читать дальше →

+61

BosonBeard 8 янв 2018 в 19:57

«Письмо турецкому султану» или линейная регрессия на C# с помощью Accord.NET для анализа открытых данных Москвы

13 мин

12K

Открытые данные * Машинное обучение * Open source * C# * .NET *

Туториал

Когда речь идет об освоении самых основ машинного обучения, чаще всего предлагается изучить соответствующие инструменты на Python или R. Мы не будем обсуждать их плюсы и минусы, а просто зададимся вопросом, что делать если вы знакомы только с экосистемой .NET, но при этом вам очень любопытно окунутся в мир науки о данных? Ответ прост, не отчаиваться и посмотреть в сторону F#, а если вы также, как и я из .NET знаете только азы C#, то попробовать изучить Accord.NET Framework.

Мы с вами уже разбирали его применение для решения задачи классификации, а в этот раз попробуем рассмотреть простейший инструментарий для линейной регрессии. Для этого мы воспользуемся открытыми данными по анализу обращений граждан взятыми с официального сайта Мэра Москвы.

Несмотря на то, что в заголовке статьи указан C#, мы попробуем собрать код и на VB.NET.

Мне осталось только пригласить вас под кат!

Читать дальше →

+12

Cloud4Y 27 дек 2017 в 15:10

Как не надо писать на Хабр: Антирейтинг 2017

5 мин

40K

Блог компании Cloud4YВеб-аналитика * Исследования и прогнозы в IT * Открытые данные * Читальный зал

Обсуждая результаты анализа статей за 2017 год, мы пришли к выводу, что нам и другим хабровчанам интересны не только лучшие публикации, но также любопытно было бы узнать какие статьи и комментарии были худшими. Сегодня мы публикуем антирейтинг публикаций и комментариев на Хабрахабре в 2017-ом. Сделано это потому, что на чужом негативном опыте можно многому научиться, оставить эти ошибки в уходящем и не повторять их в новом году. Других целей этот пост не несёт, просьба отнестись к этому с пониманием.

Читать дальше →

+55

ikashnitsky 27 дек 2017 в 14:08

Добыча данных в R

14 мин

21K

Проектирование API * Data Mining * R * Визуализация данных * Открытые данные *

Этот пост — перевод трех частей серии Data acquisition in R из моего англоязычного блога. Исходная серия задумана в четырех частях, три из которых легли в основу данного поста: Использование подготовленных наборов данных; Доступ к популярным статистическим БД; Демографические данные; Демографические данные. В еще не написанной заключительной части речь пойдет об использовании пространственных данных.

R заточен под воспроизводимость результатов. Существует множество прекрасных решений, обеспечивающих сопоставимость версий системы и пакетов, помогающих применять принципы literate programming… Я же хочу показать, как можно легко и эффективно находить/скачивать/добывать данные, используя собственно R и документируя каждый шаг, что обеспечивает полную воспроизводимость всего процесса. Разумеется, я не ставлю перед собой задачи перечислить все возможные источники данных и фокусирую внимание в основном на демографических данных. Если ваши интересы лежат вне сферы статистики населения, стоит посмотреть в сторону великолепного проекта Open Data Task View.

Для иллюстрации использования каждого из источников информации я привожу пример визуализации полученных данных. Каждый пример кода задуман как самостоятельная единица — копируйте и воспроизводите. Разумеется, сперва необходимо установить требуемые пакеты. Весь код целиком лежит тут.

Читать дальше →

+18

Cloud4Y 25 дек 2017 в 14:23

Анализ публикаций на Хабрахабре за 2017 год. Статистика, полезные находки и рейтинги

8 мин

29K

Блог компании Cloud4YЧитальный залОткрытые данные * Исследования и прогнозы в IT * Веб-аналитика *

Подходит к концу 2017 год. Пришло время подвести некоторые итоги. Каким был этот год на Хабрахабре? Чтобы ответить на этот вопрос мы, в Cloud4Y, решили собрать статистику по всем публикациям за прошедший с начала года период. В этой статье мы расскажем о том, что показалось нам наиболее интересным.

С 1 января по 18:00 22 декабря 2017 года на Хабрахабре было опубликовано 10684 поста, которые посмотрели около 123 миллионов раз! Мы не включили в счёт 46 мегапостов и публикации, которые были скрыты или перенесены на Geektimes. В среднем в месяц публиковалось около 900 постов, а рекордным стал март.

Читать дальше →

+85

snvakula 21 дек 2017 в 14:21

Развертывание сервера ElectrumX

3 мин

6.2K

Open source * Криптография * Открытые данные * Linux *

В этой статье я расскажу как развернуть сервер ElectrumX для Emercoin под Ubuntu Server 16.04 LTS, который можно использовать, например, для работы приложений Emercoin Secure Wallet (iOS, Android, Linux, Windows, MacOS). Процесс развертывания ничем не отличается и для других поддерживаемых криптовалют (например, для Bitcoin), с той лишь разницей, что необходимо установить соответствующую ноду нужной криптовалюты и указать именно ее данные в конфиге сервера.

Читать дальше →

+8

kdenisk 20 дек 2017 в 12:04

Новогодний датасет: открытая семантика русского языка

7 мин

8.3K

Открытые данные *

Новый год — время чудес и подарков. Главным чудом, которое подарила нам природа, безусловно является естественный язык и человеческая речь. А мы, в свою очередь, хотим сделать новогодний подарок всем исследователям этого феномена и поделиться датасетом по открытой семантике русского языка.

В статье мы позволим себе немного подискутировать на тему смыслов, расскажем как мы пришли к необходимости создания открытой семантической разметки, расскажем о настоящих результатах и будущих направлениях этой большой работы. И, конечно, дадим ссылку на датасет, который вы сможете скачать и использовать для своих экспериментов и исследований.

Читать дальше →

+21

1 2 ...

19

20 21 ...