
Открытые данные *
Данные будут свободны!
Что можно узнать о квартире из открытых справочников

Госструктуры выкладывают в интернет справочники с десятками гигабайтов информации. Если знать где искать, можно легально собрать данные о квартирах в промышленных масштабах.
Базы с индексами и районами городов тоже открыты. Бонусом я расскажу, как найти эти части адреса, если их не хватает.
Все справочники из этой статьи бесплатны и открыто лежат в интернете. Ни один не украли из ФСБ таинственные хакеры.
Как угодить кинозрителю и не потерять деньги: составляем план закупок при помощи ML

Еще одна статья от лица участника школы о проекте, реализованном в рамках очередного выезда:
«Я – Дмитрий Пасечнюк, и я хочу поделиться своим исследованием, сделанном на каникулах в рамках выездной весенней смены Школы GoTo под руководством Александра Петрова, asash, технического директора компании E-Contenta.
Как нам известно, онлайн-кинотеатры достаточно распространены и способны приносить неплохой доход. Но, как и в любом бизнесе, это не происходит само по себе. Одним из важных условий успешности онлайн-кинотеатра является грамотное составление предложений для просморта.
В каждом кинотеатре, будь то онлайн или реальный кинотеатр, есть сотрудник, занимающийся репертуарным планированием. Именно он определяет, какие фильмы будут показывать на экранах. Кинопрокатный процесс имеет свои подводные камни. Для того, чтобы выбрать удачный фильм, требуется учесть не только стоимость покупки прав, но и тысячу других нюансов. Системы отбора фильмов, как таковой не существует и зачастую фильмы выбираются, опираясь на собственное «чутье», рейтинг ожидания и экспертное мнение.
Принятие ответственного решения – тяжелое моральное бремя для человека, с одной стороны, с другой — всегда существуют риски излишнего влияния личностных и ситуационных факторов на принимаемое решение.
Современные технологии призваны облегчить труд людей, и в данном случае ожидания оправданы.
В своем исследовании я попробовал переложить задачу ранжирования фильмов в соответствии с ожиданиями целевой аудитории онлайн-кинотеатра с человека на машину. Безусловно, в общей постановке эта задача более сложная, и данное решение является только первым шагом. В дальнейшем я планирую продолжить исследования в этом направлении.
Обо всем по порядку под катом.
Хакатон «Budget-Pro»: первый шаг к победе в конкурсе

Минфин России, продолжая следовать концепции открытости федеральных органов исполнительной власти и развивать направление открытых государственных данных, запустил прием заявок на участие в третьем конкурсе «Открытые государственные финансовые данные BudgetApps 2017».
12-13 августа Инфокультура совместно с Минфином России в рамках конкурса проведут хакатон «Budget-Pro», который откроется мастер-классами экспертов в области дизайна и прототипирования на тему «Быстрое прототипирование: технологии и инструменты». После чего начнется основная часть.
10 типов структур данных, которые нужно знать + видео и упражнения
«Плохие программисты думают о коде. Хорошие программисты думают о структурах данных и их взаимосвязях», — Линус Торвальдс, создатель Linux.
Структуры данных играют важную роль в процессе разработки ПО, а еще по ним часто задают вопросы на собеседованиях для разработчиков. Хорошая новость в том, что по сути они представляют собой всего лишь специальные форматы для организации и хранения данных.
В этой статье я покажу вам 10 самых распространенных структур данных.
Поиск лучшего места в мире для ветряка
Данные: красивые и ужасные

Данные повсюду. И это прекрасно. Они меняют нашу жизнь, заново изобретают сторителлинг и оказывают влияние практически на все отрасли — бизнес, искусство, развлечения, музыку, технологии.
Вот некоторые яркие примеры…
Информационная журналистика

Совершенно ужасающая инфографика. Проект, который называется «С глаз долой, из сердца вон», — это хронология ударов беспилотных дронов в Пакистане с июля 2004 года по декабрь 2013 года.
С 2004 года США практиковали новый вид подпольной военной операции. Использование беспилотных летательных аппаратов для уничтожения вражеских целей казалось привлекательным, так как устраняло риск потери американских военных и политически было намного легче осуществимо. Показатель эффективности оказался крайне низок, а потери среди взрослого и детского гражданского населения очень высоки. Весь мир мог бы остаться в неведении о том, что на самом деле происходит, и, как говорится, с глаз долой, из сердца вон. Этот проект помогает осветить тему беспилотных летательных аппаратов, не говоря за или против. Изучив данные, вы можете самим решить, сможете ли вы поддерживать подобное использование беспилотных летательных аппаратов или нет.
«Data mining сейчас — это преимущество на рынке»: о конференции SmartData и больших данных

Конференции, посвящённые одной и той же теме, могут выглядеть совершенно по-разному. И когда планируется совсем новое мероприятие, заранее не вполне понятно, чего ожидать. Если конференция посвящена «большим и умным данным», то не окажется ли, что она рассчитана на гигантские компании и сотрудникам маленьких там делать нечего? И не будет ли там такого уклона в data science, что людям без учёной степени лучше не заходить?
В ожидании конференции SmartData, которая впервые состоится в Санкт-Петербурге 21 октября, мы решили внести ясность и расспросили двух членов её программного комитета: Виталия Худобахшова (Одноклассники) и Романа p0b0rchy Поборчего. Они развеяли многие опасения, а разговор получился не только о конференции, но и о состоянии индустрии: что сейчас происходит вокруг machine learning, зачем маленьким компаниям лезть в data mining, почему менеджеры покупают билеты на техническую конференцию о больших данных.
Starbucks следует открыть публичный доступ к своим API

Мотивация
Стоит отдать должное приложению Starbucks — оно просто отличное. Я использую его (как минимум) раз в день. В нем есть все, что мне нужно от отличного мобильного сервиса — кофе, плейлисты хитов 80-х в Spotify и возможность избежать живого общения с другими людьми. Я явно не одинок в своих предпочтениях, так как 20% операций Starbucks в США сейчас производится через мобильные телефоны.
Помимо интеграции Slack и кофейных кнопок существует множество других интеграций, которые можно было бы реализовать, если бы компания открыла свой API для сторонних разработчиков. Она явно движется в этом направлении, поскольку у нее есть и аккаунт в Twitter, и (защищенный паролем) веб-сайт для разработчиков.
Однако я не мог ждать и поэтому решил взять дело в свои руки.
Вуз или техникум: куда поступать, чтобы удачно трудоустроиться и хорошо зарабатывать?
Во-первых, были собраны и обработаны данные о выпускниках вузов 2014 и 2015 годов. Данные за 2015 год были обработаны и опубликованы буквально несколько дней назад (возможно, кто-то из читателей заметил недавние публикации в СМИ на эту тему). Так что теперь можно анализировать результаты мониторинга сразу за три года, прослеживая динамику показателей. Но об этом мы расскажем подробнее в следующей статье.
Во-вторых, были собраны, обработаны и опубликованы на портале spo.graduate.edu.ru данные о выпускниках среднего профессионального образования 2013 и 2014 годов выпуска. Для тех, кто не очень разбирается в официальных терминах, – это выпускники «колледжей», «техникумов» и т.п. Вот о результатах этого мониторинга, а также об их сравнении с результатами мониторинга вузов мы и поговорим в данной статье.

VK Streaming API Contest

Он призван заменить методы публичного API для поиска и парсинга данных (newsfeed.search, wall.search, wall.get) и стать более удобным решением задачи аналитики упоминаний в соцсети.
Табы, пробелы и ваша зарплата — какая связь?

Пару дней назад Дэвид Робинсон опубликовал на Stack Overflow статью с очень провокационным названием: Разработчики, использующие пробелы, зарабатывают больше использующих табуляцию (перевод на Хабре). Автор взял данные из исследования разработчиков, проведённого Stack Overflow, и в самом деле показал, что использование пробелов ассоциируется с более высокими зарплатами, даже принимая в расчёт одинаковый уровень опыта. Так что, нужно вместо табуляций использовать пробелы, чтобы увеличить свою зарплату?
SmartData — новая конференция по большим и умным данным от JUG.ru Group
21 октября в Петербурге мы проводим новую конференцию по большим и умным данным SmartData 2017 Piter.
О Big Data в последнее время говорят все: от школьников до Германа Грефа. И вот тут возникает некоторый диалектический дуализм: о проблемах работы с большими данными говорят много, вот только все разговоры — это переливание из пустого в порожнее или какой-нибудь махровый маркетинговый вздор. Больше всего пугает, что люди начинают верить в то, что где-то лежит несколько петабайт «больших данных», и их можно взять и «отбольшеданнить». За советом я обратился к Виталию Худобахшову из «Одноклассников», и я придерживаюсь схожей точки зрения, судите сами:
Большие данные – это не свойства объема или времени. То, что считается «много данных» сейчас, влезет на флешку через 10 лет. То, для чего сейчас нужен Hadoop-кластер в десятки или даже сотни узлов, можно будет решить на телефоне через те же самые 10 лет. Большие данные – это прежде всего новое качество, т.е. что-то, что нельзя получить с помощью меньшего набора данных. На самом деле таких примеров не так уж много, но их количество с нарастанием объема данных и улучшением их качества непрерывно увеличивается.
Иногда большие данные настолько облегчают жизнь, что для решения конкретной проблемы отпадает необходимость использовать продвинутую технику машинного обучения. Рассмотрим пример: пользователь вводит свой пол в социальной сети неправильно, и получается, либо мы имеем неизвестный пол или какой-нибудь пол по умолчанию, что тоже плохо. Здесь кат.
Ближайшие события
Дизайн города, основанный на данных. Лекция в Яндексе
Большая часть слайдов — тоже под катом.
Совет по открытым данным: раскрытие транспортных данных

Источник фото: сайт Открытого Правительства
24 мая прошло очередное заседание совета по открытым данным, повесткой которого стало раскрытие транспортных данных. По сравнению с предыдущими заседаниями, “ляпов” было меньше, дополнительное финансирование в размере полуторного бюджета ведомства никто в этот раз не запрашивал, а об эмоциональной оценке деятельности Росгидромета уже написано в официальном пресс-релизе на сайте Открытого Правительства. Остается только пройтись по пунктам повестки и рассказать об опубликованных и планируемых датасетах.
Как обучать вычислительному мышлению?

Перевод поста Стивена Вольфрама (Stephen Wolfram) "How to Teach Computational Thinking".
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации
Содержание
— Вычислительное будущее
— Что такое вычислительное мышление?
— Знакомство с Wolfram Language
— А что насчет…
— Основы
— Куда может вписаться вычислительное мышление?
— Что дети могут делать?
— Во главе с детьми
— Что такое вычисления и программирование?
— Как все это будет происходить?
Вычислительное будущее
Вычислительное мышление станет определяющей характеристикой будущего, и именно поэтому так важно преподавать его детям уже сейчас. Вокруг формирования математического мышления у детей традиционно ведется много споров, однако эта проблема меркнет в сравнении с важностью обучения вычислительному мышлению.
Карта артистов, неуклюжий поиск связей в данных и как можно изобрести велосипед
TLDR для данной статьи. Если хотите интерактивную визуализацию, проследуйте сюда.
В данной визуализации в виде графа показаны связи между музыкальными жанрами ~25,000 самых популярных артистов мира, причем размер кругляшка показывает популярность данного жанра, а размер ребра графа — силу связи.

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО
В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Анализ взаимосвязи навыков с помощью графов в R
Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.
Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.
Классификация объявлений из соц. сетей. В поисках лучшего решения

Расскажу, как классификация текста помогла мне в поиске квартиры, а также почему я отказался от регулярных выражений и нейронных сетей и стал использовать лексический анализатор.
Вклад авторов
ibegtin 1116.0ruASG 909.0ilusha_sergeevich 471.0shukshinivan 460.0LesnoyChelovek 410.0Meklon 366.0S0mbre 347.0alexanderkuk 347.0DEADStop 340.0Bluewolf 279.0
