Обновить
73.24

Открытые данные *

Данные будут свободны!

Сначала показывать
Порог рейтинга
Уровень сложности

Измеряем динамику упоминания сущностей в информационном поле

Время на прочтение2 мин
Количество просмотров4.6K


Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.
Читать дальше →

Что можно узнать о квартире из открытых справочников

Время на прочтение6 мин
Количество просмотров59K


Госструктуры выкладывают в интернет справочники с десятками гигабайтов информации. Если знать где искать, можно легально собрать данные о квартирах в промышленных масштабах.

Базы с индексами и районами городов тоже открыты. Бонусом я расскажу, как найти эти части адреса, если их не хватает.

Все справочники из этой статьи бесплатны и открыто лежат в интернете. Ни один не украли из ФСБ таинственные хакеры.
Шагнуть в мир открытых справочников

Как угодить кинозрителю и не потерять деньги: составляем план закупок при помощи ML

Время на прочтение6 мин
Количество просмотров3.6K
image

Еще одна статья от лица участника школы о проекте, реализованном в рамках очередного выезда:

«Я – Дмитрий Пасечнюк, и я хочу поделиться своим исследованием, сделанном на каникулах в рамках выездной весенней смены Школы GoTo под руководством Александра Петрова, asash, технического директора компании E-Contenta.

Как нам известно, онлайн-кинотеатры достаточно распространены и способны приносить неплохой доход. Но, как и в любом бизнесе, это не происходит само по себе. Одним из важных условий успешности онлайн-кинотеатра является грамотное составление предложений для просморта.
В каждом кинотеатре, будь то онлайн или реальный кинотеатр, есть сотрудник, занимающийся репертуарным планированием. Именно он определяет, какие фильмы будут показывать на экранах. Кинопрокатный процесс имеет свои подводные камни. Для того, чтобы выбрать удачный фильм, требуется учесть не только стоимость покупки прав, но и тысячу других нюансов. Системы отбора фильмов, как таковой не существует и зачастую фильмы выбираются, опираясь на собственное «чутье», рейтинг ожидания и экспертное мнение.

Принятие ответственного решения – тяжелое моральное бремя для человека, с одной стороны, с другой — всегда существуют риски излишнего влияния личностных и ситуационных факторов на принимаемое решение.

Современные технологии призваны облегчить труд людей, и в данном случае ожидания оправданы.

В своем исследовании я попробовал переложить задачу ранжирования фильмов в соответствии с ожиданиями целевой аудитории онлайн-кинотеатра с человека на машину. Безусловно, в общей постановке эта задача более сложная, и данное решение является только первым шагом. В дальнейшем я планирую продолжить исследования в этом направлении.

Обо всем по порядку под катом.
Читать дальше →

Хакатон «Budget-Pro»: первый шаг к победе в конкурсе

Время на прочтение3 мин
Количество просмотров2.2K
image

Минфин России, продолжая следовать концепции открытости федеральных органов исполнительной власти и развивать направление открытых государственных данных, запустил прием заявок на участие в третьем конкурсе «Открытые государственные финансовые данные BudgetApps 2017».

12-13 августа Инфокультура совместно с Минфином России в рамках конкурса проведут хакатон «Budget-Pro», который откроется мастер-классами экспертов в области дизайна и прототипирования на тему «Быстрое прототипирование: технологии и инструменты». После чего начнется основная часть.
Читать дальше →

10 типов структур данных, которые нужно знать + видео и упражнения

Время на прочтение9 мин
Количество просмотров292K
Екатерина Малахова, редактор-фрилансер, специально для блога Нетологии адаптировала статью Beau Carnes об основных типах структур данных.

«Плохие программисты думают о коде. Хорошие программисты думают о структурах данных и их взаимосвязях», — Линус Торвальдс, создатель Linux.

Структуры данных играют важную роль в процессе разработки ПО, а еще по ним часто задают вопросы на собеседованиях для разработчиков. Хорошая новость в том, что по сути они представляют собой всего лишь специальные форматы для организации и хранения данных.

В этой статье я покажу вам 10 самых распространенных структур данных.
Читать дальше →

Поиск лучшего места в мире для ветряка

Время на прочтение9 мин
Количество просмотров27K
История о том, как NASA, ESA, Датский Технологический Университет, нейронные сети, деревья решений и прочие хорошие люди помогли найти мне лучший бесплатный гектар на Дальнем Востоке, а также в Африке, Южной Америке и других “так себе” местах.


Читать дальше →

Данные: красивые и ужасные

Время на прочтение4 мин
Количество просмотров6.7K


Данные повсюду. И это прекрасно. Они меняют нашу жизнь, заново изобретают сторителлинг и оказывают влияние практически на все отрасли — бизнес, искусство, развлечения, музыку, технологии.
Вот некоторые яркие примеры…

Информационная журналистика




Совершенно ужасающая инфографика. Проект, который называется «С глаз долой, из сердца вон», — это хронология ударов беспилотных дронов в Пакистане с июля 2004 года по декабрь 2013 года.

С 2004 года США практиковали новый вид подпольной военной операции. Использование беспилотных летательных аппаратов для уничтожения вражеских целей казалось привлекательным, так как устраняло риск потери американских военных и политически было намного легче осуществимо. Показатель эффективности оказался крайне низок, а потери среди взрослого и детского гражданского населения очень высоки. Весь мир мог бы остаться в неведении о том, что на самом деле происходит, и, как говорится, с глаз долой, из сердца вон. Этот проект помогает осветить тему беспилотных летательных аппаратов, не говоря за или против. Изучив данные, вы можете самим решить, сможете ли вы поддерживать подобное использование беспилотных летательных аппаратов или нет.

«Data mining сейчас — это преимущество на рынке»: о конференции SmartData и больших данных

Время на прочтение8 мин
Количество просмотров6.3K


Конференции, посвящённые одной и той же теме, могут выглядеть совершенно по-разному. И когда планируется совсем новое мероприятие, заранее не вполне понятно, чего ожидать. Если конференция посвящена «большим и умным данным», то не окажется ли, что она рассчитана на гигантские компании и сотрудникам маленьких там делать нечего? И не будет ли там такого уклона в data science, что людям без учёной степени лучше не заходить?

В ожидании конференции SmartData, которая впервые состоится в Санкт-Петербурге 21 октября, мы решили внести ясность и расспросили двух членов её программного комитета: Виталия Худобахшова (Одноклассники) и Романа p0b0rchy Поборчего. Они развеяли многие опасения, а разговор получился не только о конференции, но и о состоянии индустрии: что сейчас происходит вокруг machine learning, зачем маленьким компаниям лезть в data mining, почему менеджеры покупают билеты на техническую конференцию о больших данных.
Читать дальше →

Starbucks следует открыть публичный доступ к своим API

Время на прочтение3 мин
Количество просмотров8.8K
Мобильное приложение Starbucks — один из самых известных кейсов в ecommerce. Автор материала — программист опытным путем доказывающий, почему стоит открыть API этого приложения.

image

Мотивация


Стоит отдать должное приложению Starbucks — оно просто отличное. Я использую его (как минимум) раз в день. В нем есть все, что мне нужно от отличного мобильного сервиса — кофе, плейлисты хитов 80-х в Spotify и возможность избежать живого общения с другими людьми. Я явно не одинок в своих предпочтениях, так как 20% операций Starbucks в США сейчас производится через мобильные телефоны.

Помимо интеграции Slack и кофейных кнопок существует множество других интеграций, которые можно было бы реализовать, если бы компания открыла свой API для сторонних разработчиков. Она явно движется в этом направлении, поскольку у нее есть и аккаунт в Twitter, и (защищенный паролем) веб-сайт для разработчиков.

Однако я не мог ждать и поэтому решил взять дело в свои руки.
Читать дальше →

Вуз или техникум: куда поступать, чтобы удачно трудоустроиться и хорошо зарабатывать?

Время на прочтение15 мин
Количество просмотров29K
Привет, Хабр! Прошлым летом мы опубликовали статью о результатах мониторинга трудоустройства выпускников вузов. Проект получил активную поддержку от вузов и всех заинтересованных сторон, благодаря чему за прошедший год был проведен ряд улучшений.

Во-первых, были собраны и обработаны данные о выпускниках вузов 2014 и 2015 годов. Данные за 2015 год были обработаны и опубликованы буквально несколько дней назад (возможно, кто-то из читателей заметил недавние публикации в СМИ на эту тему). Так что теперь можно анализировать результаты мониторинга сразу за три года, прослеживая динамику показателей. Но об этом мы расскажем подробнее в следующей статье.

Во-вторых, были собраны, обработаны и опубликованы на портале spo.graduate.edu.ru данные о выпускниках среднего профессионального образования 2013 и 2014 годов выпуска. Для тех, кто не очень разбирается в официальных терминах, – это выпускники «колледжей», «техникумов» и т.п. Вот о результатах этого мониторинга, а также об их сравнении с результатами мониторинга вузов мы и поговорим в данной статье.



Читать дальше →

VK Streaming API Contest

Время на прочтение1 мин
Количество просмотров11K
Привет! Мы запустили бета-тестирование нового продукта для получения публичных данных из ВКонтакте в реальном времени — Streaming API.



Он призван заменить методы публичного API для поиска и парсинга данных (newsfeed.search, wall.search, wall.get) и стать более удобным решением задачи аналитики упоминаний в соцсети.

Читать дальше →

Табы, пробелы и ваша зарплата — какая связь?

Время на прочтение11 мин
Количество просмотров41K

image


Пару дней назад Дэвид Робинсон опубликовал на Stack Overflow статью с очень провокационным названием: Разработчики, использующие пробелы, зарабатывают больше использующих табуляцию (перевод на Хабре). Автор взял данные из исследования разработчиков, проведённого Stack Overflow, и в самом деле показал, что использование пробелов ассоциируется с более высокими зарплатами, даже принимая в расчёт одинаковый уровень опыта. Так что, нужно вместо табуляций использовать пробелы, чтобы увеличить свою зарплату?

Читать дальше →

SmartData — новая конференция по большим и умным данным от JUG.ru Group

Время на прочтение5 мин
Количество просмотров5.3K


21 октября в Петербурге мы проводим новую конференцию по большим и умным данным SmartData 2017 Piter.

О Big Data в последнее время говорят все: от школьников до Германа Грефа. И вот тут возникает некоторый диалектический дуализм: о проблемах работы с большими данными говорят много, вот только все разговоры — это переливание из пустого в порожнее или какой-нибудь махровый маркетинговый вздор. Больше всего пугает, что люди начинают верить в то, что где-то лежит несколько петабайт «больших данных», и их можно взять и «отбольшеданнить». За советом я обратился к Виталию Худобахшову из «Одноклассников», и я придерживаюсь схожей точки зрения, судите сами:

Большие данные – это не свойства объема или времени. То, что считается «много данных» сейчас, влезет на флешку через 10 лет. То, для чего сейчас нужен Hadoop-кластер в десятки или даже сотни узлов, можно будет решить на телефоне через те же самые 10 лет. Большие данные – это прежде всего новое качество, т.е. что-то, что нельзя получить с помощью меньшего набора данных. На самом деле таких примеров не так уж много, но их количество с нарастанием объема данных и улучшением их качества непрерывно увеличивается.

Иногда большие данные настолько облегчают жизнь, что для решения конкретной проблемы отпадает необходимость использовать продвинутую технику машинного обучения. Рассмотрим пример: пользователь вводит свой пол в социальной сети неправильно, и получается, либо мы имеем неизвестный пол или какой-нибудь пол по умолчанию, что тоже плохо. Здесь кат.
Читать дальше →

Ближайшие события

Дизайн города, основанный на данных. Лекция в Яндексе

Время на прочтение13 мин
Количество просмотров16K
Под катом вы найдёте расшифровку лекции Андрея karmatsky. Он долгое время руководил службой дизайна геоинформационных сервисов Яндекса, а затем основал компанию Urbica, которая занимается анализом и обработкой городских данных. Андрей рассказывает о примерах того, как подход, ориентированный на данные, помогает улучшать городские сервисы. Лекция прошла в рамках мероприятия «Data & Science: город».


Большая часть слайдов — тоже под катом.

Совет по открытым данным: раскрытие транспортных данных

Время на прочтение7 мин
Количество просмотров6.2K
image

Источник фото: сайт Открытого Правительства

24 мая прошло очередное заседание совета по открытым данным, повесткой которого стало раскрытие транспортных данных. По сравнению с предыдущими заседаниями, “ляпов” было меньше, дополнительное финансирование в размере полуторного бюджета ведомства никто в этот раз не запрашивал, а об эмоциональной оценке деятельности Росгидромета уже написано в официальном пресс-релизе на сайте Открытого Правительства. Остается только пройтись по пунктам повестки и рассказать об опубликованных и планируемых датасетах.
Читать дальше →

Как обучать вычислительному мышлению?

Время на прочтение35 мин
Количество просмотров22K

Перевод поста Стивена Вольфрама (Stephen Wolfram) "How to Teach Computational Thinking".
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации



Содержание


Вычислительное будущее
Что такое вычислительное мышление?
Знакомство с Wolfram Language
А что насчет…
Основы
Куда может вписаться вычислительное мышление?
Что дети могут делать?
Во главе с детьми
Что такое вычисления и программирование?
Как все это будет происходить?


Вычислительное будущее


Вычислительное мышление станет определяющей характеристикой будущего, и именно поэтому так важно преподавать его детям уже сейчас. Вокруг формирования математического мышления у детей традиционно ведется много споров, однако эта проблема меркнет в сравнении с важностью обучения вычислительному мышлению.

Карта артистов, неуклюжий поиск связей в данных и как можно изобрести велосипед

Время на прочтение3 мин
Количество просмотров4.6K
Недавно смотрел серию видео популяризатора математики. Там он пытается рассказывать про математический анализ и линейную алгебру немного с позиции человека, который «как бы» изобрел бы ее с нуля. То есть пытается делать доступными простые и понятые визуализации относительно сложных концепций, как бы объясняя их с позиции человека, который как будто бы придумал это впервые. Относительно недавно читал статью на Хабре про unsupervised learning и увидел там раздел про Affinity Propagation. Как оказалось, мы использовали именно этот метод кластерного анализа чисто интуитивно, сами того не ведая.

TLDR для данной статьи. Если хотите интерактивную визуализацию, проследуйте сюда.
В данной визуализации в виде графа показаны связи между музыкальными жанрами ~25,000 самых популярных артистов мира, причем размер кругляшка показывает популярность данного жанра, а размер ребра графа — силу связи.

image
Читать дальше →

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

Время на прочтение4 мин
Количество просмотров15K
16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Читать дальше →

Анализ взаимосвязи навыков с помощью графов в R

Время на прочтение6 мин
Количество просмотров8.4K

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.


Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.

Читать дальше →

Классификация объявлений из соц. сетей. В поисках лучшего решения

Время на прочтение5 мин
Количество просмотров12K


Расскажу, как классификация текста помогла мне в поиске квартиры, а также почему я отказался от регулярных выражений и нейронных сетей и стал использовать лексический анализатор.
Читать дальше →