Все потоки

Открытые данные *

Данные будут свободны!

СтатьиПостыНовостиАвторыКомпании

daocrawler 22 авг 2017 в 10:55

Измеряем динамику упоминания сущностей в информационном поле

2 мин

4.6K

Big Data * Data Mining * Визуализация данных * Открытые данные *

Сегодня мы покажем дашборд с визуализацией данных о динамике популярных сущностей, засетапим для пользователей хабра отдельный инстанс и дадим на нём возможность следить за собственными показателям, добавив регулярку.

Читать дальше →

+7

DEADStop 21 авг 2017 в 09:27

Что можно узнать о квартире из открытых справочников

6 мин

59K

Блог компании HFLabsРазработка под e-commerce * Открытые данные *

Госструктуры выкладывают в интернет справочники с десятками гигабайтов информации. Если знать где искать, можно легально собрать данные о квартирах в промышленных масштабах.

Базы с индексами и районами городов тоже открыты. Бонусом я расскажу, как найти эти части адреса, если их не хватает.

Все справочники из этой статьи бесплатны и открыто лежат в интернете. Ни один не украли из ФСБ таинственные хакеры.

Шагнуть в мир открытых справочников

+57

bibilov 10 авг 2017 в 16:05

Как угодить кинозрителю и не потерять деньги: составляем план закупок при помощи ML

6 мин

3.6K

Блог компании Проектная школа программирования GoToПромышленное программирование * Программирование * Открытые данные * Машинное обучение *

Еще одна статья от лица участника школы о проекте, реализованном в рамках очередного выезда:

«Я – Дмитрий Пасечнюк, и я хочу поделиться своим исследованием, сделанном на каникулах в рамках выездной весенней смены Школы GoTo под руководством Александра Петрова, asash, технического директора компании E-Contenta.

Как нам известно, онлайн-кинотеатры достаточно распространены и способны приносить неплохой доход. Но, как и в любом бизнесе, это не происходит само по себе. Одним из важных условий успешности онлайн-кинотеатра является грамотное составление предложений для просморта.
В каждом кинотеатре, будь то онлайн или реальный кинотеатр, есть сотрудник, занимающийся репертуарным планированием. Именно он определяет, какие фильмы будут показывать на экранах. Кинопрокатный процесс имеет свои подводные камни. Для того, чтобы выбрать удачный фильм, требуется учесть не только стоимость покупки прав, но и тысячу других нюансов. Системы отбора фильмов, как таковой не существует и зачастую фильмы выбираются, опираясь на собственное «чутье», рейтинг ожидания и экспертное мнение.

Принятие ответственного решения – тяжелое моральное бремя для человека, с одной стороны, с другой — всегда существуют риски излишнего влияния личностных и ситуационных факторов на принимаемое решение.

Современные технологии призваны облегчить труд людей, и в данном случае ожидания оправданы.

В своем исследовании я попробовал переложить задачу ранжирования фильмов в соответствии с ожиданиями целевой аудитории онлайн-кинотеатра с человека на машину. Безусловно, в общей постановке эта задача более сложная, и данное решение является только первым шагом. В дальнейшем я планирую продолжить исследования в этом направлении.

Обо всем по порядку под катом.

Читать дальше →

+4

xiunja 7 авг 2017 в 09:31

Хакатон «Budget-Pro»: первый шаг к победе в конкурсе

3 мин

2.2K

Блог компании «Информационная культура»Разработка мобильных приложений * Веб-разработка * Открытые данные * Проектирование API *

Recovery Mode

Минфин России, продолжая следовать концепции открытости федеральных органов исполнительной власти и развивать направление открытых государственных данных, запустил прием заявок на участие в третьем конкурсе «Открытые государственные финансовые данные BudgetApps 2017».

12-13 августа Инфокультура совместно с Минфином России в рамках конкурса проведут хакатон «Budget-Pro», который откроется мастер-классами экспертов в области дизайна и прототипирования на тему «Быстрое прототипирование: технологии и инструменты». После чего начнется основная часть.

Читать дальше →

+2

blognetology 4 авг 2017 в 16:41

10 типов структур данных, которые нужно знать + видео и упражнения

9 мин

292K

Блог компании НетологияBig Data * Data Mining * Визуализация данных * Открытые данные *

Recovery Mode

Перевод

Екатерина Малахова, редактор-фрилансер, специально для блога Нетологии адаптировала статью Beau Carnes об основных типах структур данных.

«Плохие программисты думают о коде. Хорошие программисты думают о структурах данных и их взаимосвязях», — Линус Торвальдс, создатель Linux.

Структуры данных играют важную роль в процессе разработки ПО, а еще по ним часто задают вопросы на собеседованиях для разработчиков. Хорошая новость в том, что по сути они представляют собой всего лишь специальные форматы для организации и хранения данных.

В этой статье я покажу вам 10 самых распространенных структур данных.

Читать дальше →

+18

gaploid 4 авг 2017 в 08:36

Поиск лучшего места в мире для ветряка

9 мин

27K

Big Data * Data Mining * Геоинформационные сервисы * Машинное обучение * Открытые данные *

История о том, как NASA, ESA, Датский Технологический Университет, нейронные сети, деревья решений и прочие хорошие люди помогли найти мне лучший бесплатный гектар на Дальнем Востоке, а также в Африке, Южной Америке и других “так себе” местах.

Читать дальше →

+80

Cloud4Y 27 июл 2017 в 11:26

Данные: красивые и ужасные

4 мин

6.7K

Блог компании Cloud4YОткрытые данные * Визуализация данных * Data Mining * Big Data *

Перевод

Данные повсюду. И это прекрасно. Они меняют нашу жизнь, заново изобретают сторителлинг и оказывают влияние практически на все отрасли — бизнес, искусство, развлечения, музыку, технологии.
Вот некоторые яркие примеры…

Информационная журналистика

Совершенно ужасающая инфографика. Проект, который называется «С глаз долой, из сердца вон», — это хронология ударов беспилотных дронов в Пакистане с июля 2004 года по декабрь 2013 года.

С 2004 года США практиковали новый вид подпольной военной операции. Использование беспилотных летательных аппаратов для уничтожения вражеских целей казалось привлекательным, так как устраняло риск потери американских военных и политически было намного легче осуществимо. Показатель эффективности оказался крайне низок, а потери среди взрослого и детского гражданского населения очень высоки. Весь мир мог бы остаться в неведении о том, что на самом деле происходит, и, как говорится, с глаз долой, из сердца вон. Этот проект помогает осветить тему беспилотных летательных аппаратов, не говоря за или против. Изучив данные, вы можете самим решить, сможете ли вы поддерживать подобное использование беспилотных летательных аппаратов или нет.

+4

phillennium 26 июл 2017 в 14:01

«Data mining сейчас — это преимущество на рынке»: о конференции SmartData и больших данных

8 мин

6.3K

Блог компании JUG Ru GroupBig Data * Открытые данные *

Конференции, посвящённые одной и той же теме, могут выглядеть совершенно по-разному. И когда планируется совсем новое мероприятие, заранее не вполне понятно, чего ожидать. Если конференция посвящена «большим и умным данным», то не окажется ли, что она рассчитана на гигантские компании и сотрудникам маленьких там делать нечего? И не будет ли там такого уклона в data science, что людям без учёной степени лучше не заходить?

В ожидании конференции SmartData, которая впервые состоится в Санкт-Петербурге 21 октября, мы решили внести ясность и расспросили двух членов её программного комитета: Виталия Худобахшова (Одноклассники) и Романа p0b0rchy Поборчего. Они развеяли многие опасения, а разговор получился не только о конференции, но и о состоянии индустрии: что сейчас происходит вокруг machine learning, зачем маленьким компаниям лезть в data mining, почему менеджеры покупают билеты на техническую конференцию о больших данных.

Читать дальше →

+22

Fondy 19 июл 2017 в 15:02

Starbucks следует открыть публичный доступ к своим API

3 мин

8.8K

Блог компании FondyРазработка мобильных приложений * Программирование * Открытые данные * Проектирование API *

Перевод

Мобильное приложение Starbucks — один из самых известных кейсов в ecommerce. Автор материала — программист опытным путем доказывающий, почему стоит открыть API этого приложения.

Мотивация

Стоит отдать должное приложению Starbucks — оно просто отличное. Я использую его (как минимум) раз в день. В нем есть все, что мне нужно от отличного мобильного сервиса — кофе, плейлисты хитов 80-х в Spotify и возможность избежать живого общения с другими людьми. Я явно не одинок в своих предпочтениях, так как 20% операций Starbucks в США сейчас производится через мобильные телефоны.

Помимо интеграции Slack и кофейных кнопок существует множество других интеграций, которые можно было бы реализовать, если бы компания открыла свой API для сторонних разработчиков. Она явно движется в этом направлении, поскольку у нее есть и аккаунт в Twitter, и (защищенный паролем) веб-сайт для разработчиков.

Однако я не мог ждать и поэтому решил взять дело в свои руки.

Читать дальше →

+15

Apatic 13 июл 2017 в 11:16

Вуз или техникум: куда поступать, чтобы удачно трудоустроиться и хорошо зарабатывать?

15 мин

29K

Блог компании IBSОткрытые данные * Data Mining *

Привет, Хабр! Прошлым летом мы опубликовали статью о результатах мониторинга трудоустройства выпускников вузов. Проект получил активную поддержку от вузов и всех заинтересованных сторон, благодаря чему за прошедший год был проведен ряд улучшений.

Во-первых, были собраны и обработаны данные о выпускниках вузов 2014 и 2015 годов. Данные за 2015 год были обработаны и опубликованы буквально несколько дней назад (возможно, кто-то из читателей заметил недавние публикации в СМИ на эту тему). Так что теперь можно анализировать результаты мониторинга сразу за три года, прослеживая динамику показателей. Но об этом мы расскажем подробнее в следующей статье.

Во-вторых, были собраны, обработаны и опубликованы на портале spo.graduate.edu.ru данные о выпускниках среднего профессионального образования 2013 и 2014 годов выпуска. Для тех, кто не очень разбирается в официальных терминах, – это выпускники «колледжей», «техникумов» и т.п. Вот о результатах этого мониторинга, а также об их сравнении с результатами мониторинга вузов мы и поговорим в данной статье.

Читать дальше →

+3

apiwoman 1 июл 2017 в 10:00

VK Streaming API Contest

1 мин

11K

Блог компании VKПрограммирование * Открытые данные * VK API *

Привет! Мы запустили бета-тестирование нового продукта для получения публичных данных из ВКонтакте в реальном времени — Streaming API.

Он призван заменить методы публичного API для поиска и парсинга данных (newsfeed.search, wall.search, wall.get) и стать более удобным решением задачи аналитики упоминаний в соцсети.

Читать дальше →

+23

AloneCoder 27 июн 2017 в 11:43

Табы, пробелы и ваша зарплата — какая связь?

11 мин

41K

Блог компании VKОткрытые данные * Математика * Визуализация данных * Open source *

Перевод

Пару дней назад Дэвид Робинсон опубликовал на Stack Overflow статью с очень провокационным названием: Разработчики, использующие пробелы, зарабатывают больше использующих табуляцию (перевод на Хабре). Автор взял данные из исследования разработчиков, проведённого Stack Overflow, и в самом деле показал, что использование пробелов ассоциируется с более высокими зарплатами, даже принимая в расчёт одинаковый уровень опыта. Так что, нужно вместо табуляций использовать пробелы, чтобы увеличить свою зарплату?

Читать дальше →

+62

ARG89 27 июн 2017 в 07:36

SmartData — новая конференция по большим и умным данным от JUG.ru Group

5 мин

5.3K

Блог компании JUG Ru GroupBig Data * Открытые данные *

21 октября в Петербурге мы проводим новую конференцию по большим и умным данным SmartData 2017 Piter.

О Big Data в последнее время говорят все: от школьников до Германа Грефа. И вот тут возникает некоторый диалектический дуализм: о проблемах работы с большими данными говорят много, вот только все разговоры — это переливание из пустого в порожнее или какой-нибудь махровый маркетинговый вздор. Больше всего пугает, что люди начинают верить в то, что где-то лежит несколько петабайт «больших данных», и их можно взять и «отбольшеданнить». За советом я обратился к Виталию Худобахшову из «Одноклассников», и я придерживаюсь схожей точки зрения, судите сами:

Большие данные – это не свойства объема или времени. То, что считается «много данных» сейчас, влезет на флешку через 10 лет. То, для чего сейчас нужен Hadoop-кластер в десятки или даже сотни узлов, можно будет решить на телефоне через те же самые 10 лет. Большие данные – это прежде всего новое качество, т.е. что-то, что нельзя получить с помощью меньшего набора данных. На самом деле таких примеров не так уж много, но их количество с нарастанием объема данных и улучшением их качества непрерывно увеличивается.

Иногда большие данные настолько облегчают жизнь, что для решения конкретной проблемы отпадает необходимость использовать продвинутую технику машинного обучения. Рассмотрим пример: пользователь вводит свой пол в социальной сети неправильно, и получается, либо мы имеем неизвестный пол или какой-нибудь пол по умолчанию, что тоже плохо. Здесь кат.

Читать дальше →

+25

Leono 25 июн 2017 в 10:17

Дизайн города, основанный на данных. Лекция в Яндексе

13 мин

16K

Блог компании ЯндексОткрытые данные * Геоинформационные сервисы * Визуализация данных *

Под катом вы найдёте расшифровку лекции Андрея karmatsky. Он долгое время руководил службой дизайна геоинформационных сервисов Яндекса, а затем основал компанию Urbica, которая занимается анализом и обработкой городских данных. Андрей рассказывает о примерах того, как подход, ориентированный на данные, помогает улучшать городские сервисы. Лекция прошла в рамках мероприятия «Data & Science: город».

Большая часть слайдов — тоже под катом.

+63

k0shk 15 июн 2017 в 09:22

Совет по открытым данным: раскрытие транспортных данных

7 мин

6.2K

Блог компании «Информационная культура»Открытые данные * Геоинформационные сервисы *

Источник фото: сайт Открытого Правительства

24 мая прошло очередное заседание совета по открытым данным, повесткой которого стало раскрытие транспортных данных. По сравнению с предыдущими заседаниями, “ляпов” было меньше, дополнительное финансирование в размере полуторного бюджета ведомства никто в этот раз не запрашивал, а об эмоциональной оценке деятельности Росгидромета уже написано в официальном пресс-релизе на сайте Открытого Правительства. Остается только пройтись по пунктам повестки и рассказать об опубликованных и планируемых датасетах.

Читать дальше →

+22

OsipovRoman 2 июн 2017 в 13:48

Как обучать вычислительному мышлению?

35 мин

22K

Блог компании Wolfram ResearchПрофессиональная литература * Программирование * Открытые данные * Математика *

Туториал

Перевод

Перевод поста Стивена Вольфрама (Stephen Wolfram) "How to Teach Computational Thinking".
Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации

Содержание

— Вычислительное будущее
— Что такое вычислительное мышление?
— Знакомство с Wolfram Language
— А что насчет…
— Основы
— Куда может вписаться вычислительное мышление?
— Что дети могут делать?
— Во главе с детьми
— Что такое вычисления и программирование?
— Как все это будет происходить?

Вычислительное будущее

Вычислительное мышление станет определяющей характеристикой будущего, и именно поэтому так важно преподавать его детям уже сейчас. Вокруг формирования математического мышления у детей традиционно ведется много споров, однако эта проблема меркнет в сравнении с важностью обучения вычислительному мышлению.

+11

snakers4 24 мая 2017 в 04:16

Карта артистов, неуклюжий поиск связей в данных и как можно изобрести велосипед

3 мин

4.6K

Data Mining * JavaScript * Визуализация данных * Открытые данные *

Недавно смотрел серию видео популяризатора математики. Там он пытается рассказывать про математический анализ и линейную алгебру немного с позиции человека, который «как бы» изобрел бы ее с нуля. То есть пытается делать доступными простые и понятые визуализации относительно сложных концепций, как бы объясняя их с позиции человека, который как будто бы придумал это впервые. Относительно недавно читал статью на Хабре про unsupervised learning и увидел там раздел про Affinity Propagation. Как оказалось, мы использовали именно этот метод кластерного анализа чисто интуитивно, сами того не ведая.

TLDR для данной статьи. Если хотите интерактивную визуализацию, проследуйте сюда.
В данной визуализации в виде графа показаны связи между музыкальными жанрами ~25,000 самых популярных артистов мира, причем размер кругляшка показывает популярность данного жанра, а размер ребра графа — силу связи.

Читать дальше →

+7

itmo 22 мая 2017 в 15:02

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

4 мин

15K

Блог компании ИТМОBig Data * Data Mining * Визуализация данных * Открытые данные *

16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Читать дальше →

+12

finnfromfinland 17 мая 2017 в 09:04

Анализ взаимосвязи навыков с помощью графов в R

6 мин

8.4K

Data Mining * R * Визуализация данных * Открытые данные *

Из песочницы

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.

Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.

Читать дальше →

+10

mrsuh 14 мая 2017 в 13:02

Классификация объявлений из соц. сетей. В поисках лучшего решения

5 мин

12K

Регулярные выражения * Открытые данные * Машинное обучение * VK API * Веб-разработка *

Расскажу, как классификация текста помогла мне в поиске квартиры, а также почему я отказался от регулярных выражений и нейронных сетей и стал использовать лексический анализатор.

Читать дальше →

+13

1 2 ...

21

22 23 ...