Как стать автором
Поиск
Написать публикацию
Обновить
49.26

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Эксперимент: возникает ли финансовое неравенство при случайной раздаче денег

Время на прочтение4 мин
Количество просмотров16K


Представьте, что запертые в одной комнате люди просто раздают друг другу деньги: каждый дает по доллару кому-то другому в случайном порядке. Как в итоге средства распределятся между этими людьми? Ответ может оказаться удивительным.
Читать дальше →

Автоматизация IP-сети. Часть2 – Мониторинг скорости открытия Веб страниц

Время на прочтение3 мин
Количество просмотров10K
image alt Продолжаем серию статей по доступной автоматизации в IP-сети. У каждого из инженеров, работающих с сетью Интернет, так или иначе периодически возникает потребность измерения скорости загрузки Веб странницы. Для этого существует множество инструментов, один из них это утилита wget. Например, для измерения скорости загрузки можно из консоли (Unix/Linux) воспользоваться такой командой:

[root@localhost ~]# wget -E -H -p -Q300K --user-agent=Mozilla --no-cache --no-cookies --delete-after --timeout=15 --tries=2 habrahabr.ru 2>&1 | grep Downloaded
Downloaded: 7 files, 411K in 0.3s (1.22 MB/s)

Следует отметить, что ограничение Q300K достаточное чтобы понять скорость загрузки, особенно если сетевая задержка до сайта более 10мс. При этом результаты скорости будут не очевидны если количество скаченной информации меньше 100K.

Но что, если есть потребность отслеживать скорость загрузки ресурса на постоянной основе? Вопрос можно попробовать решить при помощи небольшого скрипта, системы мониторинга (умеющей запускать скрипты) и гидроизоляционного скотча.
Читать дальше →

Чем занимались пиарщики РПЦ в день встречи Путина и Трампа на G20?

Время на прочтение2 мин
Количество просмотров32K


В рамках данной статьи мы будем проводить замеры динамики пульсации сущностей в информационном пространстве.
Читать дальше →

Делаем data science-портфолио: история через данные

Время на прочтение28 мин
Количество просмотров29K
Предисловие переводчика

Перевод внезапно удачно попал в струю других датасайенсных туториалов на хабре. :)
Этот написан Виком Паручури, основателем Dataquest.io, где как раз и занимаются подобного рода интерактивным обучением data science и подготовкой к реальной работе в этой области. Каких-то эксклюзивных ноу-хау здесь нет, но очень подробно рассказан процесс от сбора данных до первичных выводов о них, что может быть интересно не только желающим составить резюме на data science, но и тем, кто просто хочет попробовать себя в практическом анализе, но не знает, с чего начать.


Data science-компании всё чаще смотрят портфолио, когда принимают решение о приёме на работу. Это, в  частности, из-за того, что лучший способ судить о практических навыках — именно портфолио. И хорошая новость в том, что оно полностью в вашем распоряжении: если постараетесь – сможете собрать отличное портфолио, которым будут впечатлены многие компании.

Читать дальше →

Мониторинг задержек системы с помощью JHiccup

Время на прочтение5 мин
Количество просмотров5.1K

О JHiccup


JHiccup это простая программа, которая позволяет измерить задержки операционной системы с точки зрения конечного приложения. Она была написана CTO компании Azul —  Гилом Тени для измерения задержек ОС.


Читать дальше →

Табы, пробелы и ваша зарплата — какая связь?

Время на прочтение11 мин
Количество просмотров41K

image


Пару дней назад Дэвид Робинсон опубликовал на Stack Overflow статью с очень провокационным названием: Разработчики, использующие пробелы, зарабатывают больше использующих табуляцию (перевод на Хабре). Автор взял данные из исследования разработчиков, проведённого Stack Overflow, и в самом деле показал, что использование пробелов ассоциируется с более высокими зарплатами, даже принимая в расчёт одинаковый уровень опыта. Так что, нужно вместо табуляций использовать пробелы, чтобы увеличить свою зарплату?

Читать дальше →

Дизайн города, основанный на данных. Лекция в Яндексе

Время на прочтение13 мин
Количество просмотров15K
Под катом вы найдёте расшифровку лекции Андрея karmatsky. Он долгое время руководил службой дизайна геоинформационных сервисов Яндекса, а затем основал компанию Urbica, которая занимается анализом и обработкой городских данных. Андрей рассказывает о примерах того, как подход, ориентированный на данные, помогает улучшать городские сервисы. Лекция прошла в рамках мероприятия «Data & Science: город».


Большая часть слайдов — тоже под катом.

Как мы собрали 1500 звезд на Гитхабе, соединив проверенную временем технологию и новый интерфейс

Время на прочтение4 мин
Количество просмотров12K


Недавно мы выпустили инструмент с открытым исходным кодом GraphQL Voyager. Удивительно, но он попал на первую страницу новостей Hacker News и GitHub, и в первые несколько дней получил 1000+ звезд. Сейчас у него уже более 1600 звезд.*


Людям понравился гладкий интерфейс, интерактивные функции и анимация. Мы использовали TypeScript, React, Redux, webpack и даже PostCSS, но это НЕ еще одна статья об этом. Давайте заглянем под капот...

Читать дальше →

Об использовании видеокамер с распознаванием символов на низкопроизводительных вычислительных устройствах

Время на прочтение6 мин
Количество просмотров8.9K


Ранее, в статье рассказывалось о разработке метода распознавания, позволяющего осуществлять оптическое распознавание символов из видео «на лету». В качестве доказательства эффективности нового метода использовалась его реализация на устройстве, совершенно для этого не предназначенным — микроконтроллере esp8266. В ходе обсуждения возник вопрос: где можно использовать устройства с распознаванием на борту (считыватель)? Да еще и ценой менее $50. Понятно, что там же где и используются устройства подороже, но хотелось бы обсудить и другие варианты. Надеемся на помощь читателей в этом вопросе. А что видим мы?
Читать дальше →

Сервис сбора статистики с Flussonic

Время на прочтение2 мин
Количество просмотров3.6K
Всем привет, хочу рассказать про наш первый сервис, который мы собираемся оказывать нашим клиентам: сбор статистики и отчеты.

Много лет мы только продавали софт, теперь мы приготовили к запуску сервис по сбору статистики и предоставлению отчетов. У нас берут Flussonic, запускают его на своих серверах, абоненты смотрят видео с этих инстансов Flussonic и создаются записи о сессиях просмотра.

Эти сессии как раз сливаются в наш сервис и мы покажем отчеты, сделанные по ним, в личном кабинете.
Читать дальше →

Отзывчивые столбчатые диаграммы с Bokeh, Flask и Python 3

Время на прочтение8 мин
Количество просмотров21K

От переводчика


Недавно наткнулся в python digest на туториал по Flask+Bokeh. Туториал ориентирован на новичков, не требуется даже знать синтаксис Python и HTML. Примеры работают под Ubuntu 16.04, на Windows немного отличается работа с виртуальными окружениями.


image

Читать дальше →

О чем говорят женщины? (Text mining of beauty blogs)

Время на прочтение13 мин
Количество просмотров33K
В руках нашей команды из CleverDATA оказался уникальный материал – около 100 тыс. страниц англоязычных блогов, посвященных бьюти-сфере. Этот корпус к нам попал благодаря желанию одной косметической корпорации узнать законы, по которым «работает» блогосфера. Компания хотела эффективнее взаимодействовать с бьюти-блогерами – получать больший рекламный эффект, отдавая свои продукты в добрые руки лояльных авторов.
 

Источник
 
Читать дальше →

WebVR: второе рождение виртуальной реальности

Время на прочтение11 мин
Количество просмотров12K
Виртуальная реальность (VR) снова вышла на передний план и становится одним из основных направлений развития индустрии. Все активнее развивается направление WebVR — технологии и средства, которые встраиваются напрямую в веб-браузеры и позволяют строить трехмерные объекты без использования собственных аппаратных и программных платформ. Насколько это удобно, хорошо ли проработаны решения и каково будущее технологий VR, узнаем у экспертов.

Читать дальше →

Ближайшие события

5 причин посетить курс по визуализации данных

Время на прочтение4 мин
Количество просмотров6.1K
Термином «визуализация данных» сейчас никого не удивишь. Классных примеров визуализации в сети становится всё больше, и я уверена, что многие хабровчане с удовольствием исследуют их и делятся интересными находками с друзьями в соцсетях. А кто из вас задумывался, какую пользу визуализация данных может принести в вашей повседневной работе или для вашего бизнеса?


17, 18 и 19 июня в Москве пройдёт учебный курс по визуализации данных. Этот курс не для всех, мы адресуем его аналитикам, дизайнерам интерфейсов, разработчикам и руководителям проектов, которые имеют дело со сложными данными. Но мне кажется, что далеко не все, кому курс будет полезен, задумываются о таком обучении.

Я расскажу, зачем специалисту или менеджеру идти на наш курс, какие знания и навыки он получит. Буду рада, если эти причины зацепят кого-то из читателей, подтолкнут к самостоятельным исследованиям или приведут в нашу уютную учебную группу.
Читать дальше →

Карта артистов, неуклюжий поиск связей в данных и как можно изобрести велосипед

Время на прочтение3 мин
Количество просмотров4.6K
Недавно смотрел серию видео популяризатора математики. Там он пытается рассказывать про математический анализ и линейную алгебру немного с позиции человека, который «как бы» изобрел бы ее с нуля. То есть пытается делать доступными простые и понятые визуализации относительно сложных концепций, как бы объясняя их с позиции человека, который как будто бы придумал это впервые. Относительно недавно читал статью на Хабре про unsupervised learning и увидел там раздел про Affinity Propagation. Как оказалось, мы использовали именно этот метод кластерного анализа чисто интуитивно, сами того не ведая.

TLDR для данной статьи. Если хотите интерактивную визуализацию, проследуйте сюда.
В данной визуализации в виде графа показаны связи между музыкальными жанрами ~25,000 самых популярных артистов мира, причем размер кругляшка показывает популярность данного жанра, а размер ребра графа — силу связи.

image
Читать дальше →

Библиотека для визуализации спортивных сезонов

Время на прочтение2 мин
Количество просмотров7.8K


Вчера закончился очередной сезон английской премьер-лиги, и это отличный повод поговорить о визуализации спортивных сезонов.
Читать дальше →

Как стать специалистом по Data science: итоги открытого семинара в Университете ИТМО

Время на прочтение4 мин
Количество просмотров15K
16 мая в Университете ИТМО состоялся семинар, посвященный теме машинного обучения. Приглашенный лектор, заведующий кафедрой высокопроизводительных компьютерных технологий Уральского федерального университета Андрей Созыкин, рассказывал о профессии специалиста по Data science и направлениях развития этой сферы в ближайшем будущем.

В сегодняшнем материале — выдержки из интервью с лектором и рассказ о том, что нужно знать и уметь будущему специалисту по работе с данными.

Читать дальше →

Анализ взаимосвязи навыков с помощью графов в R

Время на прочтение6 мин
Количество просмотров8.3K

Интересно, но такая область как профессиональное развитие остается немного в стороне от шума из-за data science. Стартапы в сфере HRtech только начинают наращивать обороты и увеличивать свою долю, замещая традиционный подход в сфере работы с профессионалами или, теми, кто хочет стать профессионалом.


Сфера HRtech очень разнообразна и включает в себя автоматизацию найма сотрудников, развитие и коучинг, автоматизацию внутренних HR процедур, отслеживание рыночных зарплат, трекинг кандидатов, сотрудников и многое другое. Данное исследование помогает с помощью методов анализа данных ответить на вопрос как взаимосвязаны навыки, какие есть специализации, какие навыки более популярны, а какие навыки следует изучить следующим.

Читать дальше →

Как мы построили облачную инфраструктуру обработки данных для кросс-продуктовой аналитики

Время на прочтение10 мин
Количество просмотров20K

image


Мы в Skyeng очень много внимания уделяем анализу данных. Он позволяет нам правильно планировать работу и распределять ресурсы между различными задачами. Сегодня разработчик аналитики Глеб Сологуб расскажет, как он собрал для нас инфраструктуру сбора и анализа данных по всему нашему зоопарку сервисов и приложений, уложившись в годовой бюджет 12 тыс долларов.

Читать дальше →

Исследование положения глаз у более 1000000 лиц: правило золотого сечения или правило третей?

Время на прочтение17 мин
Количество просмотров13K

Перевод поста Майкла Тротта (Michael Trott) "Profiling the Eyes: ϕaithful or ROTen? Or Both?".
Код, приведенный в статье, можно скачать здесь.

Выражаю огромную благодарность Полине Сологуб за помощь в переводе и подготовке публикации




Содержание


Исследование проявления золотого сечения в положении человеческих лиц на картинах и фотографиях
Уровень линии глаз на старых картинах — скорее ROT, чем φaithful
Высота линии глаз в современных картинах
Высота линии глаз в работах профессиональных фотографов
Высота линии глаз в селфи
Фото из профилей LinkedIn
Лица с обложек еженедельных журналов последних трех десятилетий
Обложки комиксов
Ежедневные газеты и журналы мод
Знаменитости из киноиндустрии
Кино: линия глаз в движении
Выводы



Исследование проявления золотого сечения в положении человеческих лиц на картинах и фотографиях


Существует огромное количество литературы, посвященной золотому сечению в природе, в физиологии и психологии, а также в произведениях искусства (см. эту статью о золотом сечении, и вот эти: о золотом сечении в искусстве, в природе и в человеческом теле, и еще — о структуре творческого процесса в науке и искусстве). В последние годы нарастает скептицизм по поводу распространенности золотой пропорции в этих областях. Были пересмотрены более ранние исследования. Смотрите, например, исследования греческих храмов Фотакиса, Марковского, Фостера, Холланда и Бенджафилда, и Свободовой и др. — по физиологии человека.