Обновить
46.53

Визуализация данных *

Облекаем данные в красивую оболочку

Сначала показывать
Порог рейтинга
Уровень сложности

Погружаемся в статистику вместе с Python. Часть 2. Распределение Стьюдента

Время на прочтение18 мин
Охват и читатели48K

Доброго времени суток, хабраледи и хабраджентельмены! В этой статье мы продолжим погружение в статистику вместе с Python. Если кто пропустил начало погружения, то вот ссылка на первую часть. Ну, а если нет, то я по-прежнему рекомендую держать под рукой открытую книгу Сары Бослаф "Статистика для всех". Так же рекомендую запустить блокнот, чтобы поэкспериментировать с кодом и графиками.

Как сказал Эндрю Ланг: "Статистика для политика – все равно что уличный фонарь для пьяного забулдыги: скорее опора, чем освещение." Тоже самое можно сказать и про эту статью для новичков. Вряд ли вы почерпнете здесь много новых знаний, но надеюсь, эта статья поможет вам разобраться с тем, как использовать Python для облегчения самостоятельного изучения статистики.

Продолжить погружение!

Легенды и мифы геофизики

Время на прочтение10 мин
Охват и читатели6K

Давайте посмотрим, насколько понятно устроена природа, и как просто это можно доказать, при этом познакомимся с мифами, в которые зачастую верят геофизики (хотя их учили совершенно противоположному, как будет показано ниже). Откройте учебники и статьи по геофизике и вы увидите там преобразования Буге, разложения по сферическим функциям и другие термины, заимствованные из разных наук. При этом, преобразование Буге придумано 300 лет назад для анализа результатов нескольких десятков измерений, а форма нашей планеты далека от сферической настолько, что глобальные модели оперируют эллипсоидами. Все это наследие чрезвычайно затрудняет понимание простых и очевидных, в общем-то, вещей и явлений.



Видите взаимосвязь ортофотоснимка и рельефа? Если да, то вы или геолог или можете им стать: корреляция компонентов (разложения в пространственный спектр) составляет 41% для длины волны 20 м, 58% для 50 м и 99% для 300 м (Jupyter Python ноутбук с вычислениями доступен по ссылкам ниже). Большинство геофизиков клянутся, что «это у вас спектры порченые» (записано с натуры), игнорируя и геофизику и прилагаемые вычисления и ссылки на публикации.

Читать дальше →

Как создавать интерактивные линейные графики на Pandas и Altair

Время на прочтение5 мин
Охват и читатели7.9K

Линейный график является неотъемлемой частью анализа данных. Он даёт нам представление о том, как величина изменяется при последовательных измерениях. В случае работы с временными рядами важность линейных графиков становится решающей. Тренд [направление], сезонность и корреляция — вот некоторые характеристики, которые можно наблюдать на аккуратно сгенерированных линейных графиках. В этой статье мы будем создавать интерактивные линейные графики с помощью двух библиотек Python — Pandas и Altair.

Мы уже затрагивали тему визуализаций при помощи библиотеки Altair на примере создания интерактивных карт, а сегодня, к старту курса о Data Science, решили поделиться простым руководством о том, как можно из множества графиков выделить самый важный; с этого руководства можно начать изучать Altair на практике.

Читать далее

Время — деньги: анализируй А/В-тесты разумно

Время на прочтение10 мин
Охват и читатели14K


Всем привет! Меня зовут Кирилл, я работаю в продуктовом направлении команды Data Science. Сегодня я расскажу о том, как мы в Delivery Club автоматизируем A/B-тестирование. Основная часть статьи посвящена аналитике, но мы кратко затронем и остальные аспекты.
Читать дальше →

Оценка структуры кредитного портфеля с помощью R

Время на прочтение4 мин
Охват и читатели2.8K

В ходе обсуждений возникла «маленькая» задачка — построить динамику структуры кредитного портфеля (динамика кредитной карты, например). Есть важная специфика — необходимо применять метод FIFO для погашения займов. Т.е. при погашении первыми должны гаситься самые ранние займы. Это накладывает определенные требования на расчет статуса каждого отдельного займа и определения его даты погашения. Задачу решаем честно.


Рассматриваем как олимпиадную задачу. Никаких «кровавых энерпрайзов с корпоративными архитекторами» и педалинга кода, подход исключительно «сначала подумать». Не более одного экрана кода на прототип и никаких циклов (закладные для производительности и читаемости). Ниже приведен код на R с прототипом подхода.


Является продолжением серии предыдущих публикаций.

Читать дальше →

Автоматизация и промышленная электроника – когда одним Arduino сыт не будешь

Время на прочтение8 мин
Охват и читатели14K
Если играться с контроллерами, то почему с маленькими?

Очень часто, когда речь заходит об автоматизации чего-либо, то в разговоре всплывает Arduino, его производные или же Raspberry PI и прочие одноплатники. Но есть отличие от домашних поделок, где можно пользоваться чем угодно ради экономии и потому, что это простое и доступное решение. В сфере автоматизации/модернизации объектов, связанных с промышленностью, речь идёт исключительно о специализированных промышленных контроллерах и системах визуализации, диспетчеризации/удалённого управления и все это исключительно с сертификатами соответствия и лицензиями.
Решений такого класса — море и порой сложно в них разобраться. Разумеется, все возможные варианты разобрать невозможно, но мы с коллегами уже несколько лет работаем в этой сфере и потому какое-то количество опыта набралось. Мы поделимся своим и если вам есть, что сказать — просим писать комментарии.
Читать дальше →

CatBoost и ML-конкурсы

Время на прочтение8 мин
Охват и читатели5.4K

Эта статья основана на данных конкурса, который компания Driven Data опубликовала для решения проблем с источниками воды в Танзании. Краткий анализ данных, подготовка данных и бэйзлайн модель с использованием CatBoost. Целевая аудитория - те, кто хотят начать свой путь в ML-соревнованиях.

Читать далее

Цифровая геология, или пусть машины думают и находят золото для нас в Западной Сибири без геологических данных

Время на прочтение3 мин
Охват и читатели4.9K

Эта статья является продолжением двух предыдущих: Ударим биспектром по бездорожью, или как найти золото в Сибири, в которой мы рассмотрели геологическую модель месторождения золота на территории Новосибирской области и Ищем рудное золото на острове Сумбава, Индонезия, в которых мы построили геологически обусловленную модель машинного обучения для поиска золота или других рудных минералов по всему Тихоокеанскому рудному поясу, используя для геологического моделирования открытые данные на платформе Google Earth Engine (GEE).


Убедившись в сходстве геологических моделей Сибири и Индонезии, применим классификатор для рудного золота Западной Сумбавы, Индонезия для Сибири. Так мы получим геологически корректный детальный прогноз золоторудности для Сибири, не используя вообще никаких геологических данных для этого региона.


Читать дальше →

Как мы работаем с логами (сбор логов с сервера, возможность визуализации данных при помощи Graylog)

Время на прочтение10 мин
Охват и читатели84K

Привет! Это вторая часть статьи, в которой мы будем разбирать практическое применение платформы Graylog.

В первой части мы разобрали как платформу установить и произвести ее базовую настройку, а сегодня дадим пару примеров применения ее возможностей на практике.

В частности, разберем настройку сбора логов с сервера и возможность визуализировать полученные данные.

Читать далее

Погружаемся в статистику вместе с Python. Часть 1. Z-статистика и p-value

Время на прочтение19 мин
Охват и читатели63K

Не знаю как вам, а мне статистика далась очень не просто. Причем "далась" - это еще громко сказано. Да, оказалось что можно довольно долго ехать на методичках, кое как вникая в смысл четырехэтажных формул, а иногда даже не понимая результатов, но все равно ехать. Ехать и не получать никакого удовольствия - вроде бы все понятно, но ощущение, что ты "не совсем в теме" все никак не покидает. Какое-то время пытался читать книги по R и не то что бы совсем безрезультатно, но и не "огонь". Нашел наикрутейшую книгу "Статистика для всех" Сары Бослаф, прочитал... все равно остались какие-то нюансы смысл которых так и не понятен до конца.

В общем, как вы догадались - эта статья из серии "Пробую объяснить на пальцах, что бы самому разобраться." Так что если вы неравнодушны к статистике, то прошу под кат.

Начать погружение

С помощью Python создаём математические анимации, как на канале 3Blue1Brown

Время на прочтение6 мин
Охват и читатели45K

Вы наверняка когда-то испытывали трудности в понимании математических концепций алгоритмов машинного обучения и для лучшего понимания темы пользовались обучающим ресурсом 3Blue1Brown. 3Blue1Brown — известный математический YouTube-канал, который ведёт Грант Сандерсон. Многим нравится 3Blue1Brown за прекрасные объяснения Гранта и великолепные анимации.

21 мая стартует новый поток курса о математике для Data Science. Специально к его запуску мы делимся переводом, в котором автор решил рассказать, как делать анимации, подобные анимациям на канале 3Blue1Brown, чтобы вы могли иллюстрировать свои идеи и рассуждения о математике и не только.

Читать далее

Как американские военные думают и видят мир: визуальный и концепуальный язык

Время на прочтение4 мин
Охват и читатели9.6K
Вооруженные силы Соединенных Штатов действуют на концептуальном уровне, выходящем за рамки любой другой школы мысли, за исключением, возможно, академической философии, потому что у них гораздо больший бюджет.

image

Иногда по вечерам мне нравится уложить детей спать, налить себе что-нибудь и поискать в Интернете PDF-файлы, созданные военными, чтобы посмотреть на удивительную графику внутри них. Я думал, что я единственный человек с этим хобби, но несколько недель назад мой друг Финн Смит сказал мне, что ему тоже нравится военная графика в формате PDF. Интернет прекрасно объединяет людей.

Вскоре мы с Финном согласились, что «осведомленность о боевом пространстве» (“battlespace awareness”) — это особенно хороший термин для поиска. Лучший способ начать такой поиск — попросить Google выполнять поиск только в PDF-файлах в военной сфере. Как этот, например:

“battlespace awareness” filetype:pdf site:*.mil


Что такое «осведомленность о боевом пространстве»? Что ж, если посмотреть на очень-очень высоком уровне, различные части вооруженных сил США пытаются создать операционную систему для использования в ситуациях военного времени. Эти усилия привели к возникновению всевозможных проблем и возможностей финансирования. Как должен выглядеть интерфейс? Как следует идентифицировать врага на экране? Какую роль должны играть дроны?
Читать дальше →

6 причин, по которым вам следовало бы отказаться от гистограмм

Время на прочтение8 мин
Охват и читатели12K

Гистограммам не чужды систематические ошибки. Дело в том, что они достаточно условны и могут привести к неправильным выводам о данных. Если вы хотите визуализировать переменную, лучше выбрать другой график.

Читать далее

Ближайшие события

Ударим биспектром по бездорожью, или как найти золото в Сибири

Время на прочтение11 мин
Охват и читатели4K

В предыдущей статье Ищем рудное золото на острове Сумбава, Индонезия я рассказывал про поиски золота в Индонезии, где при схожей геологической ситуации золотые жилы зачастую выходят на поверхность, в то время как в Сибири жилы обычно погребены под толщей осадочных пород. Конечно, десятки метров наслоений разных геологических периодов и состава сильно усложняют задачу поиска рудных ископаемых. Кроме того, есть проблема наличия геологических данных, собранных непосредственно на местности — задачи обследования территории теплой Индонезии и морозной болотистой Сибири не сравнимы. А еще следует помнить про специфику России — детальные геологические обследования времен СССР до сих пор засекречены (а после того не проводились, по крайней мере, в сопоставимых масштабах), при этом бумажные карты и данные бурения находятся в архивах, а номера скважин на картах и в отчетах о бурении намеренно изменены и таблицы соответствия хранит министерство обороны… как в сказке про смерть Кащея. Так что в реальности эти данные все равно что и не существуют.


В связи со сложностью задачи, нам потребуются серьезные статистические методы, такие, как полиспектральный анализ. Что интересно, такой анализатор у нас уже есть… в голове. Это легко подтвердить тем, что мы способны различать так называемый «малиновый звон» колоколов — этот эффект не проявляется на спектре, зато отлично виден на биспектре. Большинство людей отличает колокола с малиновым звоном, для этого даже не требуется наличие музыкального слуха. Опытный геолог, занимающийся визуальной дешифровкой космоснимков, способен вручную выделить на них элементы, сопутствующие различным погребенным геологическим структурам. Мы же, как обычно, воспользуемся вычислительными методами и построим 3D геологические модели для автоматизированного анализа.


Читать дальше →

OpenNotes — когда пациент знает, чем он болен и как его лечат

Время на прочтение7 мин
Охват и читатели3.9K

Обычно вы посещаете врача по случаю болезни или ежегодного медицинского обследования. Во время приема доктор измеряет несколько показателей — пульс, артериальное давление, вес, — которые зачастую не позволяют судить о состоянии здоровья в целом. При наличии подозрений на серьёзное заболевание вас могут отправить на более подробные исследования и анализы или к профильному специалисту. А что если ежегодный медосмотр далеко не самой эффективный метод? Рутинное обследование предоставляет врачу довольно мало информации, но при этом отнимает достаточно много времени. Несвоевременность или недостаточность информации не позволяет вовремя диагностировать серьёзные проблемы со здоровьем. Ваша медицинская карта по большей части состоит из спорадических измерений, констатаций фактов и диагностических кодов, удобных для выписки счетов за услуги. Слишком многое в процессе сбора и использования медицинской информации служит потребностям исключительно врачей, аптек, больниц и страховых компаний. Акцент получения и анализа должен быть смещён в сторону пациентов.
Читать дальше →

Я выпустил Grafar — JS-библиотеку для визуализации

Время на прочтение3 мин
Охват и читатели13K

После пяти лет в столе я готов представить свою библиотеку для визуализации — grafar. У нас есть: 3D, реактивные вычисления и самое простое АПИ для построения математических графиков прямо в браузере. В статье рассказываю, что я сделал и как этим пользоваться.

Читать далее

Как мы работаем с логами (сбор, хранение, анализ при помощи Graylog)

Время на прочтение12 мин
Охват и читатели168K

Всем привет! В этой статье мы хотим поделиться нашим опытом использования полезной платформы Graylog, которая ежедневно помогает собирать, надежно хранить и анализировать логи с десятков серверов, окутанных заботой нашей поддержки :)

Это первая часть статьи, в которой мы расскажем почему выбор пал на Graylog, как его установить и произвести базовую настройку.

Читать далее

Storytelling R отчет против BI, прагматичный подход

Время на прочтение6 мин
Охват и читатели5.1K

Проблематика


Когда говорят про отчеты к данным (неважно, какая тема) все хотят гибкие дашборды, МНОГО дашбордов, играют конкурсы про BI, выдумывают разные сложные требования и кейсы, отсматривают массу вендоров и решений, разбиваются на непримиримые лагеря и на 100% уверены, что это то, без чего жизнь на работе тяжела, уныла и печальна.


Так ли это? По описанию очень сомнительно (похоже на серебряную пулю), а практика дает подтверждение «отнюдь не так».


Является продолжением серии предыдущих публикаций.

Читать дальше →

Ищем рудное золото на острове Сумбава, Индонезия

Время на прочтение6 мин
Охват и читатели5.2K

Сегодня мы будем искать полезное ископаемое золото с помощью открыто доступных на платформе Google Earth Engine (GEE) данных, используя геологическое моделирование и последующую классификацию методом опорных векторов для предсказания золотоносных участков по построенной геологической модели. Нам понадобится рельеф ALOS разрешением 30 м, радарные снимки Sentinel-1 SAR разрешением 10 м и оптические снимки Sentinel-2 10 м (только для визуализации). Точность классификатора получилась равной 97.77% и, самое главное, результат соответствует ожиданиям геолога — найденные участки на самом деле очень перспективны.

Красно-белым шариком отмечен участок для детального исследования

Читать дальше →

Развитие BI-систем: тренды и движение в сторону ABI. Взгляд со стороны визуализации

Время на прочтение8 мин
Охват и читатели17K

Почему привычные нам BI-системы меняются? Куда движется их развитие, какие технологии сейчас внедряются, как можно улучшить аналитику для бизнеса? В этой статье мы коснемся этих вопросов и постараемся ответить, чего следует ожидать в ближайшем будущем от систем бизнес-аналитики.

Читать далее