Как стать автором
Обновить
7
0
Арсений Иванов @Yellow_ki

BI аналитик

Отправить сообщение

Как настроить ежедневную сводку о работе Яндекс.Директа в Телеграм?

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров617

Эта статья для маркетологов и владельцев бизнеса, которые хотят оперативно получать данные о результатах своих рекламных кампаний без необходимости заходить в рекламные кабинеты.

Разберем, как автоматизировать сбор статистики и отправлять ежедневные отчеты в Telegram с помощью Python. Основная цель — помочь оперативно и точно оценивать эффективность рекламы за текущий период. Для этого мы используем средние показатели рекламы за 7, 30 и 90 дней, чтобы данные были объективны и при этом отражали общую картину.

Читать далее
Всего голосов 5: ↑2 и ↓3+1
Комментарии0

Вычисляем Вес в приросте в Superset

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.4K

Сегодня я продолжу знакомить вас с нестандартными задачами, которые появляются в моей работе, и способами их решения.

За информацию из этой статьи, я был готов заплатить деньги, убить или сходить на концерт Шамана.

Уверен, что мой рассказ будет полезен не только пользователям Superset, но и всем аналитикам, которые используют SQL в своей работе и учёбе.

Не буду рассказывать про базовое построение таблиц на BI системе Superset, с этим прекрасно справятся тонны видео на ютубе и бесполезные курсы (про которые я писал ранее). Но сразу скажу, что суперсет в отличие от некоторых других BI систем начинает раскрываться только если ты знаешь SQL, так что хотим мы этого или нет – погружаться в тонкости языка придётся.

Больше двух недель на поиск оптимального решения, ошибки, костыли и элегантный финал.

Итак, Что такое «Вес в приросте» и чем он отличается от обычного «Прироста», и в чем собственно говоря — сложность?

Разберёмся на примере:

Читать далее
Всего голосов 6: ↑6 и ↓0+8
Комментарии0

Рынок BI (business intelligence) в России

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров7.3K

Давайте попробуем начать разбирать тему рынка Аналитических платформ в России. Есть ли он, насколько сильно отстает от топ 3 из Гартнера, и когда наступит светлое будущее BI для пользователя. В этом коротком посте напишу тезисно, то, что я наблюдаю сейчас и какие проблемы вижу. Дальше буду развивать тему более детально.

Читать далее
Всего голосов 8: ↑6 и ↓2+6
Комментарии20

Теоретические основы сплайн-интерполяции или почему IQ тесты не имеют решения

Время на прочтение11 мин
Количество просмотров90K

Доброго времени, Хабр!

Куча времени прошла с того момента, как я написал свою первую статью, и уже почти год с того момента, как пришла в голову идея для второй. В силу многих обстоятельств (в первую очередь – лени и забывчивости), эта идея так и не была реализована ранее, но сейчас я собрался, написал весь этот материал и готов представить его вашему вниманию.

Начну с небольшой вводной. Будучи студентом 4-го, на тот момент, курса бакалавриата, я изучал курс «Компьютерная графика». Много там было разных интересных (и не очень) заданий, но одно прямо особо запало мне в душу: интерполяция кубическими сплайнами с заданными первыми производными на концах интервала. Пользователь должен был задавать значения первых производных, а программа — считать и выводить на экран интерполяционную кривую. Особенность и основная сложность задания заключена в том, что задаются именно первые производные, а не вторые, как в классической постановке сплайн-интерполяции.
Как я ее решал, и к чему оно в итоге пришло, я как раз и изложу в этой статье. И да, если по описанию задачи вы не поняли ни в чем ее смысл, ни в чем сложность, не переживайте, все это я также постараюсь раскрыть. Итак, поехали.

А, нет, погодите один момент. Вот вам два числовых ряда:
a) 2, 4, 6, 8, ?
b) 1, 3, ?, 7, 9

Какие числа должны стоять на месте вопросов и почему? Вы действительно уверены в своем ответе?
Читать дальше →
Всего голосов 37: ↑34 и ↓3+31
Комментарии64

BI-инструмент от Яндекса DataLens — теперь в опенсорсе

Время на прочтение7 мин
Количество просмотров53K

Сегодня мы опубликовали на GitHub под открытой лицензией Apache 2.0 исходный код Yandex DataLens — сервиса для анализа и визуализации данных. Теперь использовать опенсорс-версию DataLens может любой желающий и в любой инфраструктуре. 

Меня зовут Павел Дубинин, вместе с Гаджи Гаджиевым мы в Yandex Cloud занимаемся развитием DataLens. Сегодня расскажем, какие задачи он помогает решать разным пользователям, какие возможности открываются с выходом в опенсорс и что можно развернуть у себя прямо сейчас.   

Читать далее
Всего голосов 113: ↑113 и ↓0+113
Комментарии55

Цепочка методов в pandas. Прокачиваем свой код. Минигайд для интересующихся

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров20K

Цепочка методов (или цепочка вызовов, method chaining) - это стиль записи кода, который позволяет выполнять несколько операций за один раз, в конечном счете экономя время и энергию.

Для тех, кто не знаком с этой концепцией, это, по сути, способ применения нескольких методов или функций к данным в одной строке кода. Традиционный подход к использованию pandas предполагает использование отдельных функций и команд по одной за раз. Это может стать довольно утомительным и трудным для запоминания. Кроме того, если что-то пойдет не так, может быть трудно устранить неполадки, поскольку было использовано несколько операций. У меня еще была привычка, прыгать с одной ячейке на другую, вот тогда точно можно не вспомнить, что ты делал и проще переписать все заново.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии12

Интерактивная визуализация данных при помощи Plotly: строим красивые графики с Express и Cufflinks

Время на прочтение12 мин
Количество просмотров31K
image


Если Вы все еще используете Matplotlib для создания графиков в Python, самое время взглянуть на мир с высоты альтернативной библиотеки интерактивной визуализации.

Plotly позволяет создавать красивые, интерактивные, экспортируемые графики с помощью всего нескольких строк кода. Однако без карты подъем в гору Plotly может быть медленным и мучительным.

Вот камни преткновения, которые могут появиться на пути авантюристов, решивших покорить эту гору:

  • непонятная начальная настройка для работы оффлайн без аккаунта;
  • неимоверное количество строк кода;
  • устаревшая документация;
  • множество различных инструментов Plotly, в которых можно заблудиться (Dash, Express, Chart Studio и Cufflinks).

Несколько раз попытавшись вскарабкаться на эту гору, я все же нашел карту, снаряжение и короткую тропинку к вершине. В этой статье я укажу вам путь, рассказав как начать работу в оффлайн-режиме, как создавать графики, а потом их корректировать, куда обратиться за помощью и какими инструментами пользоваться.
Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

Шпаргалка по визуализации данных в Python с помощью Plotly

Время на прочтение62 мин
Количество просмотров306K
Plotly — библиотека для визуализации данных, состоящая из нескольких частей:

  • Front-End на JS
  • Back-End на Python (за основу взята библиотека Seaborn)
  • Back-End на R

В этой простыне все примеры разобраны от совсем простых к более сложным, так что разработчикам с опытом будет скучно. Так же эта «шпаргалка» не заменит на 100% примеры из документации.



Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии17

Анализ временных рядов, или как предсказать погоду на завтра

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров14K

Прочитав статью, вы узнаете, как можно прогнозировать погоду с точностью до двух градусов на 3 месяца вперед, причем здесь преобразование Фурье и машинное обучение

Читать далее
Всего голосов 15: ↑11 и ↓4+13
Комментарии33

Жизнь и смерть в данных

Время на прочтение10 мин
Количество просмотров7.1K

Мне тут стало интересно, а на сколько лет можно прожить больше если исключить те факторы риска, на которые можно влиять самому? Чтобы ответить на этот вопрос я взял открытые данные одного из самых масштабных исследований влияния факторов риска на смертность “Global Burden of Disease 2019” [1] и с их помощью рассчитал оценку увеличения ожидаемой продолжительности жизни при условии исключения управляемых факторов риска. Чтобы было интереснее я оформил результаты в виде дашборда куда можно зайти выбрать страну, пол, возраст и факторы риска и посмотреть результаты. Под катом подробнее о процессе обработки данных, исходники самого дашборда на питоне и конечно подробно посмотрим на графики, там интересно.

Читать далее
Всего голосов 18: ↑16 и ↓2+21
Комментарии12

Краткое руководство по Dash — Python веб-фреймворк для создания дэшбордов. Installation + Dash Layout

Время на прочтение7 мин
Количество просмотров97K
image

Всем привет!

Сегодня предлагаю погрузиться в один из удобнейших веб-фреймворков в связке c Python под названием Dash. Появился он не так давно, пару лет назад благодаря разработчикам фреймворка plotly. Сам Dash является связкой Flask, React.Js, HTML и CSS.

Выступление Криса Пармера на PLOTCON 2016


Давайте сразу установим фреймворк. Обновленные версии уточняйте тут.

pip install dash==0.31.1  # The core dash backend
pip install dash-html-components==0.13.2  # HTML components
pip install dash-core-components==0.38.1  # Supercharged components
pip install dash-table==3.1.7  # Interactive DataTable component (new!)

Друзья, если вы действительно хотите разобраться в данном фреймворке, читайте публикации до конца, так как зачастую сначала следуют примеры, а уже после детальный обзор кода. Если вам все равно непонятно — советую читать документацию по Dash на английском языке в оригинале. Также в рунете есть несколько статей, которые объясняют концепции, которые я решил пропустить в данном туториале.
Всего голосов 26: ↑26 и ↓0+26
Комментарии8

«Пепси. Пейджер. MTV». Создадим домашнюю пейджинговую сеть в 2023

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров17K

Я it-шник, и иногда мне бывает скучно. Мы окунемся с вами в прошлое и создадим домашнюю пейджинговую сеть в 2023 году. Научимся отправлять и получать сообщения на пейджер.

Читать далее
Всего голосов 95: ↑95 и ↓0+95
Комментарии30

Как создать интерактивный дашборд с нуля через ChatGPT

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров21K

Всем привет! Меня зовут Татьяна Яковлева, я работаю системным аналитиком в Росбанке в Центре компетенций развития технологий некредитных продуктов. В этой статье я расскажу, как использовать ChatGPT для визуализации данных и построении дашбордов при помощи Python и фреймворка Dash; поделюсь готовыми промтами для создания дашборда за несколько минут.

Читать далее
Всего голосов 14: ↑11 и ↓3+10
Комментарии9

Анализ временных рядов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров52K

Привет! В последние годы аналитика данных переживает настоящий бум. Все большее количество компаний принимают решение сбора, хранения и анализа данных, чтобы повысить эффективность своих бизнес-процессов и принимать решения на основе фактов.

Одним из наиболее важных инструментов в аналитике данных является анализ временных рядов. Временной ряд - это последовательность наблюдений за определенным параметром в разные моменты времени. Таким образом, временной ряд содержит информацию о том, как изменяется параметр со временем.

Читать далее
Всего голосов 16: ↑11 и ↓5+8
Комментарии11

Самый детальный разбор закона об электронных повестках через Госуслуги. Как сняться с военного учета удаленно

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров244K

Новый закон об электронных повестках потенциально касается практически всех российских мужчин от 18 до 70 лет. Я узнал у адвоката со специализацией в вопросах мобилизации, чем конкретно нам грозят эти нововведения, и можно ли как-то «выписаться из военкомата» удаленно.

Читать далее
Всего голосов 267: ↑228 и ↓39+260
Комментарии612

Через какое время на работе вы начинаете работать работу

Время на прочтение3 мин
Количество просмотров42K

По мере работы там я оброс тем, что мне хочется назвать 'Company-skills'. Помните, вначале было hardware и software, и потом между ними возникло firmware? Вот также между soft skills и hard skills есть company skills. Company skills это знания кучи URL, умение заказать доступы и знания, кто что аппрувит. Где смотреть логи Kibana и где алерты Zabbix и Grafana. Куда можно лезть, а где дадут по рукам. Это logins в 8 разных доменах (фирма поглотила много фирм поменьше, и они тихо переваривались в ее нутре. Но домены сопротивляются перевариванию дольше всего). И текстовый файл с кучей URL и текстовыми описаниями, что и где. Это умение правильно создать заявку в доморощенной системе XXX. И память о том, что в системе XXX логин надо вводить как просто 'user', в системе YYY как DOMAIN\user, а в ZZZ как user@domain, иначе не сработает.

Читать далее
Всего голосов 42: ↑40 и ↓2+47
Комментарии56

Обработка естественного языка (NLP) методами машинного обучения в Python

Время на прочтение11 мин
Количество просмотров32K

В данной статье хотелось бы рассказать о том, как можно применить различные методы машинного обучения (ML) для обработки текста, чтобы можно было произвести его бинарную классифицию. 

Рассмотрим задачу обработки естественного языка (NLP — Natural Lanuage Processing) на примере классификации психического здоровья для определения депрессии по комментариям в Reddit.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии4

Открытый курс машинного обучения. Тема 9. Анализ временных рядов с помощью Python

Время на прочтение27 мин
Количество просмотров357K

Доброго дня! Мы продолжаем наш цикл статей открытого курса по машинному обучению и сегодня поговорим о временных рядах.


Посмотрим на то, как с ними работать в Python, какие возможные методы и модели можно использовать для прогнозирования; что такое двойное и тройное экспоненциальное взвешивание; что делать, если стационарность — это не про вас; как построить SARIMA и не умереть; и как прогнозировать xgboost-ом. И всё это будем применять к примеру из суровой реальности.


UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.


Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Читать дальше →
Всего голосов 55: ↑53 и ↓2+51
Комментарии19

Как разработать ансамбль Light Gradient Boosted Machine (LightGBM)

Время на прочтение16 мин
Количество просмотров45K
В преддверии старта нового потока курса «Машинное обучение» представляем вашему вниманию материал о Light Gradient Boosted Machine (далее — LightGBM), библиотеке с открытым исходным кодом, которая предоставляет эффективную и действенную реализацию алгоритма градиентного бустинга.

LightGBM расширяет алгоритм градиентного бустинга, добавляя тип автоматического выбора объектов, а также фокусируясь на примерах бустинга с большими градиентами. Это может привести к резкому ускорению обучения и улучшению прогнозных показателей. Таким образом, LightGBM стала де-факто алгоритмом для соревнований по машинному обучению при работе с табличными данными для задач регрессионного и классификационного прогностического моделирования. В этом туториале вы узнаете, как разрабатывать ансамбли машин Light Gradient Boosted для классификации и регрессии. После завершения этого урока вы будете знать:

  • Light Gradient Boosted Machine (LightGBM) — эффективную реализацию ансамбля стохастического градиентного бустинга с открытым исходным кодом.
  • Как разрабатывать ансамбли LightGBM для классификации и регрессии с помощью API scikit-learn.
  • Как исследовать влияние гиперпараметров модели LightGBM на её производительность.


Давайте начнём
Всего голосов 15: ↑13 и ↓2+16
Комментарии0

Категориальные признаки

Время на прочтение8 мин
Количество просмотров61K

Не одним One-Hot единым...

В данной статье разберемся с кодированием категориальных данных. В профессиональной среде нередко о существовании чего-то кроме OH или Label Encoder не догадываются не только рядовые Junior DS, но и даже Middle, а иногда и Senior. Исправить данную несправедливость и призвана данная статья.

Читать далее
Всего голосов 4: ↑3 и ↓1+2
Комментарии0

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность