Pull to refresh
0
0
Кирилл @kgguliev

Data/Product Analyst

Send message

ML-критерии для A/B-тестов

Reading time24 min
Views21K

Как и в большинстве компаний, наш основной инструмент для принятия решений — это A/B-тесты. Мы уделяем им большое внимание: проверяем на корректность все используемые критерии, пытаемся сделать результаты более интерпретируемыми, а также увеличиваем мощность критериев. В текущем посте я хочу рассказать, как дополнительно увеличить мощность, используя машинное обучение.

Читать далее
Total votes 8: ↑8 and ↓0+8
Comments9

Индуктивная статистика: доверительные интервалы, предельные ошибки, размер выборки и проверка гипотез

Level of difficultyMedium
Reading time15 min
Views11K

Одной из самых распространённых задач аналитики является формирование суждений о большой совокупности (например, о миллионах пользователей приложения), опираясь на данные лишь небольшой части этой совокупности - выборке. Можно ли сделать вывод о миллионной аудитории крупного мобильного приложения, собрав данные 100 пользователей? Или стоит собрать данные о 1000 пользователях? Какую вероятность ошибиться при анализе мы можем допустить: 5% или 1%? Относятся ли две выборки к одной совокупности, или между ними есть ощутимая значимая разница и они относятся к разным совокупностям? Точность прогноза и вероятность ошибки при ответе на эти и другие вопросы поддаются вполне конкретным расчётам и могут корректироваться в зависимости от потребностей продукта и бизнеса на этапе планирования и подготовки эксперимента. Рассмотрим подробнее, как параметры эксперимента и статистические критерии оказывают влияние на результаты анализа и выводы обо всей совокупности, а для этого смоделируем тысячу A/A, A/B и A/B/C/D тестов.

Читать далее
Total votes 22: ↑22 and ↓0+25
Comments13

Собирать данные VS интерпретировать их: типичные ошибки в e-commerce аналитике

Level of difficultyEasy
Reading time6 min
Views2.2K

Каждый день мы собираем больше 200 ГБ данных о клиентах Lamoda, которые листают сайт и делают заказы. Но красивые цифры про наше хранилище — это одно, а правильные выводы из данных — совсем другое.

Меня зовут Александр Айваз, я руковожу командой Data & Analytics в Lamoda Tech. И сегодня расскажу об ошибках в аналитике, которые легко совершить, глядя на данные в ретейле и e-commerce. Уверен, кому-то статья поможет иначе взглянуть на собственный продукт — или даст представление о том, с какими вопросами работают продуктовые аналитики.

Конечно, многие из этих ошибок когда-либо совершали и мы сами. В статье я постараюсь не углубляться в цифры, а расскажу о причинах на собственном примере. 

Читать далее
Total votes 19: ↑18 and ↓1+18
Comments2

Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE

Level of difficultyMedium
Reading time15 min
Views17K

Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda Tech. Не так давно я столкнулся с необычным взглядом на то, как следует интерпретировать результаты A/B-эксперимента. Он заключается в том, что наблюдаемый аплифт — разницу средних, полученную на основе выборок, — необходимо сравнивать не только с критическим z- или t-значением, но еще и с MDE, минимальным эффектом, который мы ожидаем зафиксировать. Утверждается, что тест следует принимать только в том случае, если наблюдаемый аплифт лежит правее значения MDE.

Кажется, что на занятиях по статистике такому обычно не учат. Я обратился к традиционному источнику информации — Всемирной паутине (web, internet) — и нашел на эту тему хорошую статью болгарского гигачада A/B-тестирования Георгия Георгиева. В ней он приводит несколько аргументов, демонстрирующих несостоятельность описанного выше подхода.

В своей статье я буду использовать аргументы Георгия Георгиева, разбавленные моими мыслями и примерами на эту тему.

Читать далее
Total votes 26: ↑26 and ↓0+26
Comments3

Чем занимается маркетинговый аналитик и как стать одним из них: рассказывают специалисты и работодатели

Level of difficultyEasy
Reading time11 min
Views6.6K

Исследователи направления «Анализ данных» Практикума проинтервьюировали менеджеров и специалистов в сфере маркетинга — и рассказывают, чем занимаются маркетинговые аналитики: как отличаются их задачи в разных компаниях и какие скилы и инструменты им необходимо освоить, чтобы найти работу. Также материал дополнила комментариями тимлид команды аналитики маркетинга в Авито Ирина Гутман.

Читать далее
Total votes 9: ↑6 and ↓3+3
Comments0

Экономика загородного дома. Как утеплить дом и не разориться?

Reading time30 min
Views47K

Экономичное отопление. Как утеплить дом и не разориться?

Каждый городской житель мечтает о загородном доме.

Тишина, свежий воздух!

И тут же вы едете смотреть участок земли в превосходном живописном и экологичном месте.

Вопрос стоимости отопления загородного дома‑ это та проблема, которую начинают решать уже ввязавшись в стройку на уже купленном участке земли в живописном месте.

И тут внезапно выясняется, что газа нет!

Что это означает?

Это означает, что у вас в наличии 15 кВт подключенного электричества на все хозяйственные нужды, включая отопление.

15кВт — много это или мало?

Ответ как обычно прячется в самом вопросе, а именно: Смотря для чего?

Ниже приведён проект реального одноэтажного дома. (см.рис.1–2)

Читать далее
Total votes 88: ↑66 and ↓22+60
Comments408

Методы балансировки в А/Б тестировании

Reading time14 min
Views5.7K

Привет, Хабр! Как часто вы думаете о балансе? Балансе вселенной, личной жизни и работы, балансе БЖУ в своем рационе или балансе в банке. Мы в команде ad-hoc X5 Tech не только думаем о балансе, но и сталкиваемся с ним в работе. Сегодня поговорим о балансировке при анализе причинности. Это важный инструмент статистики, который помогает нам выяснить, как одни величины влияют на другие. Балансировка здесь — это способ убрать ошибки, которые могут возникнуть из-за разных распределений переменных в разных группах. Расскажем о различных методах балансировки, об их работе, преимуществах и недостатках каждого. Также затронем проблемы и ограничения, связанные с балансировкой. Запасайтесь чаем, мы начинаем!

Читать далее
Total votes 6: ↑6 and ↓0+6
Comments0

База: айсберг A/B-тестов

Level of difficultyMedium
Reading time11 min
Views10K

Если вы по кусочкам и фрагментарно изучаете разные аспекты и тонкости A/B-тестирования, но большое множество концепций и идей не ложатся в единую систему, то это статья для вас.

Предлагаю разобрать структуру A/B-тестов сверху вниз. Пройдем по основным этапам от наблюдаемой разницы в целевой метрике до матрицы ошибок. Формализуем, систематизируем и идейно свяжем те концепции, которые стоят за экспериментами. Постараемся сформировать цельное представление об этой процедуре, обозначим, что эксперименты делают, чего не делают, как делают, в каком представлении работают с данными и метриками.

Читать далее
Total votes 13: ↑12 and ↓1+11
Comments4

Бутстреп и А/Б тестирование

Reading time10 min
Views60K

Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его недостатки. 

Читать далее
Total votes 12: ↑12 and ↓0+12
Comments9

Стратификация. Как разбиение выборки повышает чувствительность A/B теста

Reading time15 min
Views38K

Всем привет! На связи команда ad-hoc аналитики X5 Tech.

Сегодня подробно обсудим применение стратификации для повышения чувствительности оценки AB экспериментов.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments1

50+ бесплатных курсов и ресурсов по аналитике данных от Harvard, Google, Stanford (по которым я училась)

Reading time4 min
Views57K

Всем привет, меня зовут Маруся, я аналитик данных и на досуге веду телеграм-канал про аналитику.

Так как я сама изучала аналитику данных по бесплатным курсам, параллельно стажируясь, а потом уже и полноценно работая в компаниях, у меня накопилось много классных бесплатных курсов, которыми с вами тут и поделюсь.

Сейчас предлагают много платных программ, но если у вас есть интерес и вы можете себя организовать на учебу самостоятельно - то обучение по бесплатным курсам вам подойдет. Тем более что это обучение от лучших компаний и университетов мира - Harvard, IBM, Google, Stanford и других.

Читать далее
Total votes 11: ↑9 and ↓2+10
Comments5

Проверка корректности А/Б тестов

Reading time8 min
Views20K

Хабр, привет! Сегодня поговорим о том, что такое корректность статистических критериев в контексте А/Б тестирования. Узнаем, как проверить, является критерий корректным или нет. Разберём пример, в котором тест Стьюдента не работает.

Читать далее
Total votes 13: ↑13 and ↓0+13
Comments5

А/Б тесты с метрикой отношения. Дельта-метод

Reading time8 min
Views19K

Привет, Хабр! В этой статье разберём, что такое метрики отношения. Узнаем, почему критерий Стьюдента не работает. Попробуем применить бутстреп к зависимым данным. Изучим дельта-метод — способ оценки А/Б тестов с метрикой отношения.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments0

Шесть причин, почему ваши A/B-тесты не работают

Reading time18 min
Views37K

Всем привет! 

В прошлой статье, посвящённой A/B-тестированию, мы коснулись технических деталей устройства нашей A/B-платформы, которая обеспечивает нам супербыстрое распределение пользователей по вариантам. Теперь пришло время поговорить о методологии и процессе A/B-тестирования, а если точнее, то о проблемах и заблуждениях, которые могут привести к тому, что, проснувшись однажды среди ночи, вы почувствуете нестерпимую боль ниже спины от внезапного осознания очень простого факта —все проведённые вами A/B-тесты невалидны. 

Это не пустые слова, результат многомесячного труда кучи людей может обесцениться в один момент, например, из-за неправильной агрегации данных или неправильной оценки статистической значимости равенства средних для ratio-метрики. Что уж говорить о более сложных проблемах, таких как множественное тестирование и ранняя остановка ваших тестов. 

У A/B-тестов есть хорошее свойство — они либо работают, либо нет. Сегодня вы узнаете, что нужно учесть, чтобы заставить ваши эксперименты работать и приносить тем самым пользу бизнесу. Мы рассмотрим шесть самых распространённых причин, ведущих к несостоятельности системы принятия решений с помощью A/B-тестирования. 

Читать далее
Total votes 56: ↑56 and ↓0+56
Comments19

Как устроено A/B-тестирование в Авито

Reading time7 min
Views87K

Всем привет. Меня зовут Данила, я работаю в команде, которая развивает аналитическую инфраструктуру в Авито. Центральное место в этой инфраструктуре занимает А/B-тестирование.


А/B эксперименты — ключевой инструмент принятия решений в Авито. В нашем цикле продуктовой разработки А/B-тест является обязательным этапом. Мы проверяем каждую гипотезу и выкатываем только позитивные изменения.


Мы собираем сотни метрик и умеем детализировать их до бизнес-разрезов: вертикали, регионы, авторизованные пользователи и т. д. Мы делаем это автоматизированно с помощью единой платформы для экспериментов. В статье я достаточно подробно расскажу, как платформа устроена и мы с вами погрузимся в некоторые интересные технические детали.


Читать дальше →
Total votes 53: ↑48 and ↓5+43
Comments35

Некоторые нюансы в настройке профиля в LinkedIn

Level of difficultyEasy
Reading time10 min
Views12K

Когда мы говорим о зарубежных клиентах и карьере, то из-за угла выглядывает LinkedIn. Через него проходят все, кто развивает свою карьеру и бизнес за рубежом. Меня зовут Светлана Петровичева, в подборе я уже 12 лет, основатель headz.io, Get.it, спикер, веду канал про рекрутинг, спикер различных международных конференций, с вами поделюсь опытом работы с LinkedIn.

Сегодня поговорим про важность профиля, оформлении профиля, адаптации профиля под ЦА, нетворкинге и, конечно, поиске работы и клиентов.

Читать далее
Total votes 25: ↑20 and ↓5+19
Comments17

Улучшаем модель RandomForestClassifier

Level of difficultyEasy
Reading time3 min
Views3.6K

Статья взята из источника Daily Dose of Data Science.

Оговорюсь сразу: Я новичок в Data Scince и в оформлении статей. Пишу лишь сюда для своих заметок ну и может быть будет кому-то полезно. Прошу сильно не судить!)

Случайный лес - это довольно мощная и надежная модель, представляющая собой комбинацию множества различных деревьев принятия решений.

Читать далее
Total votes 5: ↑4 and ↓1+5
Comments7

Критерий Манна-Уитни — самый главный враг A/B-тестов

Reading time17 min
Views41K

Всем привет! Меня зовут Дима Лунин, я аналитик в компании Авито. В этой статье я расскажу про критерий Манна-Уитни и проблемы при его использовании.

Если вы анализировали A/B-тест, где вас интересовал прирост или падение какой-то метрики, то наверняка использовали критерий Манна-Уитни. Я хочу рассказать про подводные камни этого критерия, и почему мы в компании его не используем. А в конце вы поймёте, откуда такой холиварный заголовок) 

Читать далее
Total votes 21: ↑20 and ↓1+24
Comments18

Понимаем теорему Байеса

Reading time8 min
Views40K
Перевод статьи подготовлен специально для студентов базового и продвинутого курсов «Математика для Data Science».




Теорема Байеса – одна из самых известных теорем в статистике и теории вероятности. Даже если вы не работаете с расчетами количественных показателей, вероятно, вам в какой-то момент пришлось познакомиться с этой теоремой во время подготовки к экзамену.

P(A|B) = P(B|A) * P(A)/P(B)

Вот так она выглядит, но что это значит и как работает? Сегодня мы это узнаем и углубимся в теорему Байеса.
Читать дальше →
Total votes 27: ↑23 and ↓4+19
Comments11

Precision и recall. Как они соотносятся с порогом принятия решений?

Reading time3 min
Views41K

Недавно, постигая азы Машинного Обучения и изучая классификацию, я наткнулся на precision и recall. Диаграммки, которые часто вставляют, объясняя эти концепции, мне не помогли понять отличия между ними. Но чудо, я придумал объяснение, которое понятно мне, и я надеюсь, что оно поможет кому-нибудь из вас на пути изучения ML (возможно это объяснение кто-то придумал до меня) .

Перед тем как начинать, давайте представим горку песка, но в этом песке ещё есть песчаные камни, они ведь тоже являются песком, так? Также в этом песке есть некоторый мусор. Наша задача - просеять песок...

Читать далее
Total votes 4: ↑3 and ↓1+2
Comments2
1

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity

Specialization

Data Analyst, Data Scientist
Middle
Python
SQL
Git