Лев Перла @Lev_Perla

Data Analyst

Profile Publications 1Comments 8Bookmarks 14

Eth_Moses Jan 24 2023 at 12:16

Шесть причин, почему ваши A/B-тесты не работают

18 min

34K

System Analysis and Design*Mathematics*Product Management*Statistics in ITOzon Tech corporate blog

Review

Technotext Winner 2023

Всем привет!

В прошлой статье, посвящённой A/B-тестированию, мы коснулись технических деталей устройства нашей A/B-платформы, которая обеспечивает нам супербыстрое распределение пользователей по вариантам. Теперь пришло время поговорить о методологии и процессе A/B-тестирования, а если точнее, то о проблемах и заблуждениях, которые могут привести к тому, что, проснувшись однажды среди ночи, вы почувствуете нестерпимую боль ниже спины от внезапного осознания очень простого факта —все проведённые вами A/B-тесты невалидны.

Это не пустые слова, результат многомесячного труда кучи людей может обесцениться в один момент, например, из-за неправильной агрегации данных или неправильной оценки статистической значимости равенства средних для ratio-метрики. Что уж говорить о более сложных проблемах, таких как множественное тестирование и ранняя остановка ваших тестов.

У A/B-тестов есть хорошее свойство — они либо работают, либо нет. Сегодня вы узнаете, что нужно учесть, чтобы заставить ваши эксперименты работать и приносить тем самым пользу бизнесу. Мы рассмотрим шесть самых распространённых причин, ведущих к несостоятельности системы принятия решений с помощью A/B-тестирования.

+56

ANazarov Oct 26 2022 at 11:29

Регрессионный анализ в DataScience. Часть 2. Преобразование Бокса-Кокса. Проверка тренда и случайности

51 min

11K

Python*Data Mining*Mathematics*Studying in ITStatistics in IT

Tutorial

Обзор построения и анализа линейной регрессионной модели с использованием преобразования Бокса-Кокса

miptgirl Mar 20 2016 at 00:33

Парадокс Симпсона и немного Pandas

4 min

39K

Python*Mathematics*

О чем статья?

В этой статье я хочу рассмотреть один из наиболее известных примеров парадокса Симпсона, попутно немного рассказав о MultiIndex в Pandas.
Обо всем по порядку.

Парадокс Симпсона — контринтуитивное явление в Статистике, когда мы видим в каждой из групп данных определенную зависимость, но при объеденении этих групп зависимость исчезает или становится противоположной. Например, если смотреть изменение среднего заработка женщин 25 лет и старше, работающих полный день, между 2000 и 2012 годами с различным уровнем образования, то мы получим следующие цифры (все расчеты проводились с поправкой на инфляцию):

Less than 9th grade -3.7%
9th-12th but didn’t finish -6.7%
High school graduate -3.3%
Some college but no degree -3.7%
Associate’s degree -10.0%
Bachelor’s degree or more -2.7%

По этим цифрам можно сделать вывод, что заработок женщин за 12 лет снизился. Однако, на самом деле, средний заработок женщин с полной занятостью вырос на 2.8% (подробнее про этот пример можно почитать тут).

Одним из наиболее известных примеров парадокса Симпсона является случай половой дискриминации при поступлении в Калифорнийский унивеситет Berkeley. Его и будем рассматривать далее.

Читать дальше →

+43

ru_vds Mar 22 2023 at 16:00

Как устроено индексирование баз данных

Easy

12 min

83K

Programming*Algorithms*Database Administration*RUVDS.com corporate blog

Translation

Индексирование баз данных — это техника, повышающая скорость и эффективность запросов к базе данных. Она создаёт отдельную структуру данных, сопоставляющую значения в одном или нескольких столбцах таблицы с соответствующими местоположениями на физическом накопителе, что позволяет базе данных быстро находить строки по конкретному запросу без необходимости сканирования всей таблицы. Применяются разные типы индексов, однако они занимают пространство и должны обновляться при изменении данных. Важно тщательно продумывать стратегию индексирования базы данных и регулярно её оптимизировать.

Читать дальше →

+64

WhalekitStudio Jul 15 2022 at 14:58

Семейство тестов хи-квадрат: что у них под капотом и какие выбрать для сравнения воронок

32 min

18K

Game development*Games monetization*Mobile App Analytics*MY.GAMES corporate blog

Всем привет, меня зовут Вячеслав Зотов, я аналитик в студии Whalekit. В этом тексте я расскажу про статистические тесты и сравнение воронок, а также мы попробуем разобраться, что объединяет χ²-тесты, какова область их применения и подробно исследуем применимость χ²-тестов к анализу воронок. И все это с примерами на Python.

Тест χ² — очень полезный аналитический инструмент, который тем не менее часто вызывает у аналитиков недопонимание и путаницу. Прежде всего это происходит из-за того, что существует целое семейство тестов χ², имеющих разные области применения. Дополнительную путаницу создает то, что тесты χ² часто рекомендуют применять для анализа продуктовых и маркетинговых воронок, а это обычно приводит к ошибочному использованию тестов.

+44

tguev Jul 29 2013 at 00:00

Знай сложности алгоритмов

2 min

Algorithms*

Translation

Эта статья рассказывает о времени выполнения и о расходе памяти большинства алгоритмов используемых в информатике. В прошлом, когда я готовился к прохождению собеседования я потратил много времени исследуя интернет для поиска информации о лучшем, среднем и худшем случае работы алгоритмов поиска и сортировки, чтобы заданный вопрос на собеседовании не поставил меня в тупик. За последние несколько лет я проходил интервью в нескольких стартапах из Силиконовой долины, а также в некоторых крупных компаниях таких как Yahoo, eBay, LinkedIn и Google и каждый раз, когда я готовился к интервью, я подумал: «Почему никто не создал хорошую шпаргалку по асимптотической сложности алгоритмов? ». Чтобы сохранить ваше время я создал такую шпаргалку. Наслаждайтесь!

Читать дальше →

+280

slivka_83 Oct 3 2022 at 21:19

ClearML | Туториал

9 min

20K

Data Mining*Big Data*Machine learning*

Tutorial

Data Mining Season

ClearML — это довольно мощный фреймворк, основным предназначением которого является трекинг ML-экспериментов. Для рассмотрения его возможностей построим небольшой пайплайн обучения ML-модели...

+11

yuryemeliyanov Oct 6 2017 at 16:11

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

7 min

221K

Open source*Python*SQL*VK corporate blogBig Data*

Привет, Хабр! В этой статье я хочу рассказать об одном замечательном инструменте для разработки batch-процессов обработки данных, например, в инфраструктуре корпоративного DWH или вашего DataLake. Речь пойдет об Apache Airflow (далее Airflow). Он несправедливо обделен вниманием на Хабре, и в основной части я попытаюсь убедить вас в том, что как минимум на Airflow стоит смотреть при выборе планировщика для ваших ETL/ELT-процессов.

Ранее я писал серию статей на тему DWH, когда работал в Тинькофф Банке. Теперь я стал частью команды Mail.Ru Group и занимаюсь развитием платформы для анализа данных на игровом направлении. Собственно, по мере появления новостей и интересных решений мы с командой будем рассказывать тут о нашей платформе для аналитики данных.

Читать дальше →

+23

Productstar May 16 2022 at 15:22

Unit-экономика — считаем и применяем

6 min

33K

Self Promo

Senior Product Manager of Alice в Яндекс и спикер курса "Профессия: продакт-менеджер" в ProductStar, Дмитрий Сапрыкин научит считать unit-экономику и расскажет, почему без нее не обойтись.

maks-sh Jan 30 2020 at 16:15

Туториал по uplift моделированию. Часть 1

9 min

89K

Data Mining*Machine learning*Internet marketing*Increasing Conversion Rate*МТС corporate blog

Tutorial

Technotext 2020

Команда Big Data МТС активно извлекает знания из имеющихся данных и решает большое количество задач для бизнеса. Один из типов задач машинного обучения, с которыми мы сталкиваемся – это задачи моделирования uplift. С помощью этого подхода оценивается эффект от коммуникации с клиентами и выбирается группа, которая наиболее подвержена влиянию.

Такой класс задач прост в реализации, но не получил большого распространения в литературе про машинное обучение. Небольшой цикл статей, подготовленный Ириной Елисовой (iraelisova) и Максимом Шевченко (maks-sh), можно рассматривать как руководство к решению таких задач. В рамках него мы познакомимся с uplift моделями, рассмотрим, чем они отличаются от других подходов, и разберем их реализации.

Читать дальше →

+27

Boodetonline Apr 23 2020 at 18:09

Большой гайд по A/B-тестированию

18 min

66K

Website development*Usability*Web services testing*Mobile App Analytics*Boodet.online corporate blog

Tutorial

Translation

В интернете масса информации об A/B-тестированиях, но многие до сих пор проводят их неправильно. Ошибиться действительно легко, поэтому подобные исследования требуют серьезной предварительной подготовки. В этой статье рассматриваются основные аспекты A/B-тестирования, которые необходимо учитывать для эффективного анализа веб-страниц.

Что такое A/B-тестирование?

A/B тестирование (сплит-тестирование) разделяет трафик в соотношении 50/50 между разными версиями страницы. По сути, этот метод — новое название для старой техники, известной как «контролируемый эксперимент».

Для проверки эффективности новых лекарств специалисты проводят сплит-тесты. Фактически, большинство исследовательских экспериментов можно назвать A/B-тестированием. Они включают в себя гипотезу, основной объект исследования, его вариацию и результат, представленный в виде статистических данных.

Вот и все. В качестве примера можно привести простое A/B-тестирование, при котором трафик в соотношении 50/50 делится между основной страницей и ее вариацией:

Читать дальше →

Ibragim_bad Dec 21 2022 at 15:05

Личный опыт подтягивания английского к собеседованиям

5 min

25K

Learning languages

В начале года я решил поменять работу и начал готовиться к собеседованиям. Понял, что мне нужно подтягивать английский, так как после звонка с hr меня бросало в холодный пот. В конце подготовки, я уже спокойно проходил собеседования на английском языке. В статье будут: план подготовки, виды упражнений, инструменты, которыми пользовался.

+23

dumperize Dec 9 2022 at 04:56

Optuna. Подбор гиперпараметров для вашей модели

6 min

23K

Python*Big Data*Machine learning*Artificial Intelligence

Tutorial

From sandbox

Optuna — это фреймворк для для автоматизированного поиска оптимальных гиперпараметров для моделей машинного обучения. Она подбирает оптимальные гиперпараметры методом проб и ошибок.

В данной статье представлен обзор фреймворка Optuna, рассмотрены ее основные возможности, базовые примеры использования.

+10

AdOneTech Nov 10 2014 at 08:12

A/B тестирование: 70 ресурсов, которые послужат хорошим стартом для начинающих

10 min

119K

Increasing Conversion Rate*

Translation

Сделать веб-сайт доходным можно двумя способами. Первый – привлекать больше трафика, второй – повышать конверсию, т.е. побуждать большее количество посетителей становиться покупателями. Скорее всего, вы уже слышали о том, что трафик можно просто купить – сотни интернет-ресурсов предлагают эту услугу. А не лучше ли оптимизировать конверсию? Как узнать, что именно нужно проверить, и как провести A/B тестирование?

А/В тестированию и оптимизации уровня конверсии посвящено бесчисленное количество ресурсов. Однако, очень редко на сайтах подробно разбирается весь этот процесс целиком от самого начала («Что и как тестировать?») и до конца («Как улучшить конверсию?»).

Читать дальше →

+44

Шесть причин, почему ваши A/B-тесты не работают

Регрессионный анализ в DataScience. Часть 2. Преобразование Бокса-Кокса. Проверка тренда и случайности

Парадокс Симпсона и немного Pandas

О чем статья?

Как устроено индексирование баз данных

Семейство тестов хи-квадрат: что у них под капотом и какие выбрать для сравнения воронок

Знай сложности алгоритмов

ClearML | Туториал

Airflow — инструмент, чтобы удобно и быстро разрабатывать и поддерживать batch-процессы обработки данных

Unit-экономика — считаем и применяем

Туториал по uplift моделированию. Часть 1

Большой гайд по A/B-тестированию

Что такое A/B-тестирование?

Личный опыт подтягивания английского к собеседованиям

Optuna. Подбор гиперпараметров для вашей модели

A/B тестирование: 70 ресурсов, которые послужат хорошим стартом для начинающих

Information

Specialization