Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.
Head of Growth at Yandex GEO
Как не заблудиться в четырех соснах: выбираем способ найти причинно-следственную связь без экспериментов
Привет, я Паша - продуктовый аналитик во ВкусВилле, занимаюсь аналитикой коммуникаций. По долгу продукта касаюсь многих частей внутри мобильного приложения и почти всегда хочется знать как фактор X влияет на пользователя. Тут все вспомнили про AB тесты, но они не всегда возможны, поэтому в статье рассмотрим 4 метода исследований, которые помогут понять что делать, если выводы нужны, а рандомизации не случилось.
Для нашей цели нужны квази эксперименты – это исследования ситуаций, когда выборка разделилась на группы по естественным (не обязательно случайным) причинам. В этой статье не будем детально разбирать математику и новейшие достижения методов, но посмотрим на идеи, кейсы и специфические предпосылки.
Будет полезно тем, кто на вопросы вида “мы год назад запускали фичу, стало лучше?” не задумываясь говорит, что сказать нельзя.
Хорошая идея не пропадает зря или о пакете gMWT
В заметке кратко описан функционал пакета gMWT, который реализовывает обобщенный тест Манна-Уитни. Описано его применение для проверки гипотез о равенстве законов распределения для случая двух и трех выборок, продемонстрировано его применение для проверки гипотез о принадлежности изучаемого распределения некоторому закону.
Байесовский подход к АБ тестированию
Байесовский подход к АБ-тестам — альтернатива частотному (фреквентистскому) подходу. Поговорим о том, как заменить p-value на более интерпретируемые метрики, используя байесовские методы. На примере теста конверсии сравним частотный и байесовский подходы.
Парадокс, положивший начало научным вычислениям
В 1953 году научные сотрудники Лос-Аламосской национальной лаборатории подбирали задачу для одного из первых электронных компьютеров. Выбор пал на простейшую одномерную систему — цепочку грузиков соединённых пружинами с нелинейной упругостью. Результаты моделирования вполне соответствовали ожиданиям: после возбуждения основного колебательного режима систему предоставляли самой себе, после чего энергия равномерно распределялась по остальным колебательным модам, и движения цепочки обретали характер белого шума.
Но однажды, из-за затянувшегося обеденного перерыва, машину оставили работать дольше обычного. Спохватившись, учёные вернулись в компьютерный зал и заметили, что расчётная система, пробыв некоторое время в состоянии теплового равновесия, вышла из него, а энергия в процессе эволюции периодично кочевала между наиболее длиноволновыми модами, практически не передаваясь на коротковолновые колебания. И в конце концов, система возвращалась из хаоса в исходное состояние! Этот парадокс ознаменовал собой рождение компьютерного моделирования, теории детерминированного хаоса и солитоники.
Анатомия мифа. Динозавры древних скифов
Автор сообщества Фанерозой, биотехнолог, Людмила Хигерович. Художники сообщества Фанерозой: Людмила Хигерович, Deus.exe
По заголовку можно было бы подумать, что я сейчас буду пересказывать сюжеты с одного небезызвестного федерального канала, знаменитого псевдодокументальными сюжетами на тему палеоконтакта и динотопии до нашей эры. Однако спешу Вас успокоить — пост исключительно научный и все взаимодействия живых людей с живыми динозаврами будут исключительно в рамках шутки.
Тема динозавров никогда не перестанет быть популярной, хотя периодически сдает свои позиции горячим темам и трендам. Но потом подрастает новое поколение детишек, выходит новый фильм, игра, комикс, и понеслась. К тому же, новые технологии приносят все больше открытий и в старые находки, генерируя новые волны интереса буквально каждый год.
Стивен Вольфрам: кажется, мы близки к пониманию фундаментальной теории физики, и она прекрасна
Неожиданное открытие
За прошедшие несколько веков произошел настоящий прорыв в наших знаниях о принципах работы окружающего нас мира. Но несмотря на это, у нас все еще нет фундаментальной теории физики, и мы все так же не имеем ответа на вопрос о том, как именно работает наша Вселенная. Я занимаюсь этой темой уже порядка 50-и лет, но только в последние несколько месяцев все кусочки пазла наконец-то начали складываться вместе. И получающаяся картина оказалась гораздо прекрасней, чем все, что я только мог себе представить.
Как устроено A/B-тестирование в Авито
Всем привет. Меня зовут Данила, я работаю в команде, которая развивает аналитическую инфраструктуру в Авито. Центральное место в этой инфраструктуре занимает А/B-тестирование.
А/B эксперименты — ключевой инструмент принятия решений в Авито. В нашем цикле продуктовой разработки А/B-тест является обязательным этапом. Мы проверяем каждую гипотезу и выкатываем только позитивные изменения.
Мы собираем сотни метрик и умеем детализировать их до бизнес-разрезов: вертикали, регионы, авторизованные пользователи и т. д. Мы делаем это автоматизированно с помощью единой платформы для экспериментов. В статье я достаточно подробно расскажу, как платформа устроена и мы с вами погрузимся в некоторые интересные технические детали.
Атрибуция с использованием цепи Маркова
Бизнес задача
Один из наших клиентов активно использовал маркетинговые каналы трафика для продвижения своих услуг и товаров. Через какое-то время данные по всем маркетинговым каналам выгрузили в хранилище BigQuery, и решили, что пришло время сделать с ними что-нибудь интересное. Например, расширять и модифицировать свои аналитические модули для оптимизации маркетинговых расходов. В частности, реализовать возможность использовать более сложную атрибуцию каналов с помощью цепочек Маркова, которой не было Google Analytics на тот момент, а возможно и сейчас нет.
Мы рассказывали в своем блоге о некоторых общих проблемах атрибуции рекламных каналов. Здесь же речь пойдет исключительно об использовании цепочек Маркова.
Что почитать проектному менеджеру: книги про управление персоналом, soft skills и DevOps
Сегодня мы собрали несколько полезных книг для PM’ов. В подборку вошла литература, которую рекомендуют к прочтению в тематических тредах на Hacker News, Reddit и Quora.
15 книг по машинному обучению для начинающих
Добавляйте в закладки и делитесь с коллегами!
Книги по машинному обучению на русском
1. «Математические основы машинного обучения и прогнозирования» Владимир Вьюгин.
О чем
Сначала изучите азы статистической теории машинного обучения, игр с предсказаниями и прогнозирования с применением экспертной стратегии. Их основы прекрасно объясняет автор книги, доктор физико-математических наук Владимир Вьюгин. Пособие рассчитано на студентов и аспирантов и в доступной форме излагает математические основы, необходимые для дальнейшей работы с машинным обучением.
2. «Верховный алгоритм» Педро Домингос.
О чем
Книга, благодаря которой даже ничего не смыслящие в математике и статистике люди поймут, что такое алгоритмы машинного обучения и каково их применение в жизни. Профессор Педро Домингос рассказывает о пяти основных школах Machine Learning и о том, как они используют идеи из различных областей научного знания — нейробиологии, физики, статистики, биологии, — чтобы помогать людям решать сложные задачи и упрощать рутину с помощью алгоритмов.
Как победить скликивание в Я. Директ и AdWords на 600 тысяч рублей в месяц
Ключом победы над фродом стал поминутный мониторинг трафика с уведомлениями об аномальных изменениях и отключением проблемных объявлений по API, и ряд отчётов, которые отражают ситуацию в реальном времени.
Рисунок 1. Диаграмма количества посетителей по ключевым словам по декаминутам
Как узнать, что вас атакуют?
Одним из первых признаков «скликивания» рекламы будет увеличение процента возвращаемых средств за фрод в Директе и AdWords.
«В Яндекс Директ расходы на фрод автоматически возвращаются на баланс рекламной кампании. Количество кликов, отсеянных системой защиты от фрода, отображается в отчетах «статистика по дням» «общая статистика» в строке «недействительные клики за весь выбранный период.»– справка Я. Директа «недействительных кликах».
В AdWords отображение уровня «недействительных кликов» можно включить на вкладке «столбцы»:
Рисунок 2. Настроенные столбцы с уровнем «недействительных кликов» в AdWords
В нашем случае, при среднем уровне «недействительных кликов» в Директе ≈ 10%, Яндексе вдруг стал возвращать 40% рекламного бюджета, а через месяц и вовсе 54%.
Информация
- В рейтинге
- Не участвует
- Откуда
- Москва, Москва и Московская обл., Россия
- Дата рождения
- Зарегистрирован
- Активность