Как стать автором
Обновить
20
0
Игорь Моисеев @Eth_Moses

Experimentation Analysis Team Lead, Ozon Tech

Отправить сообщение

От A/B-тестирования к Causal Inference в оффлайн ритейле

Уровень сложностиСредний
Время на прочтение31 мин
Количество просмотров11K

Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом. 

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии28

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

Время на прочтение9 мин
Количество просмотров11K

Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии15

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

Время на прочтение7 мин
Количество просмотров15K

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии0

Как увеличить мощность A/B-теста, если мало данных и время поджимает

Время на прочтение6 мин
Количество просмотров4.2K

Привет, меня зовут Настя, я продуктовый аналитик в Dodo. Недавно мы провели A/B-тест по запросу геолокации у пользователей. Когда я приступила к анализу, то с ужасом обнаружила, что данных — кот наплакал, а бизнес уже очень ждёт результатов. Тогда мне пришлось пустить в ход свои «секретные техники» A/B-тестирования.

В этой статье расскажу, как мне удалось увеличить выборку без загадочного бутстрапа, причём тут раскатка и почему отсутствие результата — тоже результат. Статья может быть интересна как аналитикам и продакт оунерам, так и всем неравнодушным, интересующимся A/B-тестированием.

Погнали!
Всего голосов 17: ↑17 и ↓0+17
Комментарии7

Reinforcement learning для оптимизации цен в ритейле

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.4K

Динамическое ценообразование является современным подходом к ценообразованию в ритейле. Оно напрямую связано с моделированием спроса, что позволяет проводить оптимизацию цен на будущий период. В этой задаче популярным решением является использование машинного обучения, однако, есть мнение, что Reinforcement Learning (а именно, многорукие бандиты), способны выступить сильной альтернативой моделям ML для динамического ценообразования. Но так ли это на самом деле? Попробуем разобраться в этой статье, держа в уме практические аспекты.

Читать далее
Всего голосов 5: ↑5 и ↓0+5
Комментарии0

Почему анализ ошибок – это начало разработки ML системы, а не конец?

Время на прочтение20 мин
Количество просмотров9.9K

Мы школа онлайн-образования, которая уже три года делает курсы по Data Science и разработке. Одна из наших целей – собрать коммьюнити классных специалистов и делиться крутыми и неочевидными знаниями. Так был рождён Симулятор ML – место, в котором начинающие и опытные специалисты решают задачи разной сложности, разрабатывают проекты в командах, осваивают новые инструменты, развивают продуктовое мышление и постоянно растут в профессии.

А, как это свойственно коммьюнити, горящему идеей, студенты и авторы хотят делиться своими инсайтами и открытиями, которые дадут свежий взгляд на устоявшиеся практики. Сегодня хотим поделиться статьей автора Симулятора ML Богдана Печёнкина о том, как лучше использовать анализ ошибок для разработки ML систем.

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии3

Гипотеза Пойи — один из самых ярких примеров того, что в математике «верить на слово» нельзя

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров64K

Сегодня я расскажу Вам очень показательную историю про одну математическую гипотезу. Она станет ярким примером того, как в математике прерываются, казалось бы, явные закономерности, и что любое предположение в этой науке нуждается в строгом доказательстве, даже если оно проверено для всех чисел, которые только могут поместиться в память суперкомпьютера.

Читать далее
Всего голосов 98: ↑95 и ↓3+119
Комментарии87

Clean Git History, или Тёмная сторона VCS

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров14K

Всем привет! Меня зовут Маша, и я Golang Backend Developer в компании Ozon. В этой статье я хотела бы поговорить о теме, так или иначе объединяющую все сферы нашего любимого мира IT. А именно — VCS Git.

Без системы контроля версий сейчас невозможно представить ни один проект. Это оплот любой кодовой базы, это мощнейший инструмент, с помощью которого эту базу можно изменять и отслеживать. Однако нередко чистотой истории изменений пренебрегают, полагаясь на старое доброе «И так сойдёт!», абсолютно игнорируя при этом сложность понимания и поддержки такой истории в будущем.

В этой статье я рассмотрю причины такого подхода, его недостатки, а также способы решения проблем, к которым он приводит. Я  выделила несколько основных принципов, которые помогут прийти к чистой истории изменений проекта. Давайте же вместе исследуем эту темную, неизведанную сторону Git, которая нам в этом поможет.

К тёмной стороне Git...
Всего голосов 50: ↑45 и ↓5+45
Комментарии62

Как дебажить запросы, используя только Spark UI

Время на прочтение8 мин
Количество просмотров6.1K

В этой статье я попытаюсь продемонстрировать, как дебажить задачу Spark, используя только Spark UI. Я запущу несколько задач Spark и покажу, как Spark UI отражает выполнение задачи. Также я поделюсь с вами несколькими советами и хитростями.

Читать далее
Всего голосов 6: ↑5 и ↓1+7
Комментарии1

Как мы применили метод Difference-in-Difference вместо обычных A/B-тестов и улучшили продукт

Время на прочтение6 мин
Количество просмотров3.7K

Иногда нужно проверить гипотезу, но старые добрые и широко известные методики вроде A/B-тестов не подходят. Например, когда нет никакой возможности рандомизировать тестовую и контрольную группу. Тогда в дело вступает метод Difference-in-Difference. Показываем на примере из EdTech, как мы меняем продукт на основе данных, полученных с помощью такого анализа.

Читать далее
Всего голосов 5: ↑4 и ↓1+4
Комментарии0

Работа со скрипичной диаграммой (Violin Plot) в Seaborn

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров4.6K

Скрипичные диаграммы могут эффективно отображать распределение данных, сравнивать различные наборы данных и выявлять аномалии (выбросы) и тенденции. В этой статье мы рассмотрим четыре различных стиля скрипичных диаграмм Seaborn, включая обычную, сгруппированную, горизонтальную и улучшенную версии, и разберемся в случаях их применения, преимуществах и недостатках. Мы также покажем, как улучшить код, чтобы нарисовать структурированную скрипку.

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии4

Разбираем особенности алгоритмов CatBoost и LightGBM: какой от них профит

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров14K

Всем привет. Меня зовут Артур. Готовясь к выступлению на внутреннем митапе по теме особенности алгоритмов у CatBoost и LightGBM, я понял, что не смог найти единого места, где были бы понятным языком рассказаны основные особенности того, что алгоритмически работает под капотом у CatBoost и LightGBM. Причём не формальные записи алгоритмов на псевдокоде, а понятные пошаговые инструкции. Так появилась эта статья.

Читать далее
Всего голосов 17: ↑17 и ↓0+17
Комментарии2

Как построить систему, способную выдерживать нагрузку в 5 млн rps

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров48K

Всем привет! 

Меня зовут Владимир Олохтонов, я руковожу командой разработки в отделе Message Bus, который является частью платформы Ozon. Мы занимаемся разработкой самых разных систем вокруг Kafka, etcd и Vault. В этой статье я расскажу о том, как мы строили линейно масштабируемую gRPC-прокси перед Kafka, способную обслуживать миллионы запросов в секунду, используя Go.

Читать далее
Всего голосов 102: ↑99 и ↓3+108
Комментарии58

Линейная алгебра самым простым языком с добавлением фишек из Python (часть 1)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров11K

Линейная алгебра является одним из самым интересных направлений в математике. В этой статье мы узнаем как выглядит матрица, как ее задать в Python и базовые операции с ними.

Читать далее
Всего голосов 16: ↑7 и ↓9+2
Комментарии9

Лучшие практики скриптования в Jira Server/Data Center

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.8K

Всем привет! Меня зовут Сергей Трошин, я администратор Atlassian в VKCO. Заметил, что в интернете мало концентрированной информации про написание автоматизаций на Groovy с помощью API Jira Java. Тема достаточно важная, так как ни одна серьёзная компания не обходится без сложных средств автоматизации бизнес-процессов. В большинстве случаев таким средством является плагин Scriptrunner от Adaptavist, именно на нём написаны скрипты, фрагменты из которых используются в этой статье. Но мы не будем зацикливаться на инструменте, позволяющим обращаться к API Jira Java, это не играет роли.

Читать далее
Всего голосов 25: ↑25 и ↓0+25
Комментарии2

ClickHouse в ритейловом проекте

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров4.3K

Всем привет!

Всегда интересно узнавать, как устроено IT в различных сферах и компаниях: какие задачи ставятся и как находятся решения. Да и в целом, делиться опытом полезно!

Меня зовут Илья Панов, я инженер данных в X5 Tech и участвую в развитии продукта CVM (Customer Value Maximization). В этой статье хочу рассказать о том, как живёт и развивается IT-продукт в ритейле. Расскажу, откуда появилась потребность в инструменте, подобном ClickHouse, и как проходило RnD для его внедрения.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии6

Фреймворк vtb_scorekit для разработки интерпретируемых скоринговых моделей

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров2.5K

Всем привет! Меня зовут Сакович Руслан, я занимаюсь корпоративным риск-моделированием, и сегодня расскажу о построении скоринговых моделей. Эти модели позволяют оценивать кредитные риски и являются крайне важными в деятельности банка. К ним предъявляются высокие требования в плане точности, стабильности и интерпретируемости результатов, поэтому мы в основном не можем использовать методы «черные ящики» (как например бустинги или нейросети), и обычно вынуждены пользоваться логистической регрессией. Сам по себе метод логистической регрессии довольно простой с точки зрения математики, однако для построения хорошей модели он требует тщательной предварительной обработки и энкодинга исходных данных, а также последующего довольно трудоемкого отбора переменных в модель. Причем стандартные библиотеки вообще не предоставляют возможности построения хоть какой-нибудь адекватной модели прямо из коробки. Мы решили стандартизировать весь процесс разработки скоринговых моделей, собрали используемые нами алгоритмы и объединили в библиотеку vtb_scorekit.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

А/Б тесты с метрикой отношения. Дельта-метод

Время на прочтение8 мин
Количество просмотров15K

Привет, Хабр! В этой статье разберём, что такое метрики отношения. Узнаем, почему критерий Стьюдента не работает. Попробуем применить бутстреп к зависимым данным. Изучим дельта-метод — способ оценки А/Б тестов с метрикой отношения.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии0

Теорема Байеса для чайников

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров58K

Теорема (формула) Байеса позволяет выяснить вероятность события при условии, что произошло связанное с ним другое событие.

Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома.

Читать далее
Всего голосов 20: ↑19 и ↓1+22
Комментарии35

YandexGPT в Алисе: как мы создаём языковую модель нового поколения

Время на прочтение7 мин
Количество просмотров44K
Обучение больших языковых моделей — это одно из самых актуальных направлений в машинном обучении. Крупнейшие IT-компании бьются над созданием всё более совершенных моделей. В том числе и Яндекс: мы создаём и применяем в наших сервисах нейросети YaLM уже больше двух лет.

В этом году улучшение моделей стало приоритетным на уровне всей компании. Внутри эта работа известна как проект «Генезис» или YaLM 2.0. Её результатом стал большой скачок в качестве наших моделей.

Новая модель получила название YandexGPT (YaGPT), вы могли впервые попробовать её в Алисе по запросу «Давай придумаем» чуть больше двух недель назад. Сегодня мы обновили YaGPT: Алиса научилась писать ответы с учётом истории предыдущих сообщений. В честь этого хотим рассказать Хабру историю всего проекта. Уже в ближайшее время новая модель станет частью и других сервисов Яндекса.



Читать дальше →
Всего голосов 52: ↑49 и ↓3+61
Комментарии82

Информация

В рейтинге
Не участвует
Откуда
Россия
Работает в
Дата рождения
Зарегистрирован
Активность