Статьи / Закладки / Профиль Eth

Игорь Моисеев @Eth_Moses

Experimentation Analysis Team Lead, Ozon Tech

Профиль Публикации 2Комментарии 9Закладки 145

nikita_volkov 19 окт 2023 в 12:55

От A/B-тестирования к Causal Inference в оффлайн ритейле

Средний

31 мин

11K

Data Mining*Big Data*Машинное обучение*Блог компании X5 Tech

Туториал

✏️ Технотекст 2023

Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир ~~A/B-тестирования~~ Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.

aledovskiy 9 июн 2023 в 10:19

PySpark для аналитика. Как выгружать данные с помощью toPandas и его альтернатив

9 мин

11K

Python*Data Mining*Big Data*Блог компании AvitoTech

Тимлид команды аналитики и DS в Авито Александр Ледовский рассказал, как быть, когда нужно посчитать что-то на pySpark, чтобы потом выгрузить.

aledovskiy 6 окт 2023 в 12:00

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

7 мин

15K

Python*Data Mining*Big Data*Блог компании AvitoTech

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

okolonasty 20 сен 2023 в 16:13

Как увеличить мощность A/B-теста, если мало данных и время поджимает

6 мин

4.2K

Аналитика мобильных приложений*Статистика в ITБлог компании Dodo Engineering

Кейс

Привет, меня зовут Настя, я продуктовый аналитик в Dodo. Недавно мы провели A/B-тест по запросу геолокации у пользователей. Когда я приступила к анализу, то с ужасом обнаружила, что данных — кот наплакал, а бизнес уже очень ждёт результатов. Тогда мне пришлось пустить в ход свои «секретные техники» A/B-тестирования.

В этой статье расскажу, как мне удалось увеличить выборку без загадочного бутстрапа, причём тут раскатка и почему отсутствие результата — тоже результат. Статья может быть интересна как аналитикам и продакт оунерам, так и всем неравнодушным, интересующимся A/B-тестированием.

Погнали!

+17

Mentalitet 18 сен 2023 в 14:17

Reinforcement learning для оптимизации цен в ритейле

Средний

14 мин

3.4K

Python*Алгоритмы*Машинное обучение*

Динамическое ценообразование является современным подходом к ценообразованию в ритейле. Оно напрямую связано с моделированием спроса, что позволяет проводить оптимизацию цен на будущий период. В этой задаче популярным решением является использование машинного обучения, однако, есть мнение, что Reinforcement Learning (а именно, многорукие бандиты), способны выступить сильной альтернативой моделям ML для динамического ценообразования. Но так ли это на самом деле? Попробуем разобраться в этой статье, держа в уме практические аспекты.

karpovcourses 12 сен 2023 в 18:38

Почему анализ ошибок – это начало разработки ML системы, а не конец?

20 мин

9.9K

Машинное обучение*

Мнение

Мы школа онлайн-образования, которая уже три года делает курсы по Data Science и разработке. Одна из наших целей – собрать коммьюнити классных специалистов и делиться крутыми и неочевидными знаниями. Так был рождён Симулятор ML – место, в котором начинающие и опытные специалисты решают задачи разной сложности, разрабатывают проекты в командах, осваивают новые инструменты, развивают продуктовое мышление и постоянно растут в профессии.

А, как это свойственно коммьюнити, горящему идеей, студенты и авторы хотят делиться своими инсайтами и открытиями, которые дадут свежий взгляд на устоявшиеся практики. Сегодня хотим поделиться статьей автора Симулятора ML Богдана Печёнкина о том, как лучше использовать анализ ошибок для разработки ML систем.

andreybrylb 6 сен 2023 в 18:01

Гипотеза Пойи — один из самых ярких примеров того, что в математике «верить на слово» нельзя

Простой

5 мин

64K

Математика*Читальный залНаучно-популярноеБлог компании vStack

Сегодня я расскажу Вам очень показательную историю про одну математическую гипотезу. Она станет ярким примером того, как в математике прерываются, казалось бы, явные закономерности, и что любое предположение в этой науке нуждается в строгом доказательстве, даже если оно проверено для всех чисел, которые только могут поместиться в память суперкомпьютера.

+119

LittleRunaway 15 авг 2023 в 15:43

Clean Git History, или Тёмная сторона VCS

Средний

13 мин

14K

Программирование*Git*Системы управления версиями*Блог компании Ozon Tech

Туториал

✏️ Технотекст 2023

Всем привет! Меня зовут Маша, и я Golang Backend Developer в компании Ozon. В этой статье я хотела бы поговорить о теме, так или иначе объединяющую все сферы нашего любимого мира IT. А именно — VCS Git.

Без системы контроля версий сейчас невозможно представить ни один проект. Это оплот любой кодовой базы, это мощнейший инструмент, с помощью которого эту базу можно изменять и отслеживать. Однако нередко чистотой истории изменений пренебрегают, полагаясь на старое доброе «И так сойдёт!», абсолютно игнорируя при этом сложность понимания и поддержки такой истории в будущем.

В этой статье я рассмотрю причины такого подхода, его недостатки, а также способы решения проблем, к которым он приводит. Я выделила несколько основных принципов, которые помогут прийти к чистой истории изменений проекта. Давайте же вместе исследуем эту темную, неизведанную сторону Git, которая нам в этом поможет.

К тёмной стороне Git...

+45

vlstrochkov 8 ноя 2020 в 12:10

Как дебажить запросы, используя только Spark UI

8 мин

6.1K

Big Data*DevOps*Блог компании OTUSHadoop*Data Engineering*

Перевод

В этой статье я попытаюсь продемонстрировать, как дебажить задачу Spark, используя только Spark UI. Я запущу несколько задач Spark и покажу, как Spark UI отражает выполнение задачи. Также я поделюсь с вами несколькими советами и хитростями.

blognetology 1 авг 2023 в 13:35

Как мы применили метод Difference-in-Difference вместо обычных A/B-тестов и улучшили продукт

6 мин

3.7K

Веб-аналитика*Управление продуктом*Блог компании НетологияСтатистика в IT

Иногда нужно проверить гипотезу, но старые добрые и широко известные методики вроде A/B-тестов не подходят. Например, когда нет никакой возможности рандомизировать тестовую и контрольную группу. Тогда в дело вступает метод Difference-in-Difference. Показываем на примере из EdTech, как мы меняем продукт на основе данных, полученных с помощью такого анализа.

v0br23 2 авг 2023 в 13:07

Работа со скрипичной диаграммой (Violin Plot) в Seaborn

Средний

7 мин

4.6K

Python*Big Data*Визуализация данных*

Туториал

Скрипичные диаграммы могут эффективно отображать распределение данных, сравнивать различные наборы данных и выявлять аномалии (выбросы) и тенденции. В этой статье мы рассмотрим четыре различных стиля скрипичных диаграмм Seaborn, включая обычную, сгруппированную, горизонтальную и улучшенную версии, и разберемся в случаях их применения, преимуществах и недостатках. Мы также покажем, как улучшить код, чтобы нарисовать структурированную скрипку.

artur_sosnovikov 28 июл 2023 в 16:22

Разбираем особенности алгоритмов CatBoost и LightGBM: какой от них профит

Средний

11 мин

14K

Алгоритмы*Машинное обучение*Искусственный интеллектБлог компании Точка

Обзор

Всем привет. Меня зовут Артур. Готовясь к выступлению на внутреннем митапе по теме особенности алгоритмов у CatBoost и LightGBM, я понял, что не смог найти единого места, где были бы понятным языком рассказаны основные особенности того, что алгоритмически работает под капотом у CatBoost и LightGBM. Причём не формальные записи алгоритмов на псевдокоде, а понятные пошаговые инструкции. Так появилась эта статья.

+17

sgjurano 20 июл 2023 в 15:13

Как построить систему, способную выдерживать нагрузку в 5 млн rps

Средний

12 мин

48K

Высокая производительность*IT-инфраструктура*Go*Распределённые системы*Блог компании Ozon Tech

Кейс

✏️ Технотекст 2023

Всем привет!

Меня зовут Владимир Олохтонов, я руковожу командой разработки в отделе Message Bus, который является частью платформы Ozon. Мы занимаемся разработкой самых разных систем вокруг Kafka, etcd и Vault. В этой статье я расскажу о том, как мы строили линейно масштабируемую gRPC-прокси перед Kafka, способную обслуживать миллионы запросов в секунду, используя Go.

+108

nikotin55 7 июл 2023 в 22:50

Линейная алгебра самым простым языком с добавлением фишек из Python (часть 1)

Простой

3 мин

11K

Python*Математика*

Из песочницы

Линейная алгебра является одним из самым интересных направлений в математике. В этой статье мы узнаем как выглядит матрица, как ее задать в Python и базовые операции с ними.

sergeyopypey 24 июн 2023 в 21:40

Лучшие практики скриптования в Jira Server/Data Center

Средний

10 мин

2.8K

Блог компании VKGroovy & Grails*

Туториал

Всем привет! Меня зовут Сергей Трошин, я администратор Atlassian в VKCO. Заметил, что в интернете мало концентрированной информации про написание автоматизаций на Groovy с помощью API Jira Java. Тема достаточно важная, так как ни одна серьёзная компания не обходится без сложных средств автоматизации бизнес-процессов. В большинстве случаев таким средством является плагин Scriptrunner от Adaptavist, именно на нём написаны скрипты, фрагменты из которых используются в этой статье. Но мы не будем зацикливаться на инструменте, позволяющим обращаться к API Jira Java, это не играет роли.

+25

ilya-panov 26 июн 2023 в 09:48

ClickHouse в ритейловом проекте

Средний

9 мин

4.3K

IT-инфраструктура*Big Data*IT-компанииБлог компании X5 TechData Engineering*

Всем привет!

Всегда интересно узнавать, как устроено IT в различных сферах и компаниях: какие задачи ставятся и как находятся решения. Да и в целом, делиться опытом полезно!

Меня зовут Илья Панов, я инженер данных в X5 Tech и участвую в развитии продукта CVM (Customer Value Maximization). В этой статье хочу рассказать о том, как живёт и развивается IT-продукт в ритейле. Расскажу, откуда появилась потребность в инструменте, подобном ClickHouse, и как проходило RnD для его внедрения.

rsakovich 23 июн 2023 в 13:11

Фреймворк vtb_scorekit для разработки интерпретируемых скоринговых моделей

Средний

14 мин

2.5K

Машинное обучение*Блог компании ВТБData Engineering*

Обзор

Всем привет! Меня зовут Сакович Руслан, я занимаюсь корпоративным риск-моделированием, и сегодня расскажу о построении скоринговых моделей. Эти модели позволяют оценивать кредитные риски и являются крайне важными в деятельности банка. К ним предъявляются высокие требования в плане точности, стабильности и интерпретируемости результатов, поэтому мы в основном не можем использовать методы «черные ящики» (как например бустинги или нейросети), и обычно вынуждены пользоваться логистической регрессией. Сам по себе метод логистической регрессии довольно простой с точки зрения математики, однако для построения хорошей модели он требует тщательной предварительной обработки и энкодинга исходных данных, а также последующего довольно трудоемкого отбора переменных в модель. Причем стандартные библиотеки вообще не предоставляют возможности построения хоть какой-нибудь адекватной модели прямо из коробки. Мы решили стандартизировать весь процесс разработки скоринговых моделей, собрали используемые нами алгоритмы и объединили в библиотеку vtb_scorekit.

nnazarov 8 июн 2023 в 11:19

А/Б тесты с метрикой отношения. Дельта-метод

8 мин

15K

Python*Математика*Статистика в ITБлог компании X5 Tech

Туториал

Привет, Хабр! В этой статье разберём, что такое метрики отношения. Узнаем, почему критерий Стьюдента не работает. Попробуем применить бутстреп к зависимым данным. Изучим дельта-метод — способ оценки А/Б тестов с метрикой отношения.

ildarin 5 июн 2023 в 11:10

Теорема Байеса для чайников

Простой

5 мин

58K

Математика*Статистика в ITНаучно-популярное

Туториал

Теорема (формула) Байеса позволяет выяснить вероятность события при условии, что произошло связанное с ним другое событие.

Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома.

+22

hommforever 5 июн 2023 в 10:29

YandexGPT в Алисе: как мы создаём языковую модель нового поколения

7 мин

44K

Поисковые технологии*Блог компании ЯндексМашинное обучение*Искусственный интеллектIT-компании

✏️ Технотекст 2023

Обучение больших языковых моделей — это одно из самых актуальных направлений в машинном обучении. Крупнейшие IT-компании бьются над созданием всё более совершенных моделей. В том числе и Яндекс: мы создаём и применяем в наших сервисах нейросети YaLM уже больше двух лет.

В этом году улучшение моделей стало приоритетным на уровне всей компании. Внутри эта работа известна как проект «Генезис» или YaLM 2.0. Её результатом стал большой скачок в качестве наших моделей.

Новая модель получила название YandexGPT (YaGPT), вы могли впервые попробовать её в Алисе по запросу «Давай придумаем» чуть больше двух недель назад. Сегодня мы обновили YaGPT: Алиса научилась писать ответы с учётом истории предыдущих сообщений. В честь этого хотим рассказать Хабру историю всего проекта. Уже в ближайшее время новая модель станет частью и других сервисов Яндекса.

Читать дальше →

+61

1 2

4 5 6 7 8