Pull to refresh
5
0
Ольга Плюта @Analytique

Product data analyst | Ex-Yandex

Send message

А/Б тестирование с CUPED: детальный разбор

Reading time14 min
Views11K

Хабр, привет! Сегодня обсудим, как применять CUPED для повышения чувствительности А/Б тестов. Рассмотрим на простом примере принцип работы CUPED, покажем теоретически за счёт чего снижается дисперсия и приведём пример оценки эксперимента. Обсудим, как выбирать ковариату, как работать с бинарными метриками и что делать при противоречивых результатах.

Читать далее
Total votes 12: ↑12 and ↓0+12
Comments0

Хабр — Итоги 2023 года

Level of difficultyEasy
Reading time9 min
Views19K

Итак, 2023 год. Обнаружена планета с высокой вероятностью существования жизни, на 3D‑принтере учатся печатать сердце, сделаны шаги в борьбе с раком и деменцией, одобрили первое лекарство от болезни Альцгеймера и разработали препарат от болезни Бехтерева, пересадили глаз целиком, запустили GPT-4 и целую кучу нейронок — и это только малая часть итогов года. 2023, как и все остальные, дал нам много нового в науке, карьере, что‑то изменил у каждого в жизни. Менялся и Хабр: где‑то заметно, где‑то не очень, на уровне логики, чтобы каждому пользователю стало чуть быстрее и чуть приятнее. Традиционно в конце года мы всех посчитали и делимся самым важным с самыми важными — с пользователями, читателями и гостями Хабра.

Читать далее
Total votes 148: ↑148 and ↓0+146
Comments106

Реальный Python: грустные факты, которые вас разочаруют

Level of difficultyEasy
Reading time3 min
Views93K

Начинаем гуглить информацию о Python. Все статьи как под копирку: тут хорошо платят, легко учиться, гостеприимное коммьюнити, просто рай на земле. Это ловушка. Я писала на Python полтора года, так что пришло время поговорить о том, как там обстоят дела на самом деле. 

Читать далее
Total votes 249: ↑135 and ↓114+66
Comments148

Вы точно хотите быть Data Scientist-ом?

Level of difficultyEasy
Reading time8 min
Views20K

Прочитав замечательную статью от @dalerank, я подумал, а чем собственно мы хуже: моя любимая индустрия тоже полна мифов и разочарований, особенно учитывая недавние "прорывы в AI" и хайп вокруг больших языковых моделей по типу ChatGPT.

Создается ощущение, что теперь каждая компания считает, что у ей непременно нужно прикрутить волшебную вундер-вафлю на машинном обучении к каждому своему продукту, добавить AI в рекламную кампанию, и дела пойдут в гору. Шутка ли, этот ваш пресловутый AI теперь даже в холодильниках есть.

Ну а если на рынке растет спрос, значит должно расти и предложение, в следствие чего я вижу все больше людей, которые приходят к нам в болото с горящими глазами и готовностью перевернуть этот мир, а в итоге разбиваются о скалу реальности.

Нет, скорее всего вы не будете создавать state of the art (SOTA) системы, которые будут рисовать, искать информацию и писать код лучше, чем эти бесполезные кожаные мешки. А даже если будете - это будет только 20% вашей работы. Так ли это грустно? - я постараюсь рассказать под катом.

Читать далее
Total votes 15: ↑14 and ↓1+15
Comments3

Как одна случайная мутация помогла мне найти лечение от неизлечимой болезни и собрать 342 миллиона

Level of difficultyEasy
Reading time9 min
Views19K

В 2004 у меня родилась дочь с хрупкими костями. В 2 месяца медсестра сломала ей голень, когда измеряла рост. Всего у нее было 17 переломов. Когда я узнала диагноз своего ребенка, конечно, впала в депрессию. Я выходила на улицу и одного ребенка везла на инвалидной коляске, другого на коляске детской, тогда мне хотелось свести счеты с жизнью.

Психологи называют это “утрата здорового ребенка”, и рекомендуют сообщать этот диагноз в их присутствии. А на практике в роддоме мне предложили от больного ребенка отказаться.

В 2008 году я открыла фонд, чтобы помогать родителям в таких же ситуациях поставить своих детей на ноги.

Читать далее
Total votes 96: ↑88 and ↓8+104
Comments17

Hippotable — анализ данных прямо в браузере

Level of difficultyEasy
Reading time5 min
Views5.2K

Сегодня я расскажу про hippotable — удобный инструмент для анализа данных. Мне часто нужно поковыряться в датасете среднего размера (1–100 Мб), чтобы ответить на довольно простые вопросы. Ни один из существующих инструментов (bash, google sheets, jupyter + pandas) не показался мне особо подходящим для такой задачи, и я... решил сделать свой! Хотел поделиться результатом, показать пару интересных JS-инструментов для обработки и отображения данных, и рассказать, как дальше планирую развивать продукт. Запрыгивайте, будет интересно.

Читать далее
Total votes 15: ↑15 and ↓0+15
Comments13

Успешный опыт участия в Data Science хакатонах

Level of difficultyEasy
Reading time37 min
Views4.7K

В статье я хочу поделиться успешным командным и личным опытом участия в хакатонах и ML соревнованиях. На примере 13-ти соревнований, по итогу которых мы победили или оказывались на призовых местах, я рассажу о практических советах для будущих участников.

На личном опыте я убедился, что не всегда для победы требуются сложные алгоритмы, мощное железо или большой опыт в индустрии. Иногда 5-6 строчек кода и немного смекалки достаточно, чтобы получить топ-1 решение. Я расскажу вам про не очевидные, на первый взгляд, но довольно простые решения, а также раскрою некоторые интересные моменты хакатонской кухни, которые, надеюсь, вдохновят вас на участие.

Статья будет полезна будущим участникам соревнований и data science специалистам, которые смогут применить описанные решения и практические советы в реальных задачах.

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments4

Введение в SQL & СУБД на примере доступа к данным через Python

Level of difficultyMedium
Reading time10 min
Views15K

Краткое введение в SQL (+СУБД) на примере доступа к данным через Python. Я начинающий Data Scientist и решил написать статью где будет базовое введение в sql, а также как извлекать данные через разные способы (SQLalchemy, Requests).

Читать далеее
Total votes 8: ↑3 and ↓5-2
Comments13

Учимся анализировать данные на примере API Codewars

Level of difficultyEasy
Reading time10 min
Views4.3K

Для начинающего специалиста, входящего в мир ИТ, одной из приоритетных задач трудоустройства является отработка и получение навыков хотя бы в одном (а лучше нескольких) языках программирования.

Мой опыт через решение алгоритмических задач показал, что этот метод помогает развить системное мышление. В жизни и в работе данный навык очень важен, поскольку существуют задачи, требующие нестандартного подхода к их решению.

Читать далее
Total votes 1: ↑1 and ↓0+1
Comments0

Замыкания и декораторы в Python: часть 1 — замыкания

Level of difficultyEasy
Reading time6 min
Views18K

Впервые столкнувшись с концепцией замыканий, я мало что понял, и мне потребовалось потратить какое-то время на поиск и изучение дополнительных материалов, чтобы разобраться. Если у вас возникли те же проблемы, я постараюсь коротко, но понятно объяснить эту тему.

Читать далее
Total votes 7: ↑7 and ↓0+7
Comments17

Разметка данных в 2023 году: текущие тренды и требования будущего

Reading time6 min
Views2.8K

Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.
Читать дальше →
Total votes 4: ↑3 and ↓1+2
Comments1

Метрики для оценки эффективности команд на удаленке и не только

Level of difficultyEasy
Reading time5 min
Views13K

В далёкие славные времена мы все работали в офисе и оценка эффективности команды решалась постоянными вербальными контактами. В те времена вовлеченность команды оценивались не столько по цифровым показателям, сколько по времени нахождения всех участников разработки в одном помещении…

В 2020 году мы, как и все, перешли на удаленку. Логично, что через некоторое время у менеджмента возник вопрос — насколько мы там эффективны? И второй, вытекающий из первого: что мы, как менеджмент, делаем для управления этой самой эффективностью?

Для ответов одних бизнес-показателей, очевидно, недостаточно, — они не отвечают на вопрос на сколько эффективно мы растем в ИТ. Нам нужны были метрики производства с учетом методологий и процессов применяемых в организации. В конце концов, мы же хотим понять — эффективна удаленка или нет?

Читать далее
Total votes 25: ↑19 and ↓6+13
Comments12

Математика и физика для простой и результативной учёбы (Серия: Сельскому учителю в помощь). Часть I

Level of difficultyEasy
Reading time36 min
Views13K

Сельские учителя спросили, как готовить детишек, чтоб по способностям и возможностям они не отличались от ровесников, живущих рядом с ведущими университетами с их богатыми библиотеками и высокой научной культурой. Так родились эти лекции. Они хороши для работающих на результат учителей небольших городков и деревень, любящих естествознание школьников от 14 лет (либо детей от 7 лет с учителем), и, несомненно, студентов младших курсов университетов.

Читать далее
Total votes 19: ↑19 and ↓0+19
Comments43

Как легко понять логистическую регрессию

Reading time5 min
Views210K
Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. Также она входит в топ часто используемых алгоритмов в науке о данных. В этой статье суть логистической регрессии описана так, что она станет понятна даже людям не очень близким к статистике.

image
Читать дальше →
Total votes 25: ↑19 and ↓6+13
Comments2

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни»

Reading time15 min
Views251K
Статистика приходит к нам на помощь при решении многих задач, например: когда нет возможности построить детерминированную модель, когда слишком много факторов или когда нам необходимо оценить правдоподобие построенной модели с учётом имеющихся данных. Отношение к статистике неоднозначное. Есть мнение, что существует три вида лжи: ложь, наглая ложь и статистика. С другой стороны, многие «пользователи» статистики слишком ей верят, не понимая до конца, как она работает: применяя, например, тест Стьюдента к любым данным без проверки их нормальности. Такая небрежность способна порождать серьёзные ошибки и превращать «поклонников» теста Стьюдента в ненавистников статистики. Попробуем поставить точки над i и разобраться, какие модели случайных величин должны использоваться для описания тех или иных явлений и какая между ними существует генетическая связь.
Читать дальше →
Total votes 39: ↑36 and ↓3+33
Comments29

Hadoop: что, где и зачем

Reading time14 min
Views467K


Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.
Читать дальше →
Total votes 61: ↑58 and ↓3+55
Comments26

Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin

Reading time6 min
Views36K
Все рано или поздно приходят к аналитике за данными. В больших многопользовательских играх (да и синглплеере) без этого уже вообще никуда. Сколько пользователей предпочитают новый режим; где слабые места монетизации; куда смотреть геймдизайнерам, чтобы повысить вовлеченность игроков; и еще миллион вещей — подсчитывается вообще всё. И всё это влияет на решения, которые потом принимают разработчики.

А вот внедряют аналитику все по-разному: кто-то покупает сторонние решения (просто, но негибко), кто-то пишет под себя (долго и дорого), а кто-то пока просто считает несколько базовых метрик силами программистов и не заморачивается.

Поэтому я расскажу об инструменте, который будет полезен для всех. Кто только начинает выстраивать аналитику — сможет «на коленке» создать систему с нуля, а компании с уже готовыми решениями — «бустануть» свой подход.
Читать дальше →
Total votes 42: ↑42 and ↓0+42
Comments22

Обзор технологий хранения больших данных. Плюсы, минусы, кому что подойдет

Reading time22 min
Views26K

Если вы собираетесь построить или перестроить свое хранилище данных, то столкнетесь с внушительным списком технологий на рынке. Пробовать каждую из них в поисках подходящей именно вам — долго и затратно.

На нашей конференции SmartData ведущий разработчик в Яндексе Максим Стаценко рассказал про плюсы и минусы различных решений для хранения данных: облака или железо, Hadoop, Vertica, ClickHouse, Exasol, Greenplum, Teradata и не только.

Работая в крупных компаниях, Максим попробовал много решений, сравнил их на одинаковых данных и задал вопросы их разработчикам и поставщикам. 

Видео и расшифровка доклада — под катом. Далее повествование будет от лица Максима.

Читать далее
Total votes 24: ↑22 and ↓2+29
Comments13

А нам все «вертикально» — СУБД Vertica

Reading time8 min
Views49K
Привет! Меня зовут Сергей, я работаю главным инженером в Сбертехе. В ИТ-сфере я примерно 10 лет, из которых 6 занимаюсь базами данных, ETL-процессами, DWH и всем, что связано с данными. В этом материале я расскажу о Vertica — аналитической и по-настоящему колоночной СУБД, которая эффективно сжимает, хранит, быстро отдает данные и отлично подходит в качестве big data решения.


Читать дальше →
Total votes 22: ↑19 and ↓3+16
Comments15

А/Б тесты с метрикой отношения. Дельта-метод

Reading time8 min
Views17K

Привет, Хабр! В этой статье разберём, что такое метрики отношения. Узнаем, почему критерий Стьюдента не работает. Попробуем применить бутстреп к зависимым данным. Изучим дельта-метод — способ оценки А/Б тестов с метрикой отношения.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments0

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Analyst, Product Analyst
Senior
SQL
Python
English
Tableau
Math statistics
Visualization
Jupyter Notebook
Pandas
Yandex DataLens
French