Articles / Bookmarks / Profile of Analytique / Habr

Ольга Плюта @Analytique

Product data analyst | Ex-Yandex

Profile Publications 1Comments 9Bookmarks 124

nnazarov Dec 13 2023 at 16:53

А/Б тестирование с CUPED: детальный разбор

14 min

11K

Python*Mathematics*Statistics in ITX5 Tech corporate blog

✏️ Technotext 2023

Хабр, привет! Сегодня обсудим, как применять CUPED для повышения чувствительности А/Б тестов. Рассмотрим на простом примере принцип работы CUPED, покажем теоретически за счёт чего снижается дисперсия и приведём пример оценки эксперимента. Обсудим, как выбирать ковариату, как работать с бинарными метриками и что делать при противоречивых результатах.

+12

Boomburum Dec 27 2023 at 15:00

Хабр — Итоги 2023 года

Easy

9 min

19K

HabrHabr corporate blogCommunity management*Statistics in ITSocial networks and communities

Retrospective

Итак, 2023 год. Обнаружена планета с высокой вероятностью существования жизни, на 3D‑принтере учатся печатать сердце, сделаны шаги в борьбе с раком и деменцией, одобрили первое лекарство от болезни Альцгеймера и разработали препарат от болезни Бехтерева, пересадили глаз целиком, запустили GPT-4 и целую кучу нейронок — и это только малая часть итогов года. 2023, как и все остальные, дал нам много нового в науке, карьере, что‑то изменил у каждого в жизни. Менялся и Хабр: где‑то заметно, где‑то не очень, на уровне логики, чтобы каждому пользователю стало чуть быстрее и чуть приятнее. Традиционно в конце года мы всех посчитали и делимся самым важным с самыми важными — с пользователями, читателями и гостями Хабра.

+146

106

PyVolshebnyi Dec 28 2023 at 00:48

Реальный Python: грустные факты, которые вас разочаруют

Easy

3 min

93K

Python*Remote work

Opinion

Начинаем гуглить информацию о Python. Все статьи как под копирку: тут хорошо платят, легко учиться, гостеприимное коммьюнити, просто рай на земле. Это ловушка. Я писала на Python полтора года, так что пришло время поговорить о том, как там обстоят дела на самом деле.

+66

148

FSlow Dec 28 2023 at 11:10

Вы точно хотите быть Data Scientist-ом?

Easy

8 min

20K

Python*Machine learning*Project management*IT careerArtificial Intelligence

Прочитав замечательную статью от @dalerank, я подумал, а чем собственно мы хуже: моя любимая индустрия тоже полна мифов и разочарований, особенно учитывая недавние "прорывы в AI" и хайп вокруг больших языковых моделей по типу ChatGPT.

Создается ощущение, что теперь каждая компания считает, что у ей непременно нужно прикрутить волшебную вундер-вафлю на машинном обучении к каждому своему продукту, добавить AI в рекламную кампанию, и дела пойдут в гору. Шутка ли, этот ваш пресловутый AI теперь даже в холодильниках есть.

Ну а если на рынке растет спрос, значит должно расти и предложение, в следствие чего я вижу все больше людей, которые приходят к нам ~~в болото~~ с горящими глазами и готовностью перевернуть этот мир, а в итоге разбиваются о скалу реальности.

Нет, скорее всего вы не будете создавать state of the art (SOTA) системы, которые будут рисовать, искать информацию и писать код лучше, чем эти бесполезные кожаные мешки. А даже если будете - это будет только 20% вашей работы. Так ли это грустно? - я постараюсь рассказать под катом.

+15

slava_rumin Dec 27 2023 at 09:54

Как одна случайная мутация помогла мне найти лечение от неизлечимой болезни и собрать 342 миллиона

Easy

9 min

19K

Start-up developmentPopular scienceBiotechnologiesHealthInterview

Interview

В 2004 у меня родилась дочь с хрупкими костями. В 2 месяца медсестра сломала ей голень, когда измеряла рост. Всего у нее было 17 переломов. Когда я узнала диагноз своего ребенка, конечно, впала в депрессию. Я выходила на улицу и одного ребенка везла на инвалидной коляске, другого на коляске детской, тогда мне хотелось свести счеты с жизнью.

Психологи называют это “утрата здорового ребенка”, и рекомендуют сообщать этот диагноз в их присутствии. А на практике в роддоме мне предложили от больного ребенка отказаться.

В 2008 году я открыла фонд, чтобы помогать родителям в таких же ситуациях поставить своих детей на ноги.

+104

thoughtspile Dec 27 2023 at 11:42

Hippotable — анализ данных прямо в браузере

Easy

5 min

5.2K

JavaScript*Data Mining*Open data*Statistics in IT

Сегодня я расскажу про hippotable — удобный инструмент для анализа данных. Мне часто нужно поковыряться в датасете среднего размера (1–100 Мб), чтобы ответить на довольно простые вопросы. Ни один из существующих инструментов (bash, google sheets, jupyter + pandas) не показался мне особо подходящим для такой задачи, и я... решил сделать свой! Хотел поделиться результатом, показать пару интересных JS-инструментов для обработки и отображения данных, и рассказать, как дальше планирую развивать продукт. Запрыгивайте, будет интересно.

+15

aizakharov94 Dec 27 2023 at 13:35

Успешный опыт участия в Data Science хакатонах

Easy

37 min

4.7K

Big Data*Hackathon

В статье я хочу поделиться успешным командным и личным опытом участия в хакатонах и ML соревнованиях. На примере 13-ти соревнований, по итогу которых мы победили или оказывались на призовых местах, я рассажу о практических советах для будущих участников.

На личном опыте я убедился, что не всегда для победы требуются сложные алгоритмы, мощное железо или большой опыт в индустрии. Иногда 5-6 строчек кода и немного смекалки достаточно, чтобы получить топ-1 решение. Я расскажу вам про не очевидные, на первый взгляд, но довольно простые решения, а также раскрою некоторые интересные моменты хакатонской кухни, которые, надеюсь, вдохновят вас на участие.

Статья будет полезна будущим участникам соревнований и data science специалистам, которые смогут применить описанные решения и практические советы в реальных задачах.

Ada_0005 Dec 26 2023 at 14:47

Введение в SQL & СУБД на примере доступа к данным через Python

Medium

10 min

15K

Python*SQL*API*Flask*Data Engineering*

From sandbox

Краткое введение в SQL (+СУБД) на примере доступа к данным через Python. Я начинающий Data Scientist и решил написать статью где будет базовое введение в sql, а также как извлекать данные через разные способы (SQLalchemy, Requests).

Читать далеее

-2

DessDaz1996 Dec 26 2023 at 17:38

Учимся анализировать данные на примере API Codewars

Easy

10 min

4.3K

Python*Statistics in IT

Tutorial

Для начинающего специалиста, входящего в мир ИТ, одной из приоритетных задач трудоустройства является отработка и получение навыков хотя бы в одном (а лучше нескольких) языках программирования.

Мой опыт через решение алгоритмических задач показал, что этот метод помогает развить системное мышление. В жизни и в работе данный навык очень важен, поскольку существуют задачи, требующие нестандартного подхода к их решению.

vladislav_smirnov Dec 20 2023 at 11:26

Замыкания и декораторы в Python: часть 1 — замыкания

Easy

6 min

18K

Python*Functional Programming*

Tutorial

From sandbox

Впервые столкнувшись с концепцией замыканий, я мало что понял, и мне потребовалось потратить какое-то время на поиск и изучение дополнительных материалов, чтобы разобраться. Если у вас возникли те же проблемы, я постараюсь коротко, но понятно объяснить эту тему.

kucev Dec 20 2023 at 12:05

Разметка данных в 2023 году: текущие тренды и требования будущего

6 min

2.8K

Data Mining*Big Data*Machine learning*Artificial IntelligenceData Engineering*

Translation

Разметка данных и/или аннотирование данных уже давно являются критически важным компонентом многих проектов машинного обучения и ИИ. В последние годы спрос на точную и надёжную разметку данных существенно вырос, ведь этот процесс становится всё более насущным для успеха множества проектов. Что же такое разметка данных? Как она повлияет на бизнесы? На какие тренды стоит обратить внимание, потому что они сформируют образ будущего разметки данных? В своём посте мы исследуем эти вопросы, чтобы лучше понимать, в каком направлении будет двигаться технология в ближайшие несколько лет.

Читать дальше →

Sergey_Vorobyev Dec 20 2023 at 15:01

Метрики для оценки эффективности команд на удаленке и не только

Easy

5 min

13K

System Analysis and Design*Альфа-Банк corporate blogProject management*Personnel Management*

Case

✏️ Technotext 2023

В далёкие славные времена мы все работали в офисе и оценка эффективности команды решалась постоянными вербальными контактами. В те времена вовлеченность команды оценивались не столько по цифровым показателям, сколько по времени нахождения всех участников разработки в одном помещении…

В 2020 году мы, как и все, перешли на удаленку. Логично, что через некоторое время у менеджмента возник вопрос — насколько мы там эффективны? И второй, вытекающий из первого: что мы, как менеджмент, делаем для управления этой самой эффективностью?

Для ответов одних бизнес-показателей, очевидно, недостаточно, — они не отвечают на вопрос на сколько эффективно мы растем в ИТ. Нам нужны были метрики производства с учетом методологий и процессов применяемых в организации. В конце концов, мы же хотим понять — эффективна удаленка или нет?

+13

MasterMentor Dec 19 2023 at 03:14

Математика и физика для простой и результативной учёбы (Серия: Сельскому учителю в помощь). Часть I

Easy

36 min

13K

Mathematics*Reading roomPopular sciencePhysics

Сельские учителя спросили, как готовить детишек, чтоб по способностям и возможностям они не отличались от ровесников, живущих рядом с ведущими университетами с их богатыми библиотеками и высокой научной культурой. Так родились эти лекции. Они хороши для работающих на результат учителей небольших городков и деревень, любящих естествознание школьников от 14 лет (либо детей от 7 лет с учителем), и, несомненно, студентов младших курсов университетов.

+19

io_io Aug 18 2015 at 15:08

Как легко понять логистическую регрессию

5 min

210K

System Analysis and Design*Big Data*Machine learning*.io corporate blog

Tutorial

Translation

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. Также она входит в топ часто используемых алгоритмов в науке о данных. В этой статье суть логистической регрессии описана так, что она станет понятна даже людям не очень близким к статистике.

Читать дальше →

+13

JamaGava Sep 30 2016 at 10:46

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни»

15 min

251K

Entertaining tasksSystem Analysis and Design*Algorithms*Mathematics*

Tutorial

Статистика приходит к нам на помощь при решении многих задач, например: когда нет возможности построить детерминированную модель, когда слишком много факторов или когда нам необходимо оценить правдоподобие построенной модели с учётом имеющихся данных. Отношение к статистике неоднозначное. Есть мнение, что существует три вида лжи: ложь, наглая ложь и статистика. С другой стороны, многие «пользователи» статистики слишком ей верят, не понимая до конца, как она работает: применяя, например, тест Стьюдента к любым данным без проверки их нормальности. Такая небрежность способна порождать серьёзные ошибки и превращать «поклонников» теста Стьюдента в ненавистников статистики. Попробуем поставить точки над i и разобраться, какие модели случайных величин должны использоваться для описания тех или иных явлений и какая между ними существует генетическая связь.

Читать дальше →

+33

ffriend Oct 16 2014 at 14:15

Hadoop: что, где и зачем

14 min

467K

Big Data*Hadoop*

Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.

Читать дальше →

+55

lonely_luckily Jun 24 2018 at 18:40

Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin

6 min

36K

Python*Game development*Mobile App Analytics*Product Management*Pixonic corporate blog

Все рано или поздно приходят к аналитике за данными. В больших многопользовательских играх (да и синглплеере) без этого уже вообще никуда. Сколько пользователей предпочитают новый режим; где слабые места монетизации; куда смотреть геймдизайнерам, чтобы повысить вовлеченность игроков; и еще миллион вещей — подсчитывается вообще всё. И всё это влияет на решения, которые потом принимают разработчики.

А вот внедряют аналитику все по-разному: кто-то покупает сторонние решения (просто, но негибко), кто-то пишет под себя (долго и дорого), а кто-то пока просто считает несколько базовых метрик силами программистов и не заморачивается.

Поэтому я расскажу об инструменте, который будет полезен для всех. Кто только начинает выстраивать аналитику — сможет «на коленке» создать систему с нуля, а компании с уже готовыми решениями — «бустануть» свой подход.

Читать дальше →

+42

lelyakuznetsova Aug 6 2021 at 16:56

Обзор технологий хранения больших данных. Плюсы, минусы, кому что подойдет

22 min

26K

JUG Ru Group corporate blogData storages*ConferencesCloud services*Data Engineering*

Если вы собираетесь построить или перестроить свое хранилище данных, то столкнетесь с внушительным списком технологий на рынке. Пробовать каждую из них в поисках подходящей именно вам — долго и затратно.

На нашей конференции SmartData ведущий разработчик в Яндексе Максим Стаценко рассказал про плюсы и минусы различных решений для хранения данных: облака или железо, Hadoop, Vertica, ClickHouse, Exasol, Greenplum, Teradata и не только.

Работая в крупных компаниях, Максим попробовал много решений, сравнил их на одинаковых данных и задал вопросы их разработчикам и поставщикам.

Видео и расшифровка доклада — под катом. Далее повествование будет от лица Максима.

+29

MedBrat777 Jun 25 2018 at 09:48

А нам все «вертикально» — СУБД Vertica

8 min

49K

Сбер corporate blogDatabase Administration*Big Data*Data storage*Data storages*

Привет! Меня зовут Сергей, я работаю главным инженером в Сбертехе. В ИТ-сфере я примерно 10 лет, из которых 6 занимаюсь базами данных, ETL-процессами, DWH и всем, что связано с данными. В этом материале я расскажу о Vertica — аналитической и по-настоящему колоночной СУБД, которая эффективно сжимает, хранит, быстро отдает данные и отлично подходит в качестве big data решения.

Читать дальше →

+16

nnazarov Jun 8 2023 at 11:19

А/Б тесты с метрикой отношения. Дельта-метод

8 min

17K

Python*Mathematics*Statistics in ITX5 Tech corporate blog

Tutorial

Привет, Хабр! В этой статье разберём, что такое метрики отношения. Узнаем, почему критерий Стьюдента не работает. Попробуем применить бутстреп к зависимым данным. Изучим дельта-метод — способ оценки А/Б тестов с метрикой отношения.

1 2 3 4 5

А/Б тестирование с CUPED: детальный разбор

Хабр — Итоги 2023 года

Реальный Python: грустные факты, которые вас разочаруют

Вы точно хотите быть Data Scientist-ом?

Как одна случайная мутация помогла мне найти лечение от неизлечимой болезни и собрать 342 миллиона

Hippotable — анализ данных прямо в браузере

Успешный опыт участия в Data Science хакатонах

Введение в SQL & СУБД на примере доступа к данным через Python

Учимся анализировать данные на примере API Codewars

Замыкания и декораторы в Python: часть 1 — замыкания

Разметка данных в 2023 году: текущие тренды и требования будущего

Метрики для оценки эффективности команд на удаленке и не только

Математика и физика для простой и результативной учёбы (Серия: Сельскому учителю в помощь). Часть I

Как легко понять логистическую регрессию

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни»

Hadoop: что, где и зачем

Допинг для аналитики: почему стоит обратить внимание на Apache Zeppelin

Обзор технологий хранения больших данных. Плюсы, минусы, кому что подойдет

А нам все «вертикально» — СУБД Vertica

А/Б тесты с метрикой отношения. Дельта-метод

Information

Specialization