Статистика в IT

Статистика, исследования, тенденции

olegbunin 19 дек 2023 в 11:59

Наблюдаемость качества разработки: от субъективных суждений к объективным данным

11 мин

2.5K

Блог компании Конференции Олега Бунина (Онтико)Визуализация данных*Управление разработкой*Управление проектами*Статистика в IT

Кейс

Привет, Хабр! Я — Алексей Диянов, технический директор Nedra Digital. Мы — IT в нефтегазовой отрасли. Компании чуть больше трёх лет. Мы быстро выросли как в численности персонала, так и в количестве проектов, но не избежали классических проблем в виде трудностей внутренней коммуникации, регулярного тушения пожаров и принятия управленческих решений на основе субъективного мнения.

Поговорим о наблюдаемости качества разработки. Нужно ли измерять всё, что поддается измерению? И если нужно, то с чего начать, где брать исходные данные и с какими инженерными метриками работать, чтобы повысить управляемость разработки в будущем?

Dilemma 19 дек 2023 в 10:33

Фреймворк для дизайна A/B-теста

11 мин

2.6K

Big Data*Математика*Аналитика мобильных приложений*Статистика в IT

Сегодня мы рассмотрим простой базовый фреймворк для дизайна сплит-теста, который можно удобно использовать продуктовым аналитикам в своей работе. Разберем использование этого фреймворка, его теоретическую и математическую основу, и также поговорим о продуктовых аспектах заведения A/B-тестов — когда продакту и аналитику заводить A/B-тест не нужно. Вам понадобятся: представления о продуктовых метриках, знания python, первичные представления о математической статистике и чуточку воображения.

maratyv 16 дек 2023 в 21:24

АБ тесты и подводные камни при их автоматизации

Средний

14 мин

6.4K

Python*Big Data*Аналитика мобильных приложений*Статистика в IT

Из песочницы

Задача оценки нововведений в онлайн и мобильных приложениях возникает повсеместно. Один из наиболее надёжных и популярных способов решения этой задачи - двойной слепой рандомизированный эксперимент, также известный как АБ-тест.

На тему АБ-тестирования доступны как статьи на Хабре, так и целые книги (неполный список литературы в конце). В основе АБ-теста лежит следующая идея - случайно разделить пользователей на две или более группы, в одной из которых исследуемая функциональность выключена, а в других - включена. Затем можно сравнить метрики и сделать выводы.

Dilemma 13 дек 2023 в 17:34

RFM-сегментация в оптимизации CRM-стратегий

12 мин

1.7K

Big Data*Математика*Аналитика мобильных приложений*Статистика в IT

Туториал

Сегодня мы продолжим погружение в тему оптимизации CRM маркетинга при рассылке промо-предложений и рассмотрим опыт применения RFM-сегментации для решения этой задачи в рамках сервиса доставки еды и продуктов питания Delivery Club, ныне присоединившегося к группе компаний крупного e-com сервиса.

nnazarov 13 дек 2023 в 16:53

А/Б тестирование с CUPED: детальный разбор

14 мин

7.8K

Блог компании X5 TechPython*Математика*Статистика в IT

✏️ Технотекст 2023

Хабр, привет! Сегодня обсудим, как применять CUPED для повышения чувствительности А/Б тестов. Рассмотрим на простом примере принцип работы CUPED, покажем теоретически за счёт чего снижается дисперсия и приведём пример оценки эксперимента. Обсудим, как выбирать ковариату, как работать с бинарными метриками и что делать при противоречивых результатах.

+12

Product_Analyst 12 дек 2023 в 18:06

Расчет АБ через bootstrap + калькулятор

Простой

2 мин

Статистика в IT

Туториал

Однажды на собесе меня спросили “если бы ты выбирал только один метод расчёта АБ-тестов, что бы это было?” — не сомневаясь ни секунды я ответил — бутстрэп.

По теории некоторых классических расчётов АБ мы пробежали, а теперь посмотрим на короля среди методов рассчётов.

Это не самый популярный метод — и очень зря.

Главный плюс бутстрэпа — отсутствие ограничений. Ему абсолютно всё равно какое там у тебя распределение или дисперсия. Он прекрасно справляется с любой задачей, а его точности позавидуют классические методы.

Единственный минус — он требует больших выборок. Оценить твоих 100 человек он, конечно, сможет, но здесь это не лучший подход. Но и не слишком огромных, сэмпл из миллиона строк тут тоже не лучший вариант. Скоро поймёшь почему.

neoflex 11 дек 2023 в 11:31

Сравнительный анализ методов аппроксимации на основе SQL-запросов

Средний

19 мин

5.1K

Блог компании NeoflexPostgreSQL*SQL*Статистика в IT

Туториал

При работе с данными часто приходится сталкиваться с ситуацией, когда имеется некоторая функциональная зависимость y_i = f(x_i), которая получена в результате эксперимента или сбора статистики. То есть исходные данные представлены набором точек (x₁, y₁), (x₂, y₂) … (x_n, y_n), где n – количество экспериментальных значений. Если аналитическое выражение функции f(x) неизвестно или весьма сложно, то возникает чисто практическая задача: найти такую функцию Y = F(x), значения которой при x=x_i будут близки к экспериментальным данным. Приближение функции f(x_i) к более простой F(x) называется аппроксимацией. Аппроксимация позволяет исследовать числовые характеристики и качественные свойства объекта, сводя задачу к изучению более простых или более удобных объектов. Как правило, выбор модели аппроксимации определяется по минимальному значению погрешности на всем интервале исходных данных. Для расчетов необходимо использовать несколько видов аппроксимаций, чтобы определить более точное описание зависимости экспериментальных данных y = f(x_i).

Product_Analyst 10 дек 2023 в 20:20

Расчет АБ T-тестом

Простой

6 мин

3.1K

Аналитика мобильных приложений*Статистика в IT

Туториал

Продолжаем нырять в тему АБ и разбираться как считают тесты в большинстве продуктовых команд, где нет отдельного АБ-департамента.

Если ты еще не видел, то глянь вот здесь про дизайн тестов, как принять гипотезу от менеджера и привести ее в формат документации.

Примеры будут на R, но если ты питонист, можешь найти эти темы у меня в ТГ, там версия для Python тоже присутствует.

А теперь про сам тест.

ptsecurity 4 дек 2023 в 12:08

Азия — рай для хакеров: тайна самого цифровизированного региона планеты

Простой

3 мин

5.1K

Блог компании Positive TechnologiesИнформационная безопасность*Исследования и прогнозы в IT*Статистика в IT

Аналитика

Последние несколько десятилетий именно Азиатский регион ассоциируется с инновациями и технологическим прогрессом. Это одновременно и дар, и проклятье Азии — стремительное цифровое развитие повышает привлекательность региона для проведения хакерских атак. В 2022 году около трети всех успешных атак в мире пришлись на Азиатско-Тихоокеанский регион — больше, чем на какой-либо другой. Если местные правительства и организации не примут меры, ситуация может ухудшиться.

Как действуют злоумышленники в Азии, что им нужно и как с ними бороться — в полной версии нашего исследования, а в этом материале — немного про хакерский рай.

German_D 2 дек 2023 в 13:58

Статистика QA вакансий и резюме. Ноябрь 2023

Простой

3 мин

12K

Тестирование IT-систем*Тестирование веб-сервисов*Тестирование мобильных приложений*Тестирование игр*Статистика в IT

Аналитика

Раз в месяц я и команда QA Studio вручную собираем статистику по вакансиям и резюме тестировщиков с нескольких ресурсов. Сегодня — статистика за ноябрь. Мы не делаем выводы, а оставляем сухие цифры. Много или мало открытых вакансий и что с рынком — каждый может интерпретировать по-своему.

Посмотреть статистику

NNikolay 1 дек 2023 в 10:07

Разоблачаем эффект Даннинга-Крюгера — теперь с регрессией

6 мин

3.3K

Визуализация данных*Статистика в ITНаучно-популярное

Аналитика

Кратко:

1. В оригинальном исследовании показано совсем не то, что люди думают.

2. Оригинальное исследование так криво сделано статистически, что просто не удовлетворяет критерию фальсифицируемости. Простыми словами - генератор случайных чисел демонстрирует такой же результат.

3. Единственное, что этот эффект демонстрирует - это любовь людей к красивым историям (а математику никто не любит … и вообще есть ложь, большая ложь и статистика).

+10

robertd 26 ноя 2023 в 12:03

Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции

Средний

12 мин

26K

Анализ и проектирование систем*Визуализация данных*Статистика в IT

Аналитика

Перевод

Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.

И вы понимаете почему.

Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз...

Разоблачаем популярный миф

+90

Atlamos 22 ноя 2023 в 10:21

База: айсберг A/B-тестов

Средний

11 мин

6.3K

Блог компании СберМаркетУправление продуктом*Статистика в IT

Если вы по кусочкам и фрагментарно изучаете разные аспекты и тонкости A/B-тестирования, но большое множество концепций и идей не ложатся в единую систему, то это статья для вас.

Предлагаю разобрать структуру A/B-тестов сверху вниз. Пройдем по основным этапам от наблюдаемой разницы в целевой метрике до матрицы ошибок. Формализуем, систематизируем и идейно свяжем те концепции, которые стоят за экспериментами. Постараемся сформировать цельное представление об этой процедуре, обозначим, что эксперименты делают, чего не делают, как делают, в каком представлении работают с данными и метриками.

+11

ptsecurity 17 ноя 2023 в 12:04

Итоги расследований инцидентов ИБ в 2021–2023 годах

Простой

4 мин

Блог компании Positive TechnologiesИнформационная безопасность*IT-инфраструктура*Исследования и прогнозы в IT*Статистика в IT

Аналитика

Привет, на связи команда по расследованию инцидентов экспертного центра безопасности Positive Technologies (PT Expert Security Center, PT ESC). Вероятно, вы уже читали наши расследования здесь, на Хабре, а может быть, даже заглядывали к нам в блог. В последние два года число расследований у нашей команды выросло более чем вдвое, и в этот раз мы решили проанализировать 100+ последних своих проектов по расследованию, чтобы понять, как действуют злоумышленники и сколько в среднем по времени находятся в инфраструктуре компаний.

Читать

aspnmrv 9 ноя 2023 в 17:40

Проблема множественного тестирования на практике

Средний

15 мин

4.2K

Data Mining*Big Data*Статистика в IT

Из песочницы

Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.

Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.

Читать дальше →

Dad0va 7 ноя 2023 в 09:30

Xg предсказывает результаты матчей?

Простой

6 мин

R*Статистика в ITНаучно-популярное

Из песочницы

Для начала определим для кого эта статья? Моя цель заинтересовать не только обыкновенных зрителей, но и тех, кто уже занимается футбольной аналитикой. В статье я постараюсь показать интересные исследования об Xg.

Многие из тех, кто смотрит футбол и читает новости когда-нибудь видел метрику «xg». Что она вообще означает? Простыми словами Xg это количество ожидаемых голов. Т.е. каждый нанесённый удар по воротам имеет вероятность конвертироваться в забитый мяч, но с каждой позиции эта вероятность разная (если углубляться, то станет очевидным, что xg зависит от нескольких параметров, а не от одной позиции). К примеру, самая высокая вероятность забить мяч при исполнении пенальти. Чаще всего с пенальти дают 0.79 xg. Необходимо учитывать, что единой формулы расчёта xg нет, каждый провайдер рассчитывает её по-своему. Так например, для написания этой статьи я использовал данные с сайта https://understat.com/, но, если мы посмотрим другие источники, цифры будут отличаться.

Моя задача узнать, насколько точно Xg предсказывает количество голов в матче. Исследование будем проводить для АПЛ сезона 2022/2023. В данном исследовании мы ограничимся простыми методами анализа. Я составил таблицу из 380 матчей АПЛ.

German_D 3 ноя 2023 в 10:18

Статистика QA вакансий и резюме. Октябрь 2023

Простой

3 мин

10K

Аналитика

Раз в месяц я и команда QA Studio вручную собираем статистику по вакансиям и резюме тестировщиков с нескольких ресурсов. Сегодня — статистика за октябрь. Мы не делаем выводы, а оставляем сухие цифры. Много или мало открытых вакансий и что с рынком — каждый может интерпретировать по-своему.

Посмотреть статистику

a_melnikov 1 ноя 2023 в 12:43

Использование ML для прогнозирования CLTV

Средний

10 мин

2.2K

Блог компании билайнМатематика*Машинное обучение*Управление продажами*Статистика в IT

Туториал

Из прошлой статьи мы узнали, что CLTV (customer lifetime value) — метрика, используемая для оценки прибыли, которую компания может получить от своего клиента за время его пользования продуктами и сервисами компании.

Разберем, что означает каждая буква в определении CLTV (customer lifetime value). Кто такой клиент, что мы понимаем под lifetime и ценностью, которую приносит нам клиент.

CLTV строится для клиента, а не для номера телефона, так как мы не хотим терять историю взаимодействий с ним. Мы учитываем, что абонент может сменить номер телефона и/или может измениться номер договора. Также билайн — это не только мобильная связь, но и домашний интернет, которым наши абоненты могут пользоваться в рамках одного договора. Поэтому мы сразу решили собирать информацию и по этим услугам в рамках одной записи по клиенту. В будущем мы планируем прогнозировать CLTV уже на уровне физического лица и домохозяйств, объединяя историю пользования всех сим-карт клиента.

Под lifetime мы понимаем не полный жизненный цикл клиента от момента заключения договора до момента его закрытия, а пятилетний горизонт, который мы отсчитываем от текущего момента времени. То есть, если мы строим прогноз от января 2023 года, то прогноз будет построен помесячно до декабря 2027 года. Почему 5 лет? Этот срок был определен опытным путем — при нем достигается баланс между качеством предсказаний и потребностью в бизнес-процессах.

В билайне под ценностью клиента принято понимать маржу, которую нам приносит абонент с учетом всех затрат и доходов, которые мы можем аллоцировать на конкретного клиента.

+11

technokratiya 30 окт 2023 в 13:22

Исследование рынка ИТ-вакансий: годовой рост составил 18%

Простой

9 мин

11K

Исследования и прогнозы в IT*Карьера в IT-индустрииСтатистика в IT

Аналитика

✏️ Технотекст 2023

Мы проанализировали спрос на ИТ-специалистов в России за период с сентября 2022 года по сентябрь 2023 года. Одни из самых востребованных вакансий — системные и бизнес аналитики, менеджеры проектов и продуктов, а также Java-разработчики.

AlexAgree 24 окт 2023 в 10:42

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи

Простой

3 мин

34K

Python*Исследования и прогнозы в IT*Учебный процесс в ITКарьера в IT-индустрииСтатистика в IT

Из песочницы

Привет, Хабр! Я проанализировал 600 публичных мок-интервью с YouTube и собрал из них 10 000 уникальных вопросов. Затем посчитал, как часто они встречаются, и определил вероятность появления каждого вопроса. У меня есть данные по 20 профессиям, включая frontend, python, java-разработчика, специалиста по тестированию и многих других.

+50

1 2 3

5 6 ...

46 47

Статистика в IT

Наблюдаемость качества разработки: от субъективных суждений к объективным данным

Фреймворк для дизайна A/B-теста

АБ тесты и подводные камни при их автоматизации

RFM-сегментация в оптимизации CRM-стратегий

Истории

А/Б тестирование с CUPED: детальный разбор

Расчет АБ через bootstrap + калькулятор

Сравнительный анализ методов аппроксимации на основе SQL-запросов

Расчет АБ T-тестом

Азия — рай для хакеров: тайна самого цифровизированного региона планеты

Статистика QA вакансий и резюме. Ноябрь 2023

Разоблачаем эффект Даннинга-Крюгера — теперь с регрессией

Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции

База: айсберг A/B-тестов

Ближайшие события

Итоги расследований инцидентов ИБ в 2021–2023 годах

Проблема множественного тестирования на практике

Xg предсказывает результаты матчей?

Статистика QA вакансий и резюме. Октябрь 2023

Использование ML для прогнозирования CLTV

Исследование рынка ИТ-вакансий: годовой рост составил 18%

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи

Вклад авторов