Как стать автором
Обновить
83.5

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Наблюдаемость качества разработки: от субъективных суждений к объективным данным

Время на прочтение11 мин
Количество просмотров2.5K

Привет, Хабр! Я — Алексей Диянов, технический директор Nedra Digital. Мы — IT в нефтегазовой отрасли. Компании чуть больше трёх лет. Мы быстро выросли как в численности персонала, так и в количестве проектов, но не избежали классических проблем в виде трудностей внутренней коммуникации, регулярного тушения пожаров и принятия управленческих решений на основе субъективного мнения.

Поговорим о наблюдаемости качества разработки. Нужно ли измерять всё, что поддается измерению? И если нужно, то с чего начать, где брать исходные данные и с какими инженерными метриками работать, чтобы повысить управляемость разработки в будущем? 

Читать далее
Всего голосов 10: ↑8 и ↓2+6
Комментарии6

Фреймворк для дизайна A/B-теста

Время на прочтение11 мин
Количество просмотров2.6K

Сегодня мы рассмотрим простой базовый фреймворк для дизайна сплит-теста, который можно удобно использовать продуктовым аналитикам в своей работе. Разберем использование этого фреймворка, его теоретическую и математическую основу, и также поговорим о продуктовых аспектах заведения A/B-тестов — когда продакту и аналитику заводить A/B-тест не нужно. Вам понадобятся: представления о продуктовых метриках, знания python, первичные представления о математической статистике и чуточку воображения.

Читать далее
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

АБ тесты и подводные камни при их автоматизации

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров6.4K

Задача оценки нововведений в онлайн и мобильных приложениях возникает повсеместно. Один из наиболее надёжных и популярных способов решения этой задачи - двойной слепой рандомизированный эксперимент, также известный как АБ-тест.

На тему АБ-тестирования доступны как статьи на Хабре, так и целые книги (неполный список литературы в конце). В основе АБ-теста лежит следующая идея - случайно разделить пользователей на две или более группы, в одной из которых исследуемая функциональность выключена, а в других - включена. Затем можно сравнить метрики и сделать выводы.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

RFM-сегментация в оптимизации CRM-стратегий

Время на прочтение12 мин
Количество просмотров1.7K

Сегодня мы продолжим погружение в тему оптимизации CRM маркетинга при рассылке промо-предложений и рассмотрим опыт применения RFM-сегментации для решения этой задачи в рамках сервиса доставки еды и продуктов питания Delivery Club, ныне присоединившегося к группе компаний крупного e-com сервиса.

Читать далее
Всего голосов 4: ↑4 и ↓0+4
Комментарии2

Истории

А/Б тестирование с CUPED: детальный разбор

Время на прочтение14 мин
Количество просмотров7.8K

Хабр, привет! Сегодня обсудим, как применять CUPED для повышения чувствительности А/Б тестов. Рассмотрим на простом примере принцип работы CUPED, покажем теоретически за счёт чего снижается дисперсия и приведём пример оценки эксперимента. Обсудим, как выбирать ковариату, как работать с бинарными метриками и что делать при противоречивых результатах.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии0

Расчет АБ через bootstrap + калькулятор

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1K

Однажды на собесе меня спросили “если бы ты выбирал только один метод расчёта АБ-тестов, что бы это было?” — не сомневаясь ни секунды я ответил — бутстрэп.

По теории некоторых классических расчётов АБ мы пробежали, а теперь посмотрим на короля среди методов рассчётов.

Это не самый популярный метод — и очень зря.

Главный плюс бутстрэпа — отсутствие ограничений. Ему абсолютно всё равно какое там у тебя распределение или дисперсия. Он прекрасно справляется с любой задачей, а его точности позавидуют классические методы.

Единственный минус — он требует больших выборок. Оценить твоих 100 человек он, конечно, сможет, но здесь это не лучший подход. Но и не слишком огромных, сэмпл из миллиона строк тут тоже не лучший вариант. Скоро поймёшь почему.

Читать далее
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Сравнительный анализ методов аппроксимации на основе SQL-запросов

Уровень сложностиСредний
Время на прочтение19 мин
Количество просмотров5.1K

При работе с данными часто приходится сталкиваться с ситуацией, когда имеется некоторая функциональная зависимость yi = f(xi), которая получена в результате эксперимента или сбора статистики. То есть исходные данные представлены набором точек (x1, y1), (x2, y2) … (xn, yn), где n – количество экспериментальных значений. Если аналитическое выражение функции f(x) неизвестно или весьма сложно, то возникает чисто практическая задача: найти такую функцию Y = F(x), значения которой при x=xi будут близки к экспериментальным данным. Приближение функции f(xi) к более простой F(x) называется аппроксимацией. Аппроксимация позволяет исследовать числовые характеристики и качественные свойства объекта, сводя задачу к изучению более простых или более удобных объектов. Как правило, выбор модели аппроксимации определяется по минимальному значению погрешности на всем интервале исходных данных. Для расчетов необходимо использовать несколько видов аппроксимаций, чтобы определить более точное описание зависимости экспериментальных данных y = f(xi).

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии8

Расчет АБ T-тестом

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.1K

Продолжаем нырять в тему АБ и разбираться как считают тесты в большинстве продуктовых команд, где нет отдельного АБ-департамента.

Если ты еще не видел, то глянь вот здесь про дизайн тестов, как принять гипотезу от менеджера и привести ее в формат документации.

Примеры будут на R, но если ты питонист, можешь найти эти темы у меня в ТГ, там версия для Python тоже присутствует.

А теперь про сам тест.

Читать далее
Всего голосов 3: ↑2 и ↓1+1
Комментарии1

Азия — рай для хакеров: тайна самого цифровизированного региона планеты

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров5.1K

Последние несколько десятилетий именно Азиатский регион ассоциируется с инновациями и технологическим прогрессом. Это одновременно и дар, и проклятье Азии — стремительное цифровое развитие повышает привлекательность региона для проведения хакерских атак. В 2022 году около трети всех успешных атак в мире пришлись на Азиатско-Тихоокеанский регион — больше, чем на какой-либо другой. Если местные правительства и организации не примут меры, ситуация может ухудшиться.

Как действуют злоумышленники в Азии, что им нужно и как с ними бороться — в полной версии нашего исследования, а в этом материале — немного про хакерский рай.

Читать далее
Всего голосов 8: ↑4 и ↓40
Комментарии0

Статистика QA вакансий и резюме. Ноябрь 2023

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров12K

Раз в месяц я и команда QA Studio вручную собираем статистику по вакансиям и резюме тестировщиков с нескольких ресурсов. Сегодня — статистика за ноябрь. Мы не делаем выводы, а оставляем сухие цифры. Много или мало открытых вакансий и что с рынком — каждый может интерпретировать по-своему.

Посмотреть статистику
Всего голосов 7: ↑7 и ↓0+7
Комментарии12

Разоблачаем эффект Даннинга-Крюгера — теперь с регрессией

Время на прочтение6 мин
Количество просмотров3.3K

Кратко:

1. В оригинальном исследовании показано совсем не то, что люди думают.

2. Оригинальное исследование так криво сделано статистически, что просто не удовлетворяет критерию фальсифицируемости. Простыми словами - генератор случайных чисел демонстрирует такой же результат.

3. Единственное, что этот эффект демонстрирует - это любовь людей к красивым историям (а математику никто не любит … и вообще есть ложь, большая ложь и статистика).

Читать далее
Всего голосов 16: ↑13 и ↓3+10
Комментарии19

Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров26K

Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.

И вы понимаете почему.

Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз...

Разоблачаем популярный миф
Всего голосов 118: ↑104 и ↓14+90
Комментарии81

База: айсберг A/B-тестов

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров6.3K

Если вы по кусочкам и фрагментарно изучаете разные аспекты и тонкости A/B-тестирования, но большое множество концепций и идей не ложатся в единую систему, то это статья для вас.

Предлагаю разобрать структуру A/B-тестов сверху вниз. Пройдем по основным этапам от наблюдаемой разницы в целевой метрике до матрицы ошибок. Формализуем, систематизируем и идейно свяжем те концепции, которые стоят за экспериментами. Постараемся сформировать цельное представление об этой процедуре, обозначим, что эксперименты делают, чего не делают, как делают, в каком представлении работают с данными и метриками.

Читать далее
Всего голосов 13: ↑12 и ↓1+11
Комментарии4

Ближайшие события

Итоги расследований инцидентов ИБ в 2021–2023 годах

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3K

Привет, на связи команда по расследованию инцидентов экспертного центра безопасности Positive Technologies (PT Expert Security Center, PT ESC). Вероятно, вы уже читали наши расследования здесь, на Хабре, а может быть, даже заглядывали к нам в блог. В последние два года число расследований у нашей команды выросло более чем вдвое, и в этот раз мы решили проанализировать 100+ последних своих проектов по расследованию, чтобы понять, как действуют злоумышленники и сколько в среднем по времени находятся в инфраструктуре компаний.

Читать
Рейтинг0
Комментарии0

Проблема множественного тестирования на практике

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров4.2K

Нередко случаются ситуации, когда в A/B экспериментах ну очень хочется нужно проверять сразу несколько гипотез на одном и том же наборе данных, то есть в качестве тестового варианта использовать не одну группу, а сразу несколько. Особенно часто такая необходимость встречается в некоторых областях биологии. Но и в продуктовых командах возникают кейсы, когда, например, уже есть несколько вариантов дизайна каких-то элементов / моделей рекомендаций / ранжирования / etc, и хочется выбрать лучший в рамках одного эксперимента.

Эта статья - попытка структурировать знания о проблеме множественного тестирования, сравнить методы решения проблемы и поделиться практическим опытом работы с множественными экспериментами.

Читать дальше →
Рейтинг0
Комментарии0

Xg предсказывает результаты матчей?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2K

Для начала определим для кого эта статья? Моя цель заинтересовать не только обыкновенных зрителей, но и тех, кто уже занимается футбольной аналитикой. В статье я постараюсь показать интересные исследования об Xg.

Многие из тех, кто смотрит футбол и читает новости когда-нибудь видел метрику «xg». Что она вообще означает? Простыми словами Xg это количество ожидаемых голов. Т.е. каждый нанесённый удар по воротам имеет вероятность конвертироваться в забитый мяч, но с каждой позиции эта вероятность разная (если углубляться, то станет очевидным, что xg зависит от нескольких параметров, а не от одной позиции). К примеру, самая высокая вероятность забить мяч при исполнении пенальти. Чаще всего с пенальти дают 0.79 xg. Необходимо учитывать, что единой формулы расчёта xg нет, каждый провайдер рассчитывает её по-своему. Так например, для написания этой статьи я использовал данные с сайта https://understat.com/, но, если мы посмотрим другие источники, цифры будут отличаться.

Моя задача узнать, насколько точно Xg предсказывает количество голов в матче. Исследование будем проводить для АПЛ сезона 2022/2023. В данном исследовании мы ограничимся простыми методами анализа. Я составил таблицу из 380 матчей АПЛ.

Читать далее
Рейтинг0
Комментарии6

Статистика QA вакансий и резюме. Октябрь 2023

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров10K

Раз в месяц я и команда QA Studio вручную собираем статистику по вакансиям и резюме тестировщиков с нескольких ресурсов. Сегодня — статистика за октябрь. Мы не делаем выводы, а оставляем сухие цифры. Много или мало открытых вакансий и что с рынком — каждый может интерпретировать по-своему.

Посмотреть статистику
Всего голосов 3: ↑2 и ↓1+1
Комментарии6

Использование ML для прогнозирования CLTV

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.2K

Из прошлой статьи мы узнали, что CLTV (customer lifetime value) — метрика, используемая для оценки прибыли, которую компания может получить от своего клиента за время его пользования продуктами и сервисами компании.

Разберем, что означает каждая буква в определении CLTV (customer lifetime value). Кто такой клиент, что мы понимаем под lifetime и ценностью, которую приносит нам клиент. 

CLTV строится для клиента, а не для номера телефона, так как мы не хотим терять историю взаимодействий с ним. Мы учитываем, что абонент может сменить номер телефона и/или может измениться номер договора. Также билайн — это не только мобильная связь, но и домашний интернет, которым наши абоненты могут пользоваться в рамках одного договора. Поэтому мы сразу решили собирать информацию и по этим услугам в рамках одной записи по клиенту. В будущем мы планируем прогнозировать CLTV уже на уровне физического лица и домохозяйств, объединяя историю пользования всех сим-карт клиента.

Под lifetime мы понимаем не полный жизненный цикл клиента от момента заключения договора до момента его закрытия, а пятилетний горизонт, который мы отсчитываем от текущего момента времени. То есть, если мы строим прогноз от января 2023 года, то прогноз будет построен помесячно до декабря 2027 года. Почему 5 лет? Этот срок был определен опытным путем — при нем достигается баланс между качеством предсказаний и потребностью в бизнес-процессах.

В билайне под ценностью клиента принято понимать маржу, которую нам приносит абонент с учетом всех затрат и доходов, которые мы можем аллоцировать на конкретного клиента.

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии2

Исследование рынка ИТ-вакансий: годовой рост составил 18%

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров11K

Мы проанализировали спрос на ИТ-специалистов в России за период с сентября 2022 года по сентябрь 2023 года. Одни из самых востребованных вакансий — системные и бизнес аналитики, менеджеры проектов и продуктов, а также Java-разработчики.

Читать далее
Всего голосов 7: ↑4 и ↓3+1
Комментарии8

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров34K

Привет, Хабр! Я проанализировал 600 публичных мок-интервью с YouTube и собрал из них 10 000 уникальных вопросов. Затем посчитал, как часто они встречаются, и определил вероятность появления каждого вопроса. У меня есть данные по 20 профессиям, включая frontend, python, java-разработчика, специалиста по тестированию и многих других.

Читать далее
Всего голосов 54: ↑52 и ↓2+50
Комментарии19