Как стать автором
Поиск
Написать публикацию
Обновить
49.19

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Эконометрика в ритейле: как не потратить миллионы на заведомо неэффективные эксперименты

Время на прочтение13 мин
Количество просмотров3.1K

Всем привет! На связи команда ad-hoc аналитики X5 Tech. Если вы уже знакомы с нашими статьями, то наверняка знаете, что нашей ключевой темой является А/Б тестирование. Важной составляющей А/Б теста является дизайн: для успешного проведения эксперимента необходимо оценить размер пилотной и контрольной групп, зафиксировав предварительно ожидаемый эффект. Но возникает вопрос: как убедиться в обоснованности гипотезы и рассчитать ожидаемые эффекты от инициативы?

В статье мы рассмотрим ключевые понятия из эконометрики, такие как коинтеграция и модель коррекции ошибок, и продемонстрируем их применение на ретроспективных данных. Мы подробно разберём, как использовать эти инструменты для анализа взаимосвязей между временными рядами. В качестве практического примера с помощью функции импульсного отклика мы проведём количественную оценку ожидаемого влияния повышения комплектности персонала на списания на выбранном кейсе.

Читать далее

Математический взлом скретч-лотереи

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров13K

Скретч-лотереяTic Tac Toe («крестики‑нолики»), выпущенная компанией Ontario Lottery в 2003 году обладала интересными правилами: в правой части билета находится игровое поле с числами, в левой — «ваши счастливые числа», скрытые защитным слоем. Игроку предстоит стереть защитный слой и посмотреть, на каких позициях на игровом поле расположены его счастливые числа. Если три счастливых числа образуют линию, то игрок получает соответствующий выигрыш (для каждой линии — свой).

По правилам, игрок может сколько угодно рассматривать лотерейные билеты и покупать лишь те из них, которые кажутся ему выигрышными, возвращая не понравившиеся. Казалось бы, что могло пойти не так — ведь числа в левой части остаются неизвестны до начала игры?

Читать далее

Решаем задачи по теорверу с собеседований в Яндекс и Авито: считаем доверительный интервал для Бета-распределения

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.8K

В данной статье я разбираю математику, лежащую в основе двух связанных технических задач. Я показываю, как из биномиального распределения рождается Бета-распределение и демонстрирую расчет доверительного интервала для последнего: через точную формулу для случая с k=0 (\alpha=1) и через нормальное приближение в общем случае.

Читать далее

Как банки предсказывают кредитные риски: опыт создания PD-моделей

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3K

Представьте, что вы управляете кредитным портфелем банка: каждый выданный кредит – это ставка на то, что клиент выполнит свои обязательства. Как понять, кто из заемщиков надежен, а кто может не справиться с платежами? Здесь на помощь приходят Probability of Default (PD) модели.

В этой статье я расскажу, как банки используют PD-модели для оценки кредитных рисков, поделюсь основными подходами к их построению и объясню как машинное обучение применяется в их разработке.

Читать далее

Spotify становится прибыльным

Время на прочтение2 мин
Количество просмотров7.3K

Не так давно вышел мини-сериал «Плейлист» («The playlist»), снятый по книге «Spotify Untold». Фильм рассказывает историю рождения стартапа - шведской музыкальной потоковой компании Spotify. (!Рекомендуется к просмотру)

Развитие потоковой передачи музыки привело глобальные доходы от «записанной» музыки к новым рекордным максимумам. Этот всплеск в первую очередь обусловлен появлением Spotify. Когда Spotify запустил свой музыкальный стриминговый сервис в 2008 году, мало кто мог подумать, что этот малоизвестный стартап из Стокгольма в конечном итоге вырастет в самую популярную в мире музыкальную платформу, у которого более 600 млн активных пользователей в месяц и 36 % мирового аудиостриминга.

Читать далее

Как машинное обучение помогает оценивать резервы банка?

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2K

В этой статье я расскажу о том, что такое резервы и зачем они необходимы банкам, как банки проводят оценку резервов, а также где в этой задаче используется машинное обучение.

Читать далее

Технологии, которые мы потеряли и знаковые IT-события 2024 года

Время на прочтение13 мин
Количество просмотров13K

С течением времени технологические продукты, которые когда-то были крутыми и популярными, устаревают и прекращают свое производство. Другие проживают короткую жизнь потому что, оказываются неудачным экспериментом. Производители переключаютсяся на другие, более прибыльные цели. 2024 год не стал исключением, когда стартапы закрывались, а разработки гаджетов заканчивались. Здесь составили список технологий, которые в 2024 году прекратили свое существование.

В список не вошли гаджеты, такие как Humane AI Pin или Rabbit R1, которые не смогли обеспечить хотя бы минимум надёжных функций, не говоря уже о чем-то революционном. Они не в этом списке, потому что технически они всё ещё живы, хотя и находятся на аппарате жизнеобеспечения.

В статье собрали примечательные технические смерти, которые официально покинули этот мир. Также оглянемся назад и поразмышляем о событиях, повлиявших на технологический сектор, будь они значительными, незначительными или совершенно непонятными.
Читать дальше →

Causal Inference методы на практике

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров2.9K

Обычно, когда возникает необходимость оценить эффект от продуктовой фичи, аналитики проверяют гипотезы через A/B эксперименты. Но иногда запустить эксперимент нет возможности, а оценить эффект все еще хочется. Столкнувшись в очередной раз с такой ситуацией, я решил погрузиться в нашумевший в последнее время мир причинно-следственного анализа или Causal Inference и поделиться опытом применения различных подходов на практике.

Случалось ли с вами что-нибудь из этого?

Читать далее

Блог RUVDS 2024: держим марку

Время на прочтение6 мин
Количество просмотров1.4K
Каждый раз, когда мы видим критику читателей, направленную на блоги компаний на Хабре, мы испытываем горение ж… лёгкое раздражение. На Хабре непросто вести даже посредственный блог, что уж говорить о топовом блоге, который семь лет подряд держит пальму первенства. И речь сейчас даже не об экономике, не о редактуре и не о труде менеджеров. Речь прежде всего о талантливых и продуктивных авторах, которых мы привлекаем для публикации в блог. С нашей точки зрения это однозначный win-win-win: мы удерживаем блог на топовых позициях, читатели получают качественный и проверенный контент, авторы — вознаграждение за свой труд, опыт и талант. При этом мы относимся к авторам бережно: не душим их правками и «особыми» требованиями, не даём ТЗ, не читаем всем колхозом, предъявляя построчно претензии (мы узнавали, таких много). Пользуясь случаем, мы благодарим всех, кто делает с нами наш блог! 

Конец года — отличное время оценить итоги, подсчитать просмотры, вспомнить лучшие статьи, а заодно поделиться некоторыми наблюдениями.

Читать дальше →

Расширенный CUPAC для снижения дисперсии в A/B экспериментах

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.3K

Задача снижения дисперсии при проведении A/B экспериментов, кажется, никогда не перестанет быть актуальной. Хочу поделиться небольшим разбором свежей статьи, в которой авторы предлагают еще один довольно-таки провокационный метод для снижения дисперсии.

Читать далее

Хабр — Итоги 2024 года

Время на прочтение9 мин
Количество просмотров14K

Среди всей суеты в этому году было то, что остаётся неизменным поводом для веры в человечество. Это наука: Илон Маск впервые имплантировал микрочип Neuralink человеку, на спутнике Сатурна Мимасе открыли океан из воды, создан препарат для лечения страшной болезни Бехтерева, на основе мРНК разработана вакцина от меланомы (одного из самых распространённых видов рака), созданные вирионы уничтожили бактерию изнутри, установлен новый рекорд в беспроводной передаче данных (938 гигабит в секунду), препарат Ленакапавир против ВИЧ был проверен и оказался эффективен в 99% случаев. И это лишь малая часть…

Второе, что внушает веру в человечество, это чтение. В век коротких роликов, картинок и инфографики на Хабре продолжают писать и читать лонгриды, экспертно их комментировать, писать ответы, устраивать горячие дискуссии. При этом шардирование баз данных может увлечь так же сильно, как обсуждение чего-то научно-популярного.

Как всегда, Хабр был разным, оставался зеркалом IT-сферы и всего вокруг неё происходящего, реагировал, бурлил, обсуждал. Жил свою уже совершеннолетнюю жизнь. Оглянемся на 2024 год?

Читать далее

Стратегия Келли точно не подведёт

Время на прочтение6 мин
Количество просмотров7K

Возможно, вы слышали о финансовой стратегии ставок по методу Келли. Это система, позволяющая оборачивать себе на пользу известную информацию в азартной игре или связанные с ней предубеждения. Эта стратегия также называется максимально агрессивной или стратегией высокой дисперсии. Дело в том, что если сделать ставку выше, чем позволяет предел Келли, то последствия могут быть катастрофическими.
Недавно мне попалась странная карточная игра, в которой стратегия Келли абсолютно не подразумевала риска, поскольку в игре действует Нулевая дисперсия. В своей знаменитой книге «Математические головоломки» Питер Уинклер называет её «Next Card Bet» («Следующая карточная ставка»). Саму задачу и её решение, по-видимому, сформулировал Томас Кавер. Мне понравилась как сама эта игра в ставки, так и её анализ, поэтому я поделюсь ими с вами здесь.

Читать далее

Как информационная служба Хабра провела 2024 год

Время на прочтение11 мин
Количество просмотров2.6K

Добрый вечер, Хабр! Вот и подходит к концу 2024 год. За последние 12 месяцев в мире нашлось большое количество технических инфоповодов и IT-событий, обновлений ПО, случалось появление новых технологий, произошло развитие электроники и масштабный приход ИИ-сервисов в нашу жизнь, включая различные вариации чат-ботов, Copilot и ИИ-агентов. Большую часть этих событий постаралась запечатлеть команда информационной службы Хабра. А вы, как пользователи этого технического ресурса, оценивали и комментировали новости, переводы и лонгриды, а также помогали нам развиваться в этом году, комментируя, критикуя, оценивая публикации и присылая в ЛС сообщения об ошибках или неточностях в материале.

Читать далее

Ближайшие события

Прогнозирование результатов футбольных матчей и использование ставки «Обе забьют» (BTTS)

Уровень сложностиСложный
Время на прочтение33 мин
Количество просмотров1.7K

Насколько сложно прогнозировать результат 'обе команды забьют' (BTTS)?, Могут ли классификаторы машинного обучения прогнозировать BTTS точнее букмекерских контор? и Можно ли использовать классификаторы для разработки прибыльных стратегий на рынке BTTS?
Разберем генерацию признаков, обучение моделей машинного обучения и создание стратегий ставок.

Читать далее

Diff-in-diff: жизнь за пределами идеального эксперимента

Время на прочтение17 мин
Количество просмотров4.7K

Привет, Хабр! На связи команда ad-hoc аналитики X5 Tech.

Основная задача аналитика при проведении А/Б тестирования - оценка эффекта воздействия (тритмента). В этой статье мы обсудим, что такое идеальный эксперимент и почему он позволяет корректно оценить эффект от воздействия. Затем расскажем, когда идеальный эксперимент невозможен и дадим интуитивное обоснование того, как метод difference-in-difference помогает справиться с оценкой эффекта воздействия в таких ситуациях. В конце мы обсудим формальные предпосылки метода и покажем на примере симуляций последствия их невыполнения.

Читать далее

Как победить рецидив: путеводитель по полю битвы с онкологией

Уровень сложностиПростой
Время на прочтение42 мин
Количество просмотров29K

Итак, дорогие читатели! Сейчас я обучаюсь на 4 курсе (бакалавр) на программиста (направление: Информатика и вычислительная техника) в семестре столкнулся с очень интересным исследовательским проектом, связанным с биоинформатикой! Вместе с заказчиком мы ему дали научное название: «Снижение рисков развития рецидива злокачественного новообразования» и отправляем в долгое плавание!

На примере проекта‑исследования мы хотим рассказать: где искать медицинские данные? Какого это с ними работать? Как правильно подходить к исследовательской задаче и многое другое. Вы даже сами сможете повторить наши результаты, и я уверен, что у вас получится даже лучше.

Что приходит на ум, когда слышите слово «рецидив»? Правильно, возвращение того, от чего вы уже вроде как избавились. Для заболевших пациентов это слово внушает тревогу, а в онкологии и вовсе звучит как зловещий колокол. Но не бойтесь: сегодня мы не только посмеемся над этим монстром, но и узнаем, как ему дать отпор. Спойлер: с помощью науки и чуточки аналитики.

Читать далее

Повышение производительности складской комплектации: как без трудоёмкого хронометража найти потенциал ускорения

Время на прочтение6 мин
Количество просмотров2K

Текущая экономическая ситуация в мире приводит к сильному давлению роста цен во всех секторах экономики. Ритейлеры не могут перекладывать эти риски на плечи своих покупателей, что приводит их к необходимости поиска новых путей сокращения затрат на экземпляр процесса, т. е. на штуку товара. Усиливающаяся конкуренция с e‑commerce требует перестройки процессов и выхода на повышенные скорости доставки в борьбе за клиента.

И кажется, что все имеющиеся инструменты повышения эффективности уже использованы. Но есть ещё один. В этой статье я расскажу о нашем опыте повышения производительности операций в распределительных центрах торговой сети «Пятёрочка» без больших финансовых вливаний и долгосрочных разработок. Я руковожу Департаментом развития аналитики «Цепочки поставок и поддерживающие функции» в Х5 Tech, и моя команда занимается поиском путей повышения эффективности бизнеса через анализ больших данных.

Читать далее

Знай своего ментора

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.5K

Поскольку в последнее время часто вижу рекламу “войти в IT”, решил посмотреть и дать картину того, кто выступает в качестве менторов и стоит ли им доверять на примере наставников в тестирование.

Читать далее

Прогнозирование продаж с использованием библиотеки Prophet, часть 2

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров7.1K

Привет! Продолжаю знакомить вас с библиотекой Prophet в качестве инстурмента прогнозирования продаж. Первая часть тут.

Функции для критериев качества в нашей прогнозной модели будут выглядеть следующим образом:

Читать далее

Метрики оценки качества вероятностей в бинарной классификации: опыт из ФинТеха

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров7.1K

Бинарная классификация — одна из ключевых задач машинного обучения, но в реальных приложениях часто важно не только определить класс, но и понять, с какой вероятностью модель принимает решение. Как проверить точность вероятностных предсказаний?

В статье обсуждаются специализированные инструменты для оценки качества вероятностных прогнозов, ключевые метрики и их интерпретация. Материал будет полезен для практиков, стремящихся повысить точность и объяснимость своих моделей.

Читать далее