Моделирование распределений

Привет, Хаброжители! Мы открыли предзаказ на книгу «Думай как аналитик. Статистика и данные с примерами на Python. 3-е изд.», хотим немного рассказать вам о ней и поделиться интересным отрывком.

Статистика, исследования, тенденции

Привет, Хаброжители! Мы открыли предзаказ на книгу «Думай как аналитик. Статистика и данные с примерами на Python. 3-е изд.», хотим немного рассказать вам о ней и поделиться интересным отрывком.

Привет, Хабр!
При выборе IT-направления обычно смотрят на два параметра: зарплату и количество вакансий. Но это неполная картина - и это можно доказать цифрами.
Я пишу от лица команды Софи - ИИ-ассистента для автоматизации откликов на вакансии.
За 11 месяцев работы мы сделали миллион реальных откликов кандидатов - с ответами рекрутеров, тестовыми заданиями и приглашениями на интервью. Всё это осело в базе данных.
В статье мы используем эти данные, чтобы ответить на вопрос, который волнует каждого, кто сейчас в поиске: в каком IT-направлении выше реальная вероятность дойти до оффера.
Погнали!

Всем привет! Меня зовут Вардан Манучарян, я аналитик в команде Монетизации Авито, и мы отвечаем за механику алгоритмов продвижения, то есть управляем порядком, в котором пользователи видят объявления. Для этого нам нужно отслеживать, как изменения в ранжировании влияют на бизнес и покупателей. В этой статье расскажу про интерливинг, — метод, который помогает корректно проводить A/B-тесты с изменением ранжирования. Статья будет интересна аналитикам, которые проводят много A/B-тестов.

Любой аналитик знает, что самым надёжным способом проверки гипотез являются рандомизированные контролируемые эксперименты (RCT), или, как их называют в народе — A/B-тесты. На практике часто возникают ситуации, когда провести A/B-тест невозможно — в основном это происходит по этическим или техническим причинам. Однако бывают кейсы, когда рандомизация невозможна потому, что treatment-ом является определённое действие пользователя. Например, treatment-ом может быть оформление платной подписки или отмена бронирования на сервисе. Давайте назовём такой вид воздействия добровольным.
В русскоязычном пространстве, и в частности на Хабре, достаточно много статей, посвящённых таким методам Causal Inference, как DiD, PSM и Causal Impact. Тем не менее, к моему удивлению, практически нет статей, посвящённых методам на основе ортогонализации и regression adjustment, хотя, на мой взгляд, именно эти методы являются самыми удобными для оценки эффекта от добровольного treatment-а. Пришло время исправить это недоразумение и разобрать метод Double/Debiased Machine Learning (DML) и Partial Linear Regression для задач Causal Inference!

Всем привет! Я Андрей Романов, тимлид команды аналитики Sales Tech в Авито, а также преподаватель и ментор по А/B-тестированию.
В последние годы я регулярно работаю с A/B-тестами на малых выборках: когда в группе не тысячи пользователей, а 10–40 менеджеров, регионов или других экспериментальных единиц. На этом опыте я собрал практический гайд: что можно сделать до запуска, во время дизайна и после эксперимента, чтобы выжать максимум из ограниченных данных.
В A/B-тестах на малых выборках стандартные проблемы усиливаются: MDE выше ожидаемого эффекта, метрики шумят, а эффект трудно отделить от случайности. При этом страдает не только чувствительность, но и валидность: из-за небольшого числа наблюдений любая ошибка в дизайне, балансе групп или интерпретации результата становится гораздо опаснее.
В материале дам 26 шагов, которые помогут выжать максимум чувствительности и валидности из ограниченной выборки. Хотя фокус — на A/B-тестах с малыми выборками, 90% подходов применимы и к стандартным экспериментам.

В мае 2026 года информационная служба Хабра выпустила 935 публикаций (867 новостей и постов, 5 лонгридов и 63 перевода). В текущем дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Привет! Меня зовут Диана, я редактор и деврел в Контуре. В апреле запустила небольшое исследование про юмор в IT: опросила контуровцев и внешних пользователей, шутят ли они на работе и на какие темы, в чём специфика айтишного юмора и приемлемы ли для ребят чёрные шутейки. А ещё, я нашла три самых популярных и часто упоминаемых мема! — их можно было прикрепить по желанию в конце опросника. Приглашаю почитать результаты исследования и посмотреть на мемы.

Привет, Хабр!
Что произойдёт, если взять два одинаковых резюме разработчиков — с одинаковым опытом, стеком и навыками — и поменять только пол кандидата?
Мы решили проверить это на практике.
Создали два аккаунта, автоматизировали отклики и отправили более 1000 на одни и те же вакансии с помощью ии-бота.
Результаты оказались одновременно и ожидаемыми, и очень странными.
Если интересно узнать, что из этого вышло — велком!

Разбираемся, с какими ожиданиями бизнес входил в 2026 год, какие компании лучше других прошли первый квартал и какие инструменты и подходы работают хорошо в условиях кризиса.

В последние месяцы компьютерная индустрия обсуждает не столько новые процессоры и видеокарты, сколько неожиданное сокращение выпуска материнских плат. Asus, MSI, Gigabyte и ASRock, крупнейшие поставщики плат для домашних ПК, игровых систем и ноутбуков, пересматривают производственные планы на 2026 год в сторону заметного уменьшения.
Причина очень простая, и мы о ней уже говорили в нескольких статьях своего блога. Рынок одновременно столкнулся с ростом цен на память и накопители, снижением интереса к обновлению домашних компьютеров и перераспределением ресурсов в пользу серверной инфраструктуры для искусственного интеллекта. В результате производителям стало выгоднее сократить выпуск потребительских моделей и сосредоточиться на более прибыльных направлениях.

Как получить p‑value ≈ 10⁻¹⁵⁴ там, где его на самом деле нет? Разбираем феномен псевдорепликации при анализе пропорций в single‑cell данных и учимся честно ловить биологический шум. Этот туториал посвящен тому, как работает квази‑биномиальная логистическая регрессия — один из наиболее используемых методов в биоинформатике для поиска клеточных популяций, которые растут или исчезают при старении и развитии заболеваний.

Меня зовут Игорь, я тимлид в e-commerce. Когда у меня появилась вторая команда, стало понятно, что вручную следить за двумя Jira, двумя GitLab и метриками одновременно — нереально. В итоге сделал инструмент, который собирает всё в одном месте

В последние годы в российских агенствах по маркетинговым исследованиям, среди социологов и политических опросах активно обсуждается и заказывается проекты с применением в таких массовых опросах Графического Ассоциативного Теста Отношений (ГАТО), позиционируемого как функциональный аналог Имплицитного Ассоциативного Теста (IAT), но более технологичный для полевых исследований. В основе ГАТО лежит идея замены цветовых стимулов теста Эткинда набором абстрактных графических фигур К. Маркерта, призванных не иметь прямых ассоциаций.
Однако основа этих подходов намертво прикреплена к цветовому тесту Люшера, который в современной психодиагностике демонстрирует отсутствие приемлемой прогностической ценности и валидности результатов, что было показано ещё в 1970х годах и подтверждено крупными выборочными исследованиями в 2000х. Это ставит под вопрос механический перенос логики тестирования на новые графические материалы, такие как фигуры Маркерта, используемые в ГАТО.
На основе своей многолетней работы по анализу опубликованных материалов проверки тестов Люшера, Эткинда и ГАТО и примеров эмпирических данных я попытался оценить обоснованность заявок на валидность теста ГАТО и оказалось, что в ряде случаев получаемые показатели не превосходят по информативности случайное угадывание результата. Дополнительно рассмотрю новые работы посвящённые проверке надёжности и валидности ГАТО.

В апреле 2026 года информационная служба Хабра выпустила 1040 публикаций (972 новости и поста, 4 лонгрида и 64 перевода). В текущем дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Несмотря на широкое применение систем параметрической диагностики и появившуюся тенденцию к внедрению систем предиктивной диагностики, количество отказов основного технологического оборудования на промышленных предприятиях России остаётся высоким. Зачастую причинами отказов являются несвоевременные и/или некорректные действия эксплуатационного персонала – это указывает на низкую квалификацию и/или дисциплину персонала. Практика показывает, что даже суровые наказания виновных в уже произошедшем отказе не повышают уровень дисциплины, так как такой подход не является системным – нарушения, не приведшие к отказу, не наказываются. Только системный подход к контролю эксплуатационного персонала позволяет исправить ситуацию.В статье описывается использование интегральных оценок для системного анализа эффективности действий сменного персонала. Эта статья ориентирована на технических руководителей промышленных предприятий.

Однажды я получил занимательное письмо от некой организации, которая добавила мой проект в свой рейтинг, да еще и метрики к нему прикрутила. Но мне стало интересно, какая у нее репутация.

Метрики могут «упасть» даже если вы ничего не меняли в модели.
Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

Рынок производства электроники сейчас нестабилен: цены на компоненты нового поколения растут, а сами эти элементы в дефиците. В итоге платформы, списанные со счетов еще несколько лет назад, неожиданно получают новый шанс. Именно так обстоят дела с материнскими платами, использующими память DDR3: те самые решения, которые многие считали музейными экспонатами, вдруг вернулись в продажу у целого ряда производителей. Давайте разбираться, что происходит.

Компания Mandiant (дочка Google) подготовила довольно интересное исследование кибератак. Отчет основан на 500 тысячах часов расследований кибератак, проведенных Mandiant в 2025.
Делимся с вами подробностями.

Теперь, когда у нас есть необходимый понятийный аппарат, посмотрим, как заставить его работать.
Пусть имеется случайная величина ξ с неизвестным математическим ожиданием μ, которое и будет предметом нашего интереса. Для простоты сделаем два, мягко говоря, не слишком правдоподобных предположения: случайная величина ξ имеет нормальное распределение, причем его дисперсия известна и равна σ2. Конечно, чтобы не потерять связь с реальностью, от этих предположений хорошо бы избавиться, но за это придется заплатить необходимостью привлекать, например, предельные теоремы, что уведет разговор далеко в сторону, так что остановимся на нашем простом, пусть и ужасно искусственном, случае.