Обновить
128K+

Статистика в IT

Статистика, исследования, тенденции

53,29
Рейтинг
Сначала показывать
Порог рейтинга
Уровень сложности

Линейная регрессия на стероидах: Double Machine Learning для устранения смещений в данных

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели9K

Любой аналитик знает, что самым надёжным способом проверки гипотез являются рандомизированные контролируемые эксперименты (RCT), или, как их называют в народе — A/B-тесты. На практике часто возникают ситуации, когда провести A/B-тест невозможно — в основном это происходит по этическим или техническим причинам. Однако бывают кейсы, когда рандомизация невозможна потому, что treatment-ом является определённое действие пользователя. Например, treatment-ом может быть оформление платной подписки или отмена бронирования на сервисе. Давайте назовём такой вид воздействия добровольным.

В русскоязычном пространстве, и в частности на Хабре, достаточно много статей, посвящённых таким методам Causal Inference, как DiD, PSM и Causal Impact. Тем не менее, к моему удивлению, практически нет статей, посвящённых методам на основе ортогонализации и regression adjustment, хотя, на мой взгляд, именно эти методы являются самыми удобными для оценки эффекта от добровольного treatment-а. Пришло время исправить это недоразумение и разобрать метод Double/Debiased Machine Learning (DML) и Partial Linear Regression для задач Causal Inference!

Читать далее

Новости

Как мы получили p-value < 0.001 на 10 наблюдениях в группе: ультимативный гайд по A/B на малых выборках

Уровень сложностиСредний
Время на прочтение20 мин
Охват и читатели9.3K

Всем привет! Я Андрей Романов, тимлид команды аналитики Sales Tech в Авито, а также преподаватель и ментор по А/B-тестированию. 

В последние годы я регулярно работаю с A/B-тестами на малых выборках: когда в группе не тысячи пользователей, а 10–40 менеджеров, регионов или других экспериментальных единиц. На этом опыте я собрал практический гайд: что можно сделать до запуска, во время дизайна и после эксперимента, чтобы выжать максимум из ограниченных данных.

В A/B-тестах на малых выборках стандартные проблемы усиливаются: MDE выше ожидаемого эффекта, метрики шумят, а эффект трудно отделить от случайности. При этом страдает не только чувствительность, но и валидность: из-за небольшого числа наблюдений любая ошибка в дизайне, балансе групп или интерпретации результата становится гораздо опаснее.

В материале дам 26 шагов, которые помогут выжать максимум чувствительности и валидности из ограниченной выборки. Хотя фокус — на A/B-тестах с малыми выборками, 90% подходов применимы и к стандартным экспериментам.

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за май 2026 года

Время на прочтение6 мин
Охват и читатели7K

В мае 2026 года информационная служба Хабра выпустила 935 публикаций (867 новостей и постов, 5 лонгридов и 63 перевода). В текущем дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Читать далее

Юмор в IT правда специфический? Результаты исследования

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели7K

Привет! Меня зовут Диана, я редактор и деврел в Контуре. В апреле запустила небольшое исследование про юмор в IT: опросила контуровцев и внешних пользователей, шутят ли они на работе и на какие темы, в чём специфика айтишного юмора и приемлемы ли для ребят чёрные шутейки. А ещё, я нашла три самых популярных и часто упоминаемых мема! — их можно было прикрепить по желанию в конце опросника. Приглашаю почитать результаты исследования и посмотреть на мемы.

Читать далее

Сексизм в IT: данные вместо домыслов

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели8.3K

Привет, Хабр!

Что произойдёт, если взять два одинаковых резюме разработчиков — с одинаковым опытом, стеком и навыками — и поменять только пол кандидата?

Мы решили проверить это на практике.

Создали два аккаунта, автоматизировали отклики и отправили более 1000 на одни и те же вакансии с помощью ии-бота.

Результаты оказались одновременно и ожидаемыми, и очень странными.

Если интересно узнать, что из этого вышло — велком!

Узнать результаты

На что предприниматели делают ставку для роста в кризис? Результаты исследования Go-to-Market Academy

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели5.5K

Разбираемся, с какими ожиданиями бизнес входил в 2026 год, какие компании лучше других прошли первый квартал и какие инструменты и подходы работают хорошо в условиях кризиса. 

Читать далее

Asus, MSI и Gigabyte урезают производство материнских плат. Что происходит на рынке

Время на прочтение5 мин
Охват и читатели8K

В последние месяцы компьютерная индустрия обсуждает не столько новые процессоры и видеокарты, сколько неожиданное сокращение выпуска материнских плат. Asus, MSI, Gigabyte и ASRock, крупнейшие поставщики плат для домашних ПК, игровых систем и ноутбуков, пересматривают производственные планы на 2026 год в сторону заметного уменьшения.

Причина очень простая, и мы о ней уже говорили в нескольких статьях своего блога. Рынок одновременно столкнулся с ростом цен на память и накопители, снижением интереса к обновлению домашних компьютеров и перераспределением ресурсов в пользу серверной инфраструктуры для искусственного интеллекта. В результате производителям стало выгоднее сократить выпуск потребительских моделей и сосредоточиться на более прибыльных направлениях.

Читать далее

Своими руками: как посчитать квази-биномиальную логистическую регрессию и зачем это вообще нужно

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели13K

Как получить p‑value ≈ 10⁻¹⁵⁴ там, где его на самом деле нет? Разбираем феномен псевдорепликации при анализе пропорций в single‑cell данных и учимся честно ловить биологический шум. Этот туториал посвящен тому, как работает квази‑биномиальная логистическая регрессия — один из наиболее используемых методов в биоинформатике для поиска клеточных популяций, которые растут или исчезают при старении и развитии заболеваний.

Читать далее

GitPulse: как я перестал угадывать, что происходит в команде, и начал смотреть на данные

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели6.7K

Меня зовут Игорь, я тимлид в e-commerce. Когда у меня появилась вторая команда, стало понятно, что вручную следить за двумя Jira, двумя GitLab и метриками одновременно — нереально. В итоге сделал инструмент, который собирает всё в одном месте

Читать

Работает ли ГАТО лучше монетки? Критическая оценка графического ассоциативного теста отношений в исследованиях

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.6K

В последние годы в российских агенствах по маркетинговым исследованиям, среди социологов и политических опросах активно обсуждается и заказывается проекты с применением в таких массовых опросах Графического Ассоциативного Теста Отношений (ГАТО), позиционируемого как функциональный аналог Имплицитного Ассоциативного Теста (IAT), но более технологичный для полевых исследований. В основе ГАТО лежит идея замены цветовых стимулов теста Эткинда набором абстрактных графических фигур К. Маркерта, призванных не иметь прямых ассоциаций.

Однако основа этих подходов намертво прикреплена к цветовому тесту Люшера, который в современной психодиагностике демонстрирует отсутствие приемлемой прогностической ценности и валидности результатов, что было показано ещё в 1970х годах и подтверждено крупными выборочными исследованиями в 2000х. Это ставит под вопрос механический перенос логики тестирования на новые графические материалы, такие как фигуры Маркерта, используемые в ГАТО.

На основе своей многолетней работы по анализу опубликованных материалов проверки тестов Люшера, Эткинда и ГАТО и примеров эмпирических данных я попытался оценить обоснованность заявок на валидность теста ГАТО и оказалось, что в ряде случаев получаемые показатели не превосходят по информативности случайное угадывание результата. Дополнительно рассмотрю новые работы посвящённые проверке надёжности и валидности ГАТО.

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за апрель 2026 года

Время на прочтение6 мин
Охват и читатели8.4K

В апреле 2026 года информационная служба Хабра выпустила 1040 публикаций (972 новости и поста, 4 лонгрида и 64 перевода). В текущем дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Читать далее

Методы оценки эффективности сменного персонала на промышленных предприятиях

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели6.5K

Несмотря на широкое применение систем параметрической диагностики и появившуюся тенденцию к внедрению систем предиктивной диагностики, количество отказов основного технологического оборудования на промышленных предприятиях России остаётся высоким. Зачастую причинами отказов являются несвоевременные и/или некорректные действия эксплуатационного персонала – это указывает на низкую квалификацию и/или дисциплину персонала. Практика показывает, что даже суровые наказания виновных в уже произошедшем отказе не повышают уровень дисциплины, так как такой подход не является системным – нарушения, не приведшие к отказу, не наказываются. Только системный подход к контролю эксплуатационного персонала позволяет исправить ситуацию.В статье описывается использование интегральных оценок для системного анализа эффективности действий сменного персонала. Эта статья ориентирована на технических руководителей промышленных предприятий.

Читать далее

oosmetrics.com — когда публикация на строннем сайте может навредить вашему проекту

Уровень сложностиСредний
Время на прочтение11 мин
Охват и читатели8.6K

Однажды я получил занимательное письмо от некой организации, которая добавила мой проект в свой рейтинг, да еще и метрики к нему прикрутила. Но мне стало интересно, какая у нее репутация.

Читать далее

Ближайшие события

Метрики упали в лужу

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели5.3K

Метрики могут «упасть» даже если вы ничего не меняли в модели.
Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

Читать далее

Производители вернули в продажу материнки с DDR3. Что происходит?

Время на прочтение5 мин
Охват и читатели12K

Рынок производства электроники сейчас нестабилен: цены на компоненты нового поколения растут, а сами эти элементы в дефиците. В итоге платформы, списанные со счетов еще несколько лет назад, неожиданно получают новый шанс. Именно так обстоят дела с материнскими платами, использующими память DDR3: те самые решения, которые многие считали музейными экспонатами, вдруг вернулись в продажу у целого ряда производителей. Давайте разбираться, что происходит.

Читать далее

Аналитика кибератак от Google

Время на прочтение8 мин
Охват и читатели11K

Компания Mandiant (дочка Google) подготовила довольно интересное исследование кибератак. Отчет основан на 500 тысячах часов расследований кибератак, проведенных Mandiant в 2025.

Делимся с вами подробностями.

Читать далее

Дом, который не построил Фишер (Часть 2)

Время на прочтение13 мин
Охват и читатели8.8K

(что было в прошлый раз)

Теперь, когда у нас есть необходимый понятийный аппарат, посмотрим, как заставить его работать.

Пусть имеется случайная величина ξ с неизвестным математическим ожиданием μ, которое и будет предметом нашего интереса. Для простоты сделаем два, мягко говоря, не слишком правдоподобных предположения: случайная величина ξ имеет нормальное распределение, причем его дисперсия известна и равна σ2. Конечно, чтобы не потерять связь с реальностью, от этих предположений хорошо бы избавиться, но за это придется заплатить необходимостью привлекать, например, предельные теоремы, что уведет разговор далеко в сторону, так что остановимся на нашем простом, пусть и ужасно искусственном, случае.

Читать далее

Статистика и ТОП-20 докладов INFOSTART TEAM EVENT 2026

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели5.1K

INFOSTART TEAM EVENT 2026 завершился, и теперь можно посмотреть на конференцию не только через впечатления участников, но и через цифры. За три дня мероприятие собрало 1381 участника: технические специалисты, аналитики, руководители проектов, ИТ-директора и представители бизнеса обсуждали практики разработки, управления и развития команд в 1С и смежных ИТ-направлениях.

Читать далее

Как с нуля поднять трафик IT-компании на 1657% при бюджете 55 тыс. и выжить

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели6.2K

Автор: ваш покорный слуга, Head of Digital Marketing (он же маркетолог, он же аналитик, он же копирайтер, он же всё остальное).

Надеюсь будет интересно! Приступим ⬇️

Производящая функция моментов: что это и как она используется в анализе распределений

Уровень сложностиСредний
Время на прочтение2 мин
Охват и читатели6.7K

Производящая функция моментов (moment-generation functions) - это функция, которая служит альтернативным способом задания распределения вероятностей случайной величины.

Читать далее
1
23 ...