Обновить
73.48

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Численный и математический анализ при диагностике динамического оборудования

Уровень сложностиСредний
Время на прочтение19 мин
Охват и читатели6.1K

В последние десятилетия наблюдается значительное усложнение технологических процессов, на промышленных предприятиях применяется всё более эффективное оборудование, которое требует более внимательного подхода к его диагностике. Следствием этого стало появление отдельного класса промышленных информационных систем – систем параметрической диагностики. Помимо систем параметрической диагностики в последнее время стали появляться Системы Поддержки Принятия Решений, которые, помимо прочих функций, успешно решают задачи диагностики. Пример такой системы мы и рассмотрим в этой статье, ориентированной на технических руководителей и эксплуатирующий персонал промышленных предприятий.

Читать далее

Новости

Тесты первого клика: как знание статистики помогает делать правильные выводы?

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели6.1K

На связи Ульяна Айкович, UX-исследователь и адепт статистики из БКС Мир Инвестиций. Сегодня я расскажу, в каких случаях применять статистические тесты, как легко реализовать их в гугл-таблицах, а также, как интерпретировать результат этих тестов. Не бойтесь, будет много практики и совсем немного важной теории.

В статье детально расскажем, как и когда применять биноминальный и χ²-тесты на наших кейсах.

Читать далее

Рынок видеокарт в 2026 году: дефицит, рост цен и чего ожидать

Время на прочтение5 мин
Охват и читатели5.5K

В начале 2026 года стало понятно, что с рынком видеокарт происходит что-то весьма серьезное. То, что раньше выглядело как временные перебои или спорадические скачки цен, больше не похоже на случайность. За этим стоят вполне конкретные причины — от решений производителей и до того, как сейчас распределяются мощности и ресурсы внутри отрасли. Давайте разберемся, что происходит с поставками видеокарт и к чему это в итоге приводит. Поехали!

Читать далее

AB-тесты и подглядывание: введение в последовательное тестирование

Уровень сложностиСредний
Время на прочтение7 мин
Охват и читатели6.8K

В AB-тестах нередко возникает желание смотреть на результат по ходу эксперимента: метрики обновляются, решения ждать долго, а если эффект уже очевиден, то зачем тянуть до конца. Но в этом месте легко допустить серьезную ошибку: регулярно пересчитывать обычное p-значение и завершать тест при первом p < 0.05. Такой подход повышает долю ложных срабатываний: иногда статистическая значимость появляется просто из-за случайных колебаний данных, даже когда реального эффекта нет.

В этой статье разбираем, почему так происходит, и что с этим делают в прикладной аналитике. Покажу, как устроено групповое последовательное тестирование (group sequential): вы заранее задаете несколько контрольных точек для подглядывания, а пороги принятия решения подбираются так, чтобы общий уровень ошибки первого рода по всему процессу оставался на заданном уровне alpha.

На простых формулах и наглядных графиках из симуляций сравним наивное подглядывание с корректной процедурой. А затем разберем два самых популярных набора порогов - Pocock и OBrien-Fleming: чем они отличаются, почему один вариант чаще завершает эксперимент раньше, а другой почти не дает принимать решения в начале, и как выбрать подходящий вариант под продуктовый процесс.

Читать далее

Как проверять продуктовые гипотезы без A/B-тестов? Практические альтернативы

Время на прочтение3 мин
Охват и читатели6.4K

АБ-тесты — это дорого. Как проверять гипотезы, если у вас нет времени или трафика. АБ-тестирование давно закрепилось как «золотой стандарт» проверки гипотез. Но у него есть обратная сторона: это дорого, долго и требует огромного трафика для достижения статистической значимости. Иногда бизнес просто не может позволить себе ждать месяц, чтобы узнать, что кнопка «Купить» должна быть синей.

Читать далее

Как медь стала узким местом для ЦОД и энергетики и что с этим делать

Время на прочтение6 мин
Охват и читатели16K

Медь постепенно превращается в узкое место для современной энергетической и вычислительной инфраструктуры. Без нее не работают кабели, трансформаторы, распределительные шины и системы охлаждения — все то, что подводит энергию и отводит тепло от оборудования. Спрос на металл растет сразу по нескольким направлениям: строятся крупные дата-центры, ускоряется электрификация транспорта, расширяется возобновляемая энергетика. Короче, медь — бутылочное горлышко развития сразу нескольких отраслей. И оно постепенно сужается.

Согласно отчету S&P Global, глобальный спрос на медь вырастет на 50% к 2040 году, с 28 миллионов тонн в 2025 году до 42 миллионов. Основные драйверы роста здесь — базовая экономика, переход на чистую энергию и модернизация сетей. Искусственный интеллект (куда ж без него ) добавит еще около 2 миллионов тонн дополнительного спроса за этот период. Без новых источников добычи и переработки общий дефицит может превысить 10 миллионов тонн в год. Давайте оценим, что происходит и насколько все это решаемо.

Читать далее

Видеокарты, NAND, процессоры, далее — везде. Почему растут цены и что с этим делать

Время на прочтение5 мин
Охват и читатели12K

Если оглянуться на последние пару лет, легко заметить: рынок компьютерного железа научился выживать в режиме постоянных встрясок — то майнинг, то пандемия, то еще что-нибудь. Но нынешний кризис оказался каким-то особенно упорным. Все началось с оперативной памяти: к концу 2025 года цены на обычные модули DDR5 в отдельных сегментах выросли в несколько раз и с тех пор продолжают ползти вверх. И это, похоже, не временный скачок. «Идеальный шторм» дефицита электронных компонентов не только не утих, но со временем стал лишь набирать силу. Давайте разберемся, в чем тут дело и есть ли шансы, что ситуация придет в норму.

Читать далее

Байесовские А/Б-тесты: связь с p-значениями

Время на прочтение19 мин
Охват и читатели6.9K

Показана численная близость p-значений t-теста, \chi^2-теста и U-критерия Манна-Уитни в А/Б-тестах вероятностям лучшей группы байесовских моделей. Соотношения выполняются несмотря на различия в определениях.

Читать

Симулятор смысла: почему программисты выгорают, а фаундеры нет

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели41K

Осторожно: эта статья может заставить вас задуматься, чем вы занимаетесь прямо сейчас — и вам это может не понравиться.

Читать далее

Индекс Шивы: ловушка простых правил на рынке труда

Время на прочтение7 мин
Охват и читатели8.8K

Если вакансия длиннее 7000 символов, шанс встретить в ней манипуляцию или хаос — 61.5%. Это правило «рынка лимонов» работает почти идеально.

Но оно же — ловушка.

Индекс Шивы (текст / зарплата) — это инструмент диагностики, который помогает отличить необходимую сложность от словесного шума. Датасет из 48 000 вакансий.

Читать далее

Тысяча арбитражных дел — что происходит в российском IT?

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели10K

Мы проанализировали более тысячи арбитражных исков, предъявленным к российским IT-компаниям. Нашлось много интересного и про иски, и про компании, и про арбитражные суды. Как всегда, будут классные графики и занятные выводы.

Читать далее

Вторая жизнь DDR3: как кризис памяти изменил рынок ПК

Время на прочтение5 мин
Охват и читатели9.7K

Оперативная память DDR3 — один из самых долгоживущих стандартов в истории персональных компьютеров. Он пережил переход от Windows XP к Windows 11, криптовалютный майнинг, когда модули скупали пачками, взлет DDR4 и появление сверхскоростной DDR5 с ее радужными перспективами. Причина такой стойкости простая: достаточная производительность для большинства задач при низкой себестоимости и надежной архитектуре. Спустя почти двадцать лет после дебюта в 2007 году многие считали, что этот стандарт окончательно ушел в прошлое, на полки музеев или в коробки энтузиастов ретрожелеза. 

Однако события последних месяцев показывают обратное: DDR3 переживает настоящее возрождение. Пользователи по всему миру массово возвращаются к старым модулям, продажи совместимых материнских плат выросли в разы, вторичный рынок кипит. Мало кого волнует, что это память с частотами около 1600 МГц и характеристиками, далекими от современных рекордов. Главное — она доступна, со стабильной ценой и на ней можно собрать рабочую систему в мире, где новые стандарты превратились в роскошь. Давайте разберемся, что сейчас происходит.

Читать далее

Оценка эффекта релиза, когда изменение затронуло не всех: diff-in-diff и синтетический контроль

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели8.1K

Когда релиз раскатан не на всех, классическая схема "до" и "после" начинает рушиться: метрика растет или падает одновременно из-за сезонности, внешнего фона и изменений в каналах, а не только из-за продукта. При этом AB теста может не быть, но данные по группам есть почти всегда: по гео, сегментам, кластерам, витринам.

В этой статье разбираю два практических подхода, которые позволяют оценить эффект релиза в таких условиях. Первый - diff-in-diff: сравниваем, насколько изменилась метрика в затронутой группе относительно контрольной, и тем самым вычитаем общий фон, который влияет на всех. Второй - синтетический контроль: строим базовую линию для затронутой группы как сумму метрик нескольких контрольных групп с весами, подобранными так, чтобы до релиза эта конструкция максимально повторяла историю затронутой группы.

Отдельный акцент на том, что обычно искажает выводы: заметный рост или падение разницы между группами до релиза, изменения состава, локальные акции или технические инциденты в контрольных группах, а также ситуации, когда базовая линия плохо повторяет период до релиза и тогда мы измеряем в основном ошибку модели, а не эффект релиза. В конце показываю, какие проверки стоит сделать, чтобы результат не держался на удачно выбранных границах периода или на одной контрольной группе.

Если в первой части мы работали с одной временной линией метрики, то здесь переходим к более распространенному случаю: несколько групп, частичная раскатка и необходимость отделить влияние релиза от общего шума.

Читать далее

Ближайшие события

Оценка эффекта релиза по истории метрики: causal impact без AB теста

Уровень сложностиСредний
Время на прочтение5 мин
Охват и читатели5.2K

После релиза метрика почти всегда меняется. Иногда это реальный эффект изменения, иногда - сезонность, маркетинг, внешний фон или просто шум. Если AB теста не было, а решение все равно нужно принимать, остается вопрос: как аккуратно оценить влияние релиза по истории метрики и не обмануться простым сравнением до и после.

В статье разбираю практический подход causal impact для случая, когда у нас есть одна метрика во времени и понятная дата изменения. Строим контрфакт (counterfactual) - прогноз того, какой была бы метрика без релиза - и сравниваем его с фактом. На этой основе считаем эффект в абсолютных значениях, накопленный эффект и относительный вклад в процентах.

Отдельное внимание уделяю проверкам, без которых такой анализ может превратиться в тыкву: качество прогноза на периоде до изменения, учет зависимости по времени через block bootstrap, устойчивость к выбору окна и плацебо даты, которые помогают понять, выделяется ли реальный эффект на фоне ложных интервенций.

Материал ориентирован на продуктовые задачи: когда релиз уже сделан, данные есть, а надежной оценки эффекта нет. В следующей части перейдем к более частому сценарию, когда изменение затронуло не всех, и вместо одной линии метрики у нас появляется набор линий по группам (географии, сегменты, кластеры). Там разберем синтетический контроль и diff-in-diff и частые ошибки, которые встречаются в таких данных.

Читать далее

Почему аналитика — один из самых рациональных способов войти в IT сегодня

Время на прочтение3 мин
Охват и читатели14K

Я работаю продуктовым аналитиком уже много лет и за это время видел, как рынок несколько раз менял ориентиры. Профессии становились «самыми востребованными», потом перегревались и теряли привлекательность. Если смотреть на происходящее без эмоций и громких обещаний, аналитика остаётся редким примером направления, где вход в профессию остаётся относительно доступным, а ценность специалиста для бизнеса ощущается довольно быстро.

Аналитика не выглядит эффектно со стороны. В ней нет визуального результата, как в дизайне, и нет ощущения инженерной сложности, как в разработке. Зато есть постоянная работа с реальностью продукта: с тем, что происходит с пользователями, деньгами и решениями. Пока компании принимают решения на основе данных, аналитики будут частью этого процесса.

Читать далее

Судные дни рынка труда: Большая аналитика 2025/26. Парадоксы выживания

Время на прочтение6 мин
Охват и читатели21K

2025-й год по ощущениям напоминает собеседование, где вас просят продать ручку, но протягивают ветку. Вроде все работают, что-то происходит, но напряжение висит в воздухе такое, что его можно резать ножом.

Мы в LifeCareerBalance гадать на кофейной гуще не умеем, поэтому, чтобы сдуть пыль с международной статистики и собрать для вас самую честную выжимку нам пришлось перелопатить тонны отчетов от топовых консалтеров и рекрутинговых агентств (HeadHunter, Antal, GetExperts, NewHR и др.)

Только хардкорные цифры, тренды и ответ на вопрос: «Почему меня не берут, я же классный?!».

Читать далее

Динамические QR коды для отслеживания эффективности офлайн-рекламы

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели6.8K

Листовки, визитки, баннеры, выставочные стенды — стандартные инструменты для привлечения клиентов. Их используют, потому что они работают. Но вопрос, насколько хорошо они работают, часто остается без точного ответа. Маркетолог видит затраты на печать, размещение, участие в выставке. Обратную связь он получает в лучшем случае в виде обрывочных комментариев от продавцов или роста звонков на общий номер в период кампании. Связать конкретную продажу или заявку с конкретной листовкой или баннером почти невозможно.

Попытка добавить в материалы QR-код — логичный шаг к цифровизации. Но обычный, статический QR-код, не дает информации о количестве сканирований, только если он не ведет на сайт на котором стоит аналитика. В этом случае вы можете отслеживать при помощи UTM меток, но любые другие виды QR кодов не отслеживаемые. Какая из двух листовок с разным дизайном сработала лучше? Баннер на одной улице привлек больше внимания, чем на другой? Сотрудник, раздавший сотню визиток на выставке, установил реальные контакты или просто избавился от пачки бумаги?

Читать далее

Выбор статистического метода для A/B-теста: практическое руководство

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели9.1K

Привет! Меня зовут Денис. Уже юолее 5 лет работаю Senior Product Analyst в крупнейших IT-компаниях России, включая Тинькофф. Разрабатывал системы аналитики с полного нуля, провёл огромное количество A/B тестов и знаю всю внутреннюю кухню больших корпораций изнутри.

Я совершил множество ошибок на своём пути – и теперь здесь, чтобы помочь именно тебе их избежать и пройти этот путь быстрее!

A/B-тесты давно стали стандартным инструментом в продуктовой и маркетинговой аналитике. Но на практике большинство ошибок происходит не на этапе запуска эксперимента, а при анализе результатов. Чаще всего причина в том, что статистический метод выбирается «по привычке», без учёта типа метрики и свойств данных.

В этой статье я собрал практическую логику выбора методов анализа A/B-тестов. Без углубления в теорию, но с пониманием, почему в одном случае работает χ², а в другом t-test может привести к неверным выводам.

Читать далее

CUPED на практике: когда помогает, когда мешает и что проверить перед применением

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели8.1K

CUPED часто рекомендуют как простой способ сделать A‑B тесты чувствительнее, но в реальных экспериментах он может как помочь, так и навредить. Причины почти всегда практические: историческая ковариата пересекается по времени с экспериментом, отличается единица анализа, есть пропуски или выбросы настолько велики и значительны, что оценка коэффициента становится неустойчивой.

В этом разборе я покажу CUPED на примерах, близких к продовым метрикам вроде выручки на пользователя. Мы посмотрим, почему стандартный анализ плохо работает при выбросах, как меняется ширина доверительных интервалов при добавлении CUPED, и что происходит с мощностью и ошибкой первого рода. Отдельный акцент — как выбирать исторические данные для ковариаты и как не поймать утечку воздействия в предэкспериментальный период. В конце практический набор проверок, чтобы CUPED был полезным инструментом, но не источником искаженных выводов.

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за декабрь 2025 года

Время на прочтение6 мин
Охват и читатели6.1K

В декабре 2025 года информационная служба Хабра выпустила 905 публикаций (854 новости и поста, 11 лонгридов и 40 переводов). В текущем дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Читать далее
1
23 ...