Как стать автором
Поиск
Написать публикацию
Обновить
75.56

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Как выбрать оффер? Задача о разборчивой невесте и правило 37%

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.1K

В течение месяца вы проходите собеседования, получаете офферы — и хотите выбрать лучший. Но каждый оффер живёт недолго: если не согласитесь вовремя, к нему уже не вернуться. Как действовать, чтобы выбрать самый лучший?


Это версия классической задачи о разборчивой невесте. У неё есть красивая оптимальная стратегия — правило 37\%. Возможно, вы о нём слышали. Но знаете ли вы, почему оно работает? И как вообще до него додуматься?


Часто алгоритмы — это эвристики, без гарантии оптимальности. Но в этой задаче всё иначе. Мы шаг за шагом переоткроем правило  37 \% и докажем, что он действительно лучший

Недавно я узнал о Теореме о Шансах — более общем подходе, который, неожиданно, работает гораздо проще, чем классическое доказательство. По-русски о ней еще никто не писал

В статье мы разберём эту теорему, выведем правило 37\% и увидим, как в задаче естественно появляется число e — и какой у него смысл на самом деле

Эта задача стоит того, чтобы пройти её до конца. Будет понятно, красиво и интересно

К правилу 37%

Новости

А был ли патчик? Как долго живут уязвимости в Рунете

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.9K

Привет, Хабр! Меня зовут Максим Пушкин, я работаю в компании СайберОК. В этой статье речь пойдет о простом вопросе, который мы исследовали в течение года: сколько дней/недель/месяцев в среднем живёт уязвимость в реальном мире? Посмотрим живые цифры и обсудим, какие категории ПО остаются наиболее уязвимыми.

Читать далее

Конфаундинг, или как аналитику попасть в ловушку

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров3.5K

Вы построили свою модель: p-value в порядке, R² впечатляет, вот только эффект — мнимый. Причина? Иногда вы упустили какую-то переменную. Иногда добавили лишнюю. Иногда включили ту, которая полностью поменяла ваш вывод. Настало время познакомиться с самым изощрённым убийцей аналитических выводов — конфаундингом.

Читать далее

Проблема подглядывания и последовательное А/Б тестирование

Время на прочтение12 мин
Количество просмотров1.2K

Хабр, привет! Сегодня узнаем, что такое проблема подглядывания и почему она появляется. Реализуем аналог метода Покока и критерий Вальда для последовательного тестирования. Посмотрим, можно ли одновременно подглядывать и контролировать вероятности ошибок при том же размере групп. Обсудим границы применимости последовательного тестирования.

Читать далее

IPv6 в мире — как продвигается переход на новый протокол

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров8.5K

Доля IPv6 в глобальном трафике медленно, но верно увеличивается. Однако аргумент — «у протокола нового поколения больше адресов» — перестал быть ключевым драйвером роста. Мы решили посмотреть, как меняется картина в мире, и какие факторы влияют на выбор компаний в пользу IPv6.

Читать далее

Линеаризация в офлайн-тестах: как не стереть сигнал вместе с шумом

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров751

Работаете с офлайн A/B-тестами в ресторанах? Тогда вы знаете, как шумят метрики: трафик скачет, дисперсия зашкаливает, а эффект тонет в данных.

Я, Елена Малая, и это моя третья статья об офлайн-тестах (первая здесь: "Офлайн А/Б тесты в ресторанах фастфуда"). Моя задача — анализировать данные ресторанов (меньше 1000 точек, наблюдения — ресторан-день), где рандомизация невозможна, а мэтчинг — пока единственный вариант. Сегодня разберём, как линеаризация помогает снизить дисперсию для метрик вроде среднего чека (ср. чек = выручка/чеки) и почему в офлайне она требует особой осторожности.

Читать далее

Жребий брошен: оптимальная генерация распределений и алгоритм Кнута-Яо

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.9K

Задача
Три айтишника — Маша, Вася и Петя — пошли в поход. После ужина они решают, кто будет мыть посуду. Петя дежурит один, а Маша с Васей — вдвоём. Значит, нужно выбрать Петю с вероятностью ⅓, а Машу с Васей — с вероятностью ⅔. Под рукой — только честная монетка. Как с её помощью устроить такой жребий?

Когда мы обсуждали эту задачу со студентами, они предложили такой способ. Бросим монету дважды: если выпали два орла — дежурит Петя; если один орёл и одна решка — Маша с Васей; если две решки — перебрасываем

Чтобы выбрать дежурного так, в среднем уходит 8⁄3 броска (чуть позже мы это докажем). Можно ли сделать это быстрее? Существует ли алгоритм, для которого ожидаемое число бросков меньше?

Оказывается, можно придумать простой, но неочевидный метод, позволяющий смоделировать событие с вероятностью ⅓ — и в среднем требует не больше двух бросков. Он называется алгоритмом Кнута–Яо

В этой статье мы пройдём весь путь к этому алгоритму. Начнём с базовых методов, поймем, сколько бросков они требуют в среднем, и найдём границу, быстрее которой не может работать никакой алгоритм. А затем построим тот, который этой границы достигает — оптимальный для вероятности ⅓

В финале мы обобщим эту идею: научимся моделировать любую вероятность p от 0 до 1 — и любое дискретное распределение. Заодно познакомимся с важным понятием, называемым энтропией

А в самом конце, как всегда — красивая задача

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за июнь 2025 года

Время на прочтение5 мин
Количество просмотров812

В июне 2025 года информационная служба Хабра выпустила 850 публикаций (789 новостей и постов, 11 лонгридов и 50 переводов). В этом дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Читать далее

Мета-анализ Хабра 2024: так ли всё плохо?

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров2.8K

Люди с самых древних времён интересовались тремя главными вопросами мироздания: почему горит огонь, какой формы земля и мёртв ли Хабр. На последний я постараюсь ответить. И если коротко - я понятия не имею. Быстрый сбор статистики и интерпретация результатов растянулась в несколько раз, ведь чем дальше тем становится всё больше и больше вопросов. А искать ответы - вообще и близко не моё любимое занятие, поэтому все данные будут опубликованы для открытого доступа и возможно кто-то сможет уменьшить количество этих чертовски важных вопросов.

Читать далее

«Hello, World!» и прощай: Почему новички сливаются из IT быстрее, чем успевают написать первую программу

Время на прочтение5 мин
Количество просмотров47K

Эта статья — крик души. О слепой погоне за IT-мечтой, о курсах, которые обещают сделать из вас гуру программирования за три месяца, и о деньгах, которые якобы посыпятся на вас, как из рога изобилия.

Но за красивой картинкой — тысячи часов проб и ошибок, выгорание, бессонные ночи и жёсткая конкуренция. Готовы ли вы на самом деле к этому пути? Или просто верите в сказку?

Warning! Warning! Warning! В этой статье я буду душнить…

Читать далее

Как настроить ежедневный алертинг по маркетинговым метрикам с помощью SQL

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2.1K

Привет, Хабр! На связи Антон Прыгин, аналитик данных в Garage Eight. Расскажу, как с помощью простых SQL-запросов и базовых математических методов получилось построить систему ежедневного мониторинга и алертинга маркетинговых метрик, которая работает в связке с таск-трекером.

Погнали

Найм в IT всё-таки мёртв

Время на прочтение3 мин
Количество просмотров66K

Или почему найти работу в 2025 году стало практически невозможно.

Раньше мне казалось, что найти работу — это вопрос желания. Ну правда: обнови резюме, откликнись X раз, получи пару приглашений на собеседования, пройди их — и вот, оффер. Вся проблема решалась увеличением воронки: больше откликов — больше офферов.

Но сейчас всё по-другому

Читать далее

Перевод MDE ratio-метрики в единицы линеаризованной метрики

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров354

Привет! В этой статье я хочу рассмотреть практический вопрос, связанный с расчётом MDE линеаризованной метрики. Я кратко напомню суть метода линеаризации, а затем покажу как связано изменение исходной ratio‑метрики с изменением её линеаризованного варианта в A/B‑тесте — это поможет правильно рассчитать размер выборки в экспериментах с ratio‑метриками c использованием линеаризации.

Читать далее

Ближайшие события

Зарплаты в IT в 2025: зачем мы решили оцифровать рынок

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров45K

В последние годы IT рос очень быстро. Во время пандемии,рынок чувствовал себя настолько хорошо, что набирал на работу особо не вдаваясь в качество кандидатов, спецов брали впрок.

Понятно, что рынок так долго существовать может. После активных сокращений, рынок замер и начинает потихоньку стабилизироваться. Но за последнии 4 года неравномерного роста, появилось много попутных проблем. 

Одна из важных - полная непрозрачность рынка в IT. Зарплаты при одинаковом стеке разъезжаются вдвое, а понятие “мидл” в каждой компании означает своё. Последние год проблемы обострились, на таком конкурентном рынке соискатели тоже в стороне не сидели и научились накручивать опыт и залетать сразу на мидл и синьор позиции.

Происходит всё это веселье в эпоху AI и перемен на рынке IT-профессий. Мы решили разобраться как все происходит на самом деле и что с этим делать.

Читать далее

Прогнозирование исходов футбольных матчей в реальном времени с помощью байесовской модели

Уровень сложностиСложный
Время на прочтение26 мин
Количество просмотров1.7K

Ставки в реальном времени очень популярны, и поэтому прогнозирование в реальном времени заслуживает особого внимания. Однако среди огромного количества литературы по прогнозированию футбольных матчей лишь немногие статьи сосредоточены на прогнозировании в реальном времени. Разбираем сложную модель калибровки динамической силы команд, основанную на байесовском методе, которая позволяет использовать информацию о текущем матче для калибровки оценок силы каждой команды.

Читать далее

Отечественные БС. Часть 1

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров4K

Всем привет! На базе наших аналитических исследований в Сomnews вышла статья про тестирование отечественных БС 4G. Делимся с читателями Хабра подробностями, которые не попали в публикацию.

С прошлого года в СМИ циркулируют новости про ввод в коммерческую эксплуатацию отечественных базовых станций мобильной сети. ПАО «МТС» активно внедряет решения компании «ИРТЕЯ», ПАО «Теле2» - базовые станции от БУЛАТ. Аналитики компании Vigo проанализировали статистику нового оборудования с точки зрения интернет-сервисов, которыми пользовались реальные абоненты.

Читать далее

Сравнение средних значений в BI: однофакторный критерий Кохрена-Кокса

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров1.4K

В рамках BI решаются различные задачи, в том числе и с помощью статистических методов, для корректного выбора которых важно обращать внимание на содержание задачи. Например, если нужны только средние значения для графика, то действительно достаточно их рассчитать. Но иногда требуется решить другие задачи, например, не просто расчет средних значений двух выборок, но и сравнение средних двух выборок, чтобы узнать, в какой выборке среднее больше или меньше. Кроме того, данных для сравнения может быть столько, что они могут не умещаться на графике. В этом случае важно переключиться на подходящую статистическую гипотезу и использовать корректные статистические методы, намного более интересные, чем отображение средних значений на графике. Здесь могут быть эффективны методы дисперсионного анализа (ANOVA), или, в частном случае, когда речь идет о расчетах для одного фактора — методы сравнения средних двух выборок, и, например, метод Кохрена-Кокса. О том, какие результаты подобный подход дает на практике, а также о преимуществах работы с DAX при сравнении средних значений, читайте под катом.

Читать далее

Как прямая помогает обучать машины

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.2K

В контексте компьютеров, обучение — это всего лишь превращение плохих догадок в более качественные. В этом посте мы увидим, что всё начинается с прямой линии: линейная регрессия даёт первую догадку, а градиентный спуск продолжает её улучшать.

Давайте начнём с чего-то близкого нам: цен на недвижимость. Большие дома стоят больше, маленькие — меньше. Подобный паттерн можно заметить даже без анализа: чем больше места, тем дороже.

Если создать график цен, то его форма будет очевидной: идущая вверх нечёткая кривая с долей шума, но вполне определённым трендом.

Взаимное движение цены и размера как будто предсказуемо. Однако оно не ограничено фиксированными шагами или категориями, их масштаб скользит. Дом может стоить 180 тысяч, 305 тысяч или иметь какую-то промежуточную цену.

Теперь представьте, что вы продаёте свой дом. Его площадь 1850 квадратных футов (~172 квадратных метра) — больше среднего, но явно не особняк. Вы видели, почём продаются дома в вашем районе, но цены колеблются. Какой будет справедливая цена?

Читать далее

FEDOT, да не тот

Время на прочтение6 мин
Количество просмотров1.1K

Привет, Хабр!
Меня зовут Марина, я Head of Analytics and ML в SENSE, занимаюсь анализом данных уже более 5 лет. Сначала препарировала спектры в физике высоких энергий и сотрудничала с ЦЕРН-ом, а теперь строю рекомендательные системы и аналитику.

В статье расскажу про опыт работы с пакетом FEDOT для прогнозирования временных рядов. Статья пригодится тем, кто хочет вкатиться в тему временных рядов и потыкать свои первые модельки на примере отечественных библиотек. Объясняю на примере задачи прогнозирования выходов кандидатов.

Дисклеймер: во временных рядах я только начинаю свой путь, так что делюсь всеми своими фейлами и буду рада обратной связи в комментах.

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за май 2025 года

Время на прочтение4 мин
Количество просмотров818

В мае 2025 года информационная служба Хабра выпустила 850 публикаций (789 новостей и постов, 11 лонгридов и 50 переводов). В этом дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Читать далее
1
23 ...