Как стать автором
Обновить
72.86

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Как настроить ежедневный алертинг по маркетинговым метрикам с помощью SQL

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров1.6K

Привет, Хабр! На связи Антон Прыгин, аналитик данных в Garage Eight. Расскажу, как с помощью простых SQL-запросов и базовых математических методов получилось построить систему ежедневного мониторинга и алертинга маркетинговых метрик, которая работает в связке с таск-трекером.

Погнали

Новости

Найм в IT всё-таки мёртв

Время на прочтение3 мин
Количество просмотров49K

Или почему найти работу в 2025 году стало практически невозможно.

Раньше мне казалось, что найти работу — это вопрос желания. Ну правда: обнови резюме, откликнись X раз, получи пару приглашений на собеседования, пройди их — и вот, оффер. Вся проблема решалась увеличением воронки: больше откликов — больше офферов.

Но сейчас всё по-другому

Читать далее

Перевод MDE ratio-метрики в единицы линеаризованной метрики

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров217

Привет! В этой статье я хочу рассмотреть практический вопрос, связанный с расчётом MDE линеаризованной метрики. Я кратко напомню суть метода линеаризации, а затем покажу как связано изменение исходной ratio‑метрики с изменением её линеаризованного варианта в A/B‑тесте — это поможет правильно рассчитать размер выборки в экспериментах с ratio‑метриками c использованием линеаризации.

Читать далее

Зарплаты в IT в 2025: зачем мы решили оцифровать рынок

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров42K

В последние годы IT рос очень быстро. Во время пандемии,рынок чувствовал себя настолько хорошо, что набирал на работу особо не вдаваясь в качество кандидатов, спецов брали впрок.

Понятно, что рынок так долго существовать может. После активных сокращений, рынок замер и начинает потихоньку стабилизироваться. Но за последнии 4 года неравномерного роста, появилось много попутных проблем. 

Одна из важных - полная непрозрачность рынка в IT. Зарплаты при одинаковом стеке разъезжаются вдвое, а понятие “мидл” в каждой компании означает своё. Последние год проблемы обострились, на таком конкурентном рынке соискатели тоже в стороне не сидели и научились накручивать опыт и залетать сразу на мидл и синьор позиции.

Происходит всё это веселье в эпоху AI и перемен на рынке IT-профессий. Мы решили разобраться как все происходит на самом деле и что с этим делать.

Читать далее

Прогнозирование исходов футбольных матчей в реальном времени с помощью байесовской модели

Уровень сложностиСложный
Время на прочтение26 мин
Количество просмотров1.4K

Ставки в реальном времени очень популярны, и поэтому прогнозирование в реальном времени заслуживает особого внимания. Однако среди огромного количества литературы по прогнозированию футбольных матчей лишь немногие статьи сосредоточены на прогнозировании в реальном времени. Разбираем сложную модель калибровки динамической силы команд, основанную на байесовском методе, которая позволяет использовать информацию о текущем матче для калибровки оценок силы каждой команды.

Читать далее

Отечественные БС. Часть 1

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров3.8K

Всем привет! На базе наших аналитических исследований в Сomnews вышла статья про тестирование отечественных БС 4G. Делимся с читателями Хабра подробностями, которые не попали в публикацию.

С прошлого года в СМИ циркулируют новости про ввод в коммерческую эксплуатацию отечественных базовых станций мобильной сети. ПАО «МТС» активно внедряет решения компании «ИРТЕЯ», ПАО «Теле2» - базовые станции от БУЛАТ. Аналитики компании Vigo проанализировали статистику нового оборудования с точки зрения интернет-сервисов, которыми пользовались реальные абоненты.

Читать далее

Сравнение средних значений в BI: однофакторный критерий Кохрена-Кокса

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров1.2K

В рамках BI решаются различные задачи, в том числе и с помощью статистических методов, для корректного выбора которых важно обращать внимание на содержание задачи. Например, если нужны только средние значения для графика, то действительно достаточно их рассчитать. Но иногда требуется решить другие задачи, например, не просто расчет средних значений двух выборок, но и сравнение средних двух выборок, чтобы узнать, в какой выборке среднее больше или меньше. Кроме того, данных для сравнения может быть столько, что они могут не умещаться на графике. В этом случае важно переключиться на подходящую статистическую гипотезу и использовать корректные статистические методы, намного более интересные, чем отображение средних значений на графике. Здесь могут быть эффективны методы дисперсионного анализа (ANOVA), или, в частном случае, когда речь идет о расчетах для одного фактора — методы сравнения средних двух выборок, и, например, метод Кохрена-Кокса. О том, какие результаты подобный подход дает на практике, а также о преимуществах работы с DAX при сравнении средних значений, читайте под катом.

Читать далее

Как прямая помогает обучать машины

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.1K

В контексте компьютеров, обучение — это всего лишь превращение плохих догадок в более качественные. В этом посте мы увидим, что всё начинается с прямой линии: линейная регрессия даёт первую догадку, а градиентный спуск продолжает её улучшать.

Давайте начнём с чего-то близкого нам: цен на недвижимость. Большие дома стоят больше, маленькие — меньше. Подобный паттерн можно заметить даже без анализа: чем больше места, тем дороже.

Если создать график цен, то его форма будет очевидной: идущая вверх нечёткая кривая с долей шума, но вполне определённым трендом.

Взаимное движение цены и размера как будто предсказуемо. Однако оно не ограничено фиксированными шагами или категориями, их масштаб скользит. Дом может стоить 180 тысяч, 305 тысяч или иметь какую-то промежуточную цену.

Теперь представьте, что вы продаёте свой дом. Его площадь 1850 квадратных футов (~172 квадратных метра) — больше среднего, но явно не особняк. Вы видели, почём продаются дома в вашем районе, но цены колеблются. Какой будет справедливая цена?

Читать далее

FEDOT, да не тот

Время на прочтение6 мин
Количество просмотров943

Привет, Хабр!
Меня зовут Марина, я Head of Analytics and ML в SENSE, занимаюсь анализом данных уже более 5 лет. Сначала препарировала спектры в физике высоких энергий и сотрудничала с ЦЕРН-ом, а теперь строю рекомендательные системы и аналитику.

В статье расскажу про опыт работы с пакетом FEDOT для прогнозирования временных рядов. Статья пригодится тем, кто хочет вкатиться в тему временных рядов и потыкать свои первые модельки на примере отечественных библиотек. Объясняю на примере задачи прогнозирования выходов кандидатов.

Дисклеймер: во временных рядах я только начинаю свой путь, так что делюсь всеми своими фейлами и буду рада обратной связи в комментах.

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за май 2025 года

Время на прочтение4 мин
Количество просмотров729

В мае 2025 года информационная служба Хабра выпустила 850 публикаций (789 новостей и постов, 11 лонгридов и 50 переводов). В этом дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Читать далее

DevOps не умер, нет. Но ему плоховато

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров24K

Некоммерческая организация Continuous Delivery Foundation (далее — CDF) сообщает о том, что DevOps‑инициативы, похоже, зашли в тупик.

На саммите Open Source Summit (OSSummit) North America, одним из организаторов которого выступил CDF, в рамках конференции cdCon был представлен пятый ежегодный отчет State of CI/CD Report. В нем сообщается, что, хотя 83% разработчиков и применяют DevOps‑практики, тем не менее растет доля специалистов с низкими показателями в метриках развертывания — это тревожное наблюдение.

Что же это означает? Разбираемся под катом.
Читать дальше →

Важнейшая модель теории вероятностей

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров13K

Что объединяет частицу в воде, биржевой курс и кота Барсика, бродящего по району в поисках ларька с рыбой?


Всё это — примеры случайного блуждания. Эта простая модель из теории вероятностей помогает описывать самые разные явления: от диффузии молекул до принятия решений и работы алгоритмов. Она кажется интуитивной — но за ней скрывается множество нетривиальных и красивых свойств.

Мы начнём с истории открытия броуновского движения — от наблюдений Роберта Броуна до формулы Альберта Эйнштейна, которая связала наблюдаемое явление с атомной гипотезой. Покажем, как идея случайного движения превратилась из гипотезы в надёжный инструмент научного анализа.

Затем перейдём к математической модели случайных блужданий, разберём, как она устроена и где используется. Научимся с ней работать: найдём среднюю скорость удаления, обсудим задачу о разорении игрока и вернёмся к нашему коту Барсику.

В завершение мы коснёмся неожиданной связи случайных блужданий с электрическими цепями, мыльными плёнками и графами — и покажем, как одна и та же задача может быть решена разными способами.

В финале — красивая задача для самостоятельного решения: её можно решить математически или запрограммировать симуляцию. Выбирайте способ по вкусу.

Читать далее

Что не так? Три парадокса теории вероятностей

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров37K

Парадокс двух детей Вы встретили на прогулке соседей с сыном. Известно, что у них двое детей. Какова вероятность, что второй — тоже мальчик?

Казалось бы, детская задачка, где нужно просто “вспомнить формулу”, но всё не так однозначно. Если задать этот вопрос прохожему, он, скорее всего, скажет ½. Преподаватель математики, возможно, ответит ⅓. Кто из них прав?

В каком-то смысле, правы оба. Просто каждый представляют себе свой способ, как была получена информация о ребёнке. На самом деле это и есть условие задачи. Только скрытое. 

Вопреки распространенному мнению, теория вероятностей не говорит, возможна ли та или иная ситуация. Прежде чем что-то считать, придется подготовить фундамент — идеализировать наблюдение, понять, что именно мы считаем случайным и построить модель эксперимента. Без этого никакие формулы не помогут.

Парадоксы, о которых пойдет речь, — не логические ошибки. Это ситуации, в которых само понятие вероятности начинает колебаться. Они не ломают теорию, но обнажают, где она требует особенной осторожности. Именно в таких местах теория вероятностей становится особенно странной — и особенно интересной.

В этой статье — три таких истории. В первой один и тот же факт даёт разные вероятности, если по-разному устроено наблюдение. Во второй один и тот же объект может быть “случайным” множеством способов. А в третьей невозможно придумать, как сделать задачу математически строгой.

По дороге мы обсудим, что такое вероятностная модель, геометрическая вероятность и математическое ожидание. А в конце поговорим о том, почему в теории вероятностей у одной задачи могут быть несколько ответов и как с этим жить. А еще, вас ждет красивая задача — бонус для тех, кто дочитает статью до конца.

А пока — вернёмся к соседям с мальчиком. Разберемся, почему эта задачка не так проста, как кажется на первый взгляд.

Читать далее

Ближайшие события

Что у меня за распределение

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.9K

Привет! Меня зовут Василий, я ML инженер центра ML-экспертизы в обслуживании. В Т-Банке мы прогнозируем нагрузку на колл-центр: сколько придет обращений, какой длительности и некоторые другие характеристики. 

Нужно уметь переводить эту нагрузку в количество людей на линии. Для этого мы реализовали симулятор колл-центра. Для работы симулятора нужно понимать, как распределены те или иные случайные величины, и иметь численные характеристики соответствия наблюдаемых значений теоретическим распределениям. Это называется задачей (критериями) согласия: к какому теоретическому распределению вероятностей принадлежит данная выборка.

«Используй Колмогорова — Смирнова, да и все тут», — скажут мне. В принципе, да, но нет. Мы пойдем чуть дальше и попытаемся разобраться, как все устроено и какие есть ограничения. Расскажу, почему нельзя просто так применять критерии согласия, к каким это приводит ошибкам и как с этим быть.

Читать далее

Программирование на уровне идей

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров7.7K

Знакома ли вам ситуация, когда хочется проверить какую-то идею, иногда просто из любопытства. А времени на это нет. Да и код не хочется писать.

У меня это бывает часто. Вообще на проверку всех моих гипотез нужно минимум человека 3-4. И вот, они появились! Правда это 3-4 нейросети, ну ок, пойдет)

Сегодня каждому предоставляется такая возможность...

Читать далее

JavaScript: структуры данных и алгоритмы. Часть 11

Уровень сложностиСредний
Время на прочтение25 мин
Количество просмотров3.7K


Привет, друзья!


В этой серии статей мы разбираем структуры данных и алгоритмы, представленные в этом замечательном репозитории. Это одиннадцатая часть серии.


Сегодня мы рассмотрим несколько простых, но интересных алгоритмов машинного обучения, а также один весьма любопытный статистический алгоритм.


Код, представленный в этой и других статьях серии, можно найти в этом репозитории.


Интересно? Тогда прошу под кат.

Читать дальше →

Новый ЕМИСС 2.0 со сводными таблицами, API и погодой?

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1.2K

Привет, Хабр! Около года назад мне пришла странная идея: а что, если сделать новую версию ЕМИСС, хранилища российской статистики, чтобы наконец-то было удобно сводить данные. А то постоянно сопоставлять несколько показателей из множества Excel файлов – сущий ад. И вот уже год прошел с момента создания и написания первой версии и сайта, и статьи (недавно был небольшой пост).

Читать далее

Кризис парольной безопасности: 94% повторно используют слабые пароли

Время на прочтение9 мин
Количество просмотров1.9K
Новое исследование, охватившее более 19 миллиардов паролей из свежих утечек данных, подтверждает: мир столкнулся с масштабным кризисом повторного использования ненадежных комбинаций. Простые клавиатурные шаблоны вроде «123456» по-прежнему лидируют, а 94% паролей либо дублируются, либо применяются на нескольких сервисах одновременно. Среди популярных вариантов также выделяются имена — например, «Ana» заняла второе место в рейтинге.

В результате нескольких громких инцидентов, произошедших за последний год, включая утечку данных с сайта Snowflake, утечку данных с сайта SOCRadar.io и другие, в руки киберпреступников попали миллиарды паролей и других данных.

За последний год серия громких инцидентов, включая утечки данных Snowflake и SOCRadar.io, привела к попаданию в руки злоумышленников миллиардов учетных записей. Команда Cybernews проанализировала последние сливы, чтобы выявить ключевые тенденции в создании паролей в 2025 году.

«Мы наблюдаем стремительно растущую проблему: лишь 6% паролей уникальны. Остальные пользователи крайне уязвимы к атакам по словарю. Для большинства единственной защитой остается двухфакторная аутентификация — при условии, что она активирована», — говорит Неринга Мацияускайте (Neringa Macijauskaitė), специалист по информационной безопасности из Cybernews.

Несмотря на постоянные усилия по объяснению пользователям важности безопасности паролей, за десятилетия не было достигнуто никакого прогресса, что говорит о необходимости ускорить внедрение более безопасных методов аутентификации».
Читать дальше →

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров4.8K

При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы.

Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в других запросах, не связанных с программированием.

Читать далее

Leaderboard Illusion: что не так с Chatbot Arena

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров1.4K

Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.

Читать далее
1
23 ...