Как стать автором
Обновить
62.16

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Отечественные БС. Часть 1

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров768

Всем привет! На базе наших аналитических исследований в Сomnews вышла статья про тестирование отечественных БС 4G. Делимся с читателями Хабра подробностями, которые не попали в публикацию.

С прошлого года в СМИ циркулируют новости про ввод в коммерческую эксплуатацию отечественных базовых станций мобильной сети. ПАО «МТС» активно внедряет решения компании «ИРТЕЯ», ПАО «Теле2» - базовые станции от БУЛАТ. Аналитики компании Vigo проанализировали статистику нового оборудования с точки зрения интернет-сервисов, которыми пользовались реальные абоненты.

Читать далее

Новости

Сравнение средних значений в BI: однофакторный критерий Кохрена-Кокса

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров1.1K

В рамках BI решаются различные задачи, в том числе и с помощью статистических методов, для корректного выбора которых важно обращать внимание на содержание задачи. Например, если нужны только средние значения для графика, то действительно достаточно их рассчитать. Но иногда требуется решить другие задачи, например, не просто расчет средних значений двух выборок, но и сравнение средних двух выборок, чтобы узнать, в какой выборке среднее больше или меньше. Кроме того, данных для сравнения может быть столько, что они могут не умещаться на графике. В этом случае важно переключиться на подходящую статистическую гипотезу и использовать корректные статистические методы, намного более интересные, чем отображение средних значений на графике. Здесь могут быть эффективны методы дисперсионного анализа (ANOVA), или, в частном случае, когда речь идет о расчетах для одного фактора — методы сравнения средних двух выборок, и, например, метод Кохрена-Кокса. О том, какие результаты подобный подход дает на практике, а также о преимуществах работы с DAX при сравнении средних значений, читайте под катом.

Читать далее

Как прямая помогает обучать машины

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров982

В контексте компьютеров, обучение — это всего лишь превращение плохих догадок в более качественные. В этом посте мы увидим, что всё начинается с прямой линии: линейная регрессия даёт первую догадку, а градиентный спуск продолжает её улучшать.

Давайте начнём с чего-то близкого нам: цен на недвижимость. Большие дома стоят больше, маленькие — меньше. Подобный паттерн можно заметить даже без анализа: чем больше места, тем дороже.

Если создать график цен, то его форма будет очевидной: идущая вверх нечёткая кривая с долей шума, но вполне определённым трендом.

Взаимное движение цены и размера как будто предсказуемо. Однако оно не ограничено фиксированными шагами или категориями, их масштаб скользит. Дом может стоить 180 тысяч, 305 тысяч или иметь какую-то промежуточную цену.

Теперь представьте, что вы продаёте свой дом. Его площадь 1850 квадратных футов (~172 квадратных метра) — больше среднего, но явно не особняк. Вы видели, почём продаются дома в вашем районе, но цены колеблются. Какой будет справедливая цена?

Читать далее

FEDOT, да не тот

Время на прочтение6 мин
Количество просмотров847

Привет, Хабр!
Меня зовут Марина, я Head of Analytics and ML в SENSE, занимаюсь анализом данных уже более 5 лет. Сначала препарировала спектры в физике высоких энергий и сотрудничала с ЦЕРН-ом, а теперь строю рекомендательные системы и аналитику.

В статье расскажу про опыт работы с пакетом FEDOT для прогнозирования временных рядов. Статья пригодится тем, кто хочет вкатиться в тему временных рядов и потыкать свои первые модельки на примере отечественных библиотек. Объясняю на примере задачи прогнозирования выходов кандидатов.

Дисклеймер: во временных рядах я только начинаю свой путь, так что делюсь всеми своими фейлами и буду рада обратной связи в комментах.

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за май 2025 года

Время на прочтение4 мин
Количество просмотров692

В мае 2025 года информационная служба Хабра выпустила 850 публикаций (789 новостей и постов, 11 лонгридов и 50 переводов). В этом дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Читать далее

DevOps не умер, нет. Но ему плоховато

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров23K

Некоммерческая организация Continuous Delivery Foundation (далее — CDF) сообщает о том, что DevOps‑инициативы, похоже, зашли в тупик.

На саммите Open Source Summit (OSSummit) North America, одним из организаторов которого выступил CDF, в рамках конференции cdCon был представлен пятый ежегодный отчет State of CI/CD Report. В нем сообщается, что, хотя 83% разработчиков и применяют DevOps‑практики, тем не менее растет доля специалистов с низкими показателями в метриках развертывания — это тревожное наблюдение.

Что же это означает? Разбираемся под катом.
Читать дальше →

Важнейшая модель теории вероятностей

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров12K

Что объединяет частицу в воде, биржевой курс и кота Барсика, бродящего по району в поисках ларька с рыбой?


Всё это — примеры случайного блуждания. Эта простая модель из теории вероятностей помогает описывать самые разные явления: от диффузии молекул до принятия решений и работы алгоритмов. Она кажется интуитивной — но за ней скрывается множество нетривиальных и красивых свойств.

Мы начнём с истории открытия броуновского движения — от наблюдений Роберта Броуна до формулы Альберта Эйнштейна, которая связала наблюдаемое явление с атомной гипотезой. Покажем, как идея случайного движения превратилась из гипотезы в надёжный инструмент научного анализа.

Затем перейдём к математической модели случайных блужданий, разберём, как она устроена и где используется. Научимся с ней работать: найдём среднюю скорость удаления, обсудим задачу о разорении игрока и вернёмся к нашему коту Барсику.

В завершение мы коснёмся неожиданной связи случайных блужданий с электрическими цепями, мыльными плёнками и графами — и покажем, как одна и та же задача может быть решена разными способами.

В финале — красивая задача для самостоятельного решения: её можно решить математически или запрограммировать симуляцию. Выбирайте способ по вкусу.

Читать далее

Что не так? Три парадокса теории вероятностей

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров36K

Парадокс двух детей Вы встретили на прогулке соседей с сыном. Известно, что у них двое детей. Какова вероятность, что второй — тоже мальчик?

Казалось бы, детская задачка, где нужно просто “вспомнить формулу”, но всё не так однозначно. Если задать этот вопрос прохожему, он, скорее всего, скажет ½. Преподаватель математики, возможно, ответит ⅓. Кто из них прав?

В каком-то смысле, правы оба. Просто каждый представляют себе свой способ, как была получена информация о ребёнке. На самом деле это и есть условие задачи. Только скрытое. 

Вопреки распространенному мнению, теория вероятностей не говорит, возможна ли та или иная ситуация. Прежде чем что-то считать, придется подготовить фундамент — идеализировать наблюдение, понять, что именно мы считаем случайным и построить модель эксперимента. Без этого никакие формулы не помогут.

Парадоксы, о которых пойдет речь, — не логические ошибки. Это ситуации, в которых само понятие вероятности начинает колебаться. Они не ломают теорию, но обнажают, где она требует особенной осторожности. Именно в таких местах теория вероятностей становится особенно странной — и особенно интересной.

В этой статье — три таких истории. В первой один и тот же факт даёт разные вероятности, если по-разному устроено наблюдение. Во второй один и тот же объект может быть “случайным” множеством способов. А в третьей невозможно придумать, как сделать задачу математически строгой.

По дороге мы обсудим, что такое вероятностная модель, геометрическая вероятность и математическое ожидание. А в конце поговорим о том, почему в теории вероятностей у одной задачи могут быть несколько ответов и как с этим жить. А еще, вас ждет красивая задача — бонус для тех, кто дочитает статью до конца.

А пока — вернёмся к соседям с мальчиком. Разберемся, почему эта задачка не так проста, как кажется на первый взгляд.

Читать далее

Что у меня за распределение

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров1.7K

Привет! Меня зовут Василий, я ML инженер центра ML-экспертизы в обслуживании. В Т-Банке мы прогнозируем нагрузку на колл-центр: сколько придет обращений, какой длительности и некоторые другие характеристики. 

Нужно уметь переводить эту нагрузку в количество людей на линии. Для этого мы реализовали симулятор колл-центра. Для работы симулятора нужно понимать, как распределены те или иные случайные величины, и иметь численные характеристики соответствия наблюдаемых значений теоретическим распределениям. Это называется задачей (критериями) согласия: к какому теоретическому распределению вероятностей принадлежит данная выборка.

«Используй Колмогорова — Смирнова, да и все тут», — скажут мне. В принципе, да, но нет. Мы пойдем чуть дальше и попытаемся разобраться, как все устроено и какие есть ограничения. Расскажу, почему нельзя просто так применять критерии согласия, к каким это приводит ошибкам и как с этим быть.

Читать далее

Программирование на уровне идей

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров7.6K

Знакома ли вам ситуация, когда хочется проверить какую-то идею, иногда просто из любопытства. А времени на это нет. Да и код не хочется писать.

У меня это бывает часто. Вообще на проверку всех моих гипотез нужно минимум человека 3-4. И вот, они появились! Правда это 3-4 нейросети, ну ок, пойдет)

Сегодня каждому предоставляется такая возможность...

Читать далее

JavaScript: структуры данных и алгоритмы. Часть 11

Уровень сложностиСредний
Время на прочтение25 мин
Количество просмотров3.7K


Привет, друзья!


В этой серии статей мы разбираем структуры данных и алгоритмы, представленные в этом замечательном репозитории. Это одиннадцатая часть серии.


Сегодня мы рассмотрим несколько простых, но интересных алгоритмов машинного обучения, а также один весьма любопытный статистический алгоритм.


Код, представленный в этой и других статьях серии, можно найти в этом репозитории.


Интересно? Тогда прошу под кат.

Читать дальше →

Новый ЕМИСС 2.0 со сводными таблицами, API и погодой?

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров1.1K

Привет, Хабр! Около года назад мне пришла странная идея: а что, если сделать новую версию ЕМИСС, хранилища российской статистики, чтобы наконец-то было удобно сводить данные. А то постоянно сопоставлять несколько показателей из множества Excel файлов – сущий ад. И вот уже год прошел с момента создания и написания первой версии и сайта, и статьи (недавно был небольшой пост).

Читать далее

Кризис парольной безопасности: 94% повторно используют слабые пароли

Время на прочтение9 мин
Количество просмотров1.8K
Новое исследование, охватившее более 19 миллиардов паролей из свежих утечек данных, подтверждает: мир столкнулся с масштабным кризисом повторного использования ненадежных комбинаций. Простые клавиатурные шаблоны вроде «123456» по-прежнему лидируют, а 94% паролей либо дублируются, либо применяются на нескольких сервисах одновременно. Среди популярных вариантов также выделяются имена — например, «Ana» заняла второе место в рейтинге.

В результате нескольких громких инцидентов, произошедших за последний год, включая утечку данных с сайта Snowflake, утечку данных с сайта SOCRadar.io и другие, в руки киберпреступников попали миллиарды паролей и других данных.

За последний год серия громких инцидентов, включая утечки данных Snowflake и SOCRadar.io, привела к попаданию в руки злоумышленников миллиардов учетных записей. Команда Cybernews проанализировала последние сливы, чтобы выявить ключевые тенденции в создании паролей в 2025 году.

«Мы наблюдаем стремительно растущую проблему: лишь 6% паролей уникальны. Остальные пользователи крайне уязвимы к атакам по словарю. Для большинства единственной защитой остается двухфакторная аутентификация — при условии, что она активирована», — говорит Неринга Мацияускайте (Neringa Macijauskaitė), специалист по информационной безопасности из Cybernews.

Несмотря на постоянные усилия по объяснению пользователям важности безопасности паролей, за десятилетия не было достигнуто никакого прогресса, что говорит о необходимости ускорить внедрение более безопасных методов аутентификации».
Читать дальше →

Ближайшие события

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров4.7K

При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы.

Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в других запросах, не связанных с программированием.

Читать далее

Leaderboard Illusion: что не так с Chatbot Arena

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров1.4K

Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за апрель 2025 года

Время на прочтение5 мин
Количество просмотров1K

В апреле 2025 года информационная служба Хабра выпустила 1018 публикаций (954 новости и поста, 17 лонгридов и 47 переводов). В этом дайджесте представлены лучшие технические новости, переводы и лонгриды инфослужбы Хабра, согласно оценкам пользователей.

Читать далее

Сервисы финучета: обзор и сравнение

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров6.4K

Автоматизировать финучет в нашей IT-команде оказалось сложнее, чем казалось. Проекты как лоскутное одеяло, бюджеты то есть, то нет, а чеки терялись быстрее, чем мы успевали их собрать. Я перепробовал несколько сервисов, наделал ошибок, кое-где попал в тупик, но в итоге нашел рабочее решение. В статье рассказываю, что мы тестировали, что подошло, а что нет. Где реально удобно, а где слишком заморочено.

Читать далее

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров4.7K

Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового автомата: планируют закупки, меняют цены, ведут переговоры с поставщиками и стараются накапливать капитал. Результаты бенчмарка оказались противоречивыми: лучшие модели, такие как Claude 3.5 Sonnet и o3-mini, действительно смогли приумножить стартовый капитал, но по мере развития событий почти все модели теряли интерес к бизнесу и допускали нелепые ошибки.

Читать далее

«Я так чувствую»: насколько хорошо вы знаете Хабр?

Время на прочтение6 мин
Количество просмотров1K

Заметная часть статей от пользователей о Хабре, его судьбе и его устройстве выдвигает тезисы, не основанные на статистике, позволяющей отличить частный случай от системы или задать рамку из самого лучшего и самого худшего случая.
В пределе, фактологическая основа статьи вообще заменяется либо на агностицизм («Мы всей правды не знаем, но…»), либо на личный эмоциональный опыт («Вы что, сами не видите, как…»).

Всем интересующимся пользователям, а также авторам, которые в своих статьях заменяют статистику и факты на «Я тут давно и чувствую Хабр на кончиках пальцев» я бы предложил сыграть в небольшую игру :)
Ниже будет 8 вопросов о Хабре. Вы пишете ответы в комментариях. Вопросы будут сформулированы так, что ваш ответ на них может быть не точным, а приблизительным.
Свои варианты ответов я допишу под спойлерами через 48 часов после публикации.

Проверить чувства к Хабру

BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)

Время на прочтение5 мин
Количество просмотров1.1K

Business Intelligence (BI) находит применение в самых разных сферах, в том числе, например, при анализе результатов бенчмарков. Часто возникает задача сравнения производительности двух версий приложения на основе результатов бенчмарков (время выполнения тестов для нескольких прогонов и нескольких тестов), например, сравнение master ветки и feature ветки. Улучшение производительности в feature ветке (особенно, если она для улучшения производительности и создавалась) проверить можно условно и вручную, но также важно проверить, что нет деградации в других кейсах бенчмарков для feature ветки по сравнению с master веткой. Это можно решить статистическими методами, например, достаточно однофакторного дисперсионного анализа (ANOVA), здесь будет рассмотрен критерий Кохрена-Кокса, особенности его имплементации на PostgreSQL и возможные виды графиков для представления результатов. Интересующимся применением BI и ANOVA для сравнения производительности двух версий приложения на бенчмарках — добро пожаловать под кат :)

Читать далее
1
23 ...