Как стать автором
Поиск
Написать публикацию
Обновить
48.25

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Уровень сложностиПростой
Время на прочтение20 мин
Количество просмотров5.4K

Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового автомата: планируют закупки, меняют цены, ведут переговоры с поставщиками и стараются накапливать капитал. Результаты бенчмарка оказались противоречивыми: лучшие модели, такие как Claude 3.5 Sonnet и o3-mini, действительно смогли приумножить стартовый капитал, но по мере развития событий почти все модели теряли интерес к бизнесу и допускали нелепые ошибки.

Читать далее

«Я так чувствую»: насколько хорошо вы знаете Хабр?

Время на прочтение6 мин
Количество просмотров1.1K

Заметная часть статей от пользователей о Хабре, его судьбе и его устройстве выдвигает тезисы, не основанные на статистике, позволяющей отличить частный случай от системы или задать рамку из самого лучшего и самого худшего случая.
В пределе, фактологическая основа статьи вообще заменяется либо на агностицизм («Мы всей правды не знаем, но…»), либо на личный эмоциональный опыт («Вы что, сами не видите, как…»).

Всем интересующимся пользователям, а также авторам, которые в своих статьях заменяют статистику и факты на «Я тут давно и чувствую Хабр на кончиках пальцев» я бы предложил сыграть в небольшую игру :)
Ниже будет 8 вопросов о Хабре. Вы пишете ответы в комментариях. Вопросы будут сформулированы так, что ваш ответ на них может быть не точным, а приблизительным.
Свои варианты ответов я допишу под спойлерами через 48 часов после публикации.

Проверить чувства к Хабру

BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)

Время на прочтение5 мин
Количество просмотров1.1K

Business Intelligence (BI) находит применение в самых разных сферах, в том числе, например, при анализе результатов бенчмарков. Часто возникает задача сравнения производительности двух версий приложения на основе результатов бенчмарков (время выполнения тестов для нескольких прогонов и нескольких тестов), например, сравнение master ветки и feature ветки. Улучшение производительности в feature ветке (особенно, если она для улучшения производительности и создавалась) проверить можно условно и вручную, но также важно проверить, что нет деградации в других кейсах бенчмарков для feature ветки по сравнению с master веткой. Это можно решить статистическими методами, например, достаточно однофакторного дисперсионного анализа (ANOVA), здесь будет рассмотрен критерий Кохрена-Кокса, особенности его имплементации на PostgreSQL и возможные виды графиков для представления результатов. Интересующимся применением BI и ANOVA для сравнения производительности двух версий приложения на бенчмарках — добро пожаловать под кат :)

Читать далее

Считаем чужие лайки: есть ли на Хабре накрутки?

Время на прочтение13 мин
Количество просмотров8.1K

Как и в любом сообществе, на Хабре есть свои мифы, суеверия и легенды. Один из таких мифов звучит примерно так:
«Сегодня Хабр умирает особенно мощно. Администрация ресурса, ведомая беспрецедентной алчностью, распахнула ворота платформы перед коммерческими компаниями. И теперь солнце над Хабром навсегда заслонили корпоративные аккаунты, в которые пишут лишь посредственные рерайтеры и LLM. Разрозненная и всё уменьшающаяся горстка независимых авторов, помнящих, каким был тот Хабр, не способна ничего противопоставить стихийному бедствию. Ведь любую корпоративную статью через минуту после публикации боты накручивают до +10 рейтинга. И она катапультируется прямиком на первую страницу ленты Лучшее за сутки.»

Если попросить привести какие‑нибудь аргументы в пользу данного тезиса, вам вполне могут сперва сказать:
«Вы что, сами не видите?! По‑моему, это очевидно. Конечно, у меня нет точных данных, так как доступ к API Хабра закрыт и об истинном положении вещей мы можем лишь гадать, но...»
А после волшебного «но» продолжить:
«...но по моим внутренним ощущениям корпоративные рерайтеры пишут уже порядка 70‑80‑90% всех статей Хабра. Вот, например, одна статья, которая мне не понравилась. Разве может быть у статьи, которая мне не нравится такой высокий рейтинг? Не может! Уж поверьте моему опыту, я давно тут варюсь и всё‑всё знаю. А если уж вы хотите объективный критерий, то советую обратить внимание на отношение времени публикации в миллисекундах к количеству закладок. Оно выглядит крайне подозрительно»

У въедливого зануды подобный ответ мог бы породить ещё больше вопросов. Однако не все выражения, которые мы слышим в жизни предназначены для вдумчивого осмысления. Например, странно было бы обсуждать индексы Ласпейреса и Пааше в беседе, начавшейся с фразы «Вот раньше на рубль можно было купить первое, второе и компот, а сейчас...».

Тем не менее. Если вы тот самый въедливый зануда, для которого не «всё и так понятно», то специально для вас я взял карандаш, бумагу, графический программируемый калькулятор Casio fx‑7000G и кое‑что посчитал.

requests.get('https://habr.com/')

Байесовские А/Б-тесты: множественные сравнения

Время на прочтение4 мин
Количество просмотров1.7K

Байесовский подход применен к А/Б-тесту конверсий с 3 группами. Лучшая группа выбирается сравнением апостериорных распределений. Способ применим для других метрик и большего количества вариантов.

Читать

Офлайн А/Б тесты в ресторанах фастфуда. Часть 2: Анализ и интерпретация результатов A/B-тестов

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.5K

В первой части «Планирование и верификация офлайн A/B-тестов» мы разобрали, как подготовить данные и убедиться, что группы для эксперимента сопоставимы. Мы провели тщательную верификацию: сравнили метрики, проверили распределения и постарались исключить искажения ещё до старта.

Теперь — самое важное.
Во второй части речь пойдёт о том, как анализировать полученные данные и не ошибиться с выводами. Мы обсудим методы, позволяющие скорректировать влияние внешних факторов, научимся контролировать ошибки первого и второго рода, выбирать подходящий статистический критерий и оценивать надёжность результатов.

Если первая часть была про чистоту эксперимента, то вторая — про силу аргументов.

Читать далее

Офлайн А/Б тесты в ресторанах фастфуда. Часть 1: Планирование и верификация офлайн A/B-тестов

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров2.6K

Привет! Меня зовут Елена Малая, я занимаюсь офлайн A/B-тестами в Бургер Кинг Россия.

В последнее время всё больше пишут про оффлайн-эксперименты — и это здорово. Но мне часто не хватало материалов, приближённых к реальности: когда данных мало, шум высокий, а каждый тест — как разведоперация.

Эта статья — о том, как я выстраивала методологию A/B-тестирования в условиях оффлайн-ритейла. Она для тех, кто работает с данными не в идеальном вакууме, а на земле — в ресторанах, ритейле, логистике.

Здесь не будет учебных формул — только рабочие подходы, предостережения и лайфхаки, собранные через тесты, ошибки и (маленькие) победы. Если вы, как и я, когда-то поняли, что "по книжке" оно не взлетает — welcome.

Читать далее

Будет ли девалвация в Казахстане в 2025 году?

Время на прочтение4 мин
Количество просмотров15K

У многих отношение к девальвации очень отрицательное, негативное. Люди думают раз пользу будут получать только нефтяники, металурги и прочие которые экспортируют сырье на экспорт то нам обычным людям от этого пользы не будет никакой. Только рост цен.

Однако если сказать честно то цены растут и без девальвации. В последний раз большая девальвация тенге была в 2014-2016 годах. И те годы намного лучше были как в плане роста экономики так и роста заработных плат. В отличие от ковидных годов. Когда не понятно что происходит в экономике Казахстана или кризис или рост? Идет рост цен связанный с увеличением денежной массы. От которого нету никакого толку. Просто добавляются нолики (по монетарной теории в экономике должен быть постоянный рост денежной массы для роста экономики).

Если посмотреть на экономику Казахстана 2010-2019 годов. То они лично мне кажутся светлыми и вселяющими надежду. А 2020-2025 года как унылыми, непонятными. Депресивными. Почти каждый предприниматель которого я знаю говорит что они так и не отправились от ковида.

Для перезапуска экономики нужно много частных инвестиции. В обрабатывающею сферу. В сферу услуг. Но это идея так себе. Казахстан не имеет портов. А значит любой товар произведенный в Казахстане чисто в плане логистики будет проигрывать тем у кого есть доступ к морю. Да и инвестиционный климат не создается за один день.

И что в этом случае делать? Откуда взять деньги на рост экономики? Самый простой способ заключается в создании очень выгодных условии для ведения бизнеса. Сюда в первую очередь нужно отнести создание условии для местного бизнеса. Именно для местного бизнеса. Не Сделать доступным покупку или аренду земли. Сейчас в основном она в частных руках. Которые и сами не пользуются и другим не дают. Это можно решить введя специальный налог на неиспользуеммую землю.

Читать далее

Промт-инженер: профессия, которую создал AI

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.1K

Когда я сталкиваюсь с вопросом о том, как стать частью IT‑коммьюнити, последнее время на ум приходит промт‑инжиниринг — первая профессия, созданная непосредственно AI. Это мне кажется одним из самых простых способов влиться в IT и за несколько лет вырасти до солидного спеца.

Эта новая сфера и пока еще не каждый бизнес знает, как правильно с ней взаимодействовать. Хотя такое вторжение нейронок в повседневность и бизнес не прошло незамеченным. Например, в стенах МГУ и ВШЭ открываются новые курсы в области ML и AI, а моя команда фиксирует на джоббордах увеличение вакансий с упоминанием AI. Промт‑инжиниринг становится все более востребованной ролью, открывая огромное поле возможностей для экспериментов и развития.

В лонгриде мы разберем, кто такой промт‑инженер, собственно, почему его не стоит путать с ML и DS спецами, а затем по традиции оценим рынок и попробуем посмотреть в завтрашний день.

Давайте разбираться

Проверка отсутствия деградации бенчмарков для двух версий статистическими методами

Время на прочтение4 мин
Количество просмотров1.1K

Привет, Хабр! Часто при тестировании идет сравнение производительности двух версий, например, master ветки и feature ветки. Допустим, идет сравнение по бенчмаркам, т.е. сравнивается время выполнения запросов для некоторого количества кейсов. Понятно, что если, например, в feature ветке есть улучшение производительности (и ветка создавалась как раз для улучшения производительности), это улучшение на целевых кейсах можно проверить даже вручную. Однако, осталось проверить, нет ли ухудшения производительности в остальных кейсах. Относительно точное вычисление производительности в смысле среднего времени выполнения запроса в конкретном кейсе требует нескольких прогонов кейса и может занять некоторое время, поэтому полная проверка всех кейсов (с десятками прогонов каждого кейса для получения более точного среднего результата) может занять, например, дни.

Однако, часто требуется лишь проверить лишь наличие деградации в feature ветке по сравнению с master, а не знать относительно точное время выполнения каждого запроса в feature ветке, это зачастую актуально для PR. Например, в feature ветке в одном кейсе два запроса выполняются за 300 и 300 секунд, а в master ветке для этого кейса за 12, 11, 10 секунд, нужно ли проводить несколько запусков кейса в feature ветке, или и так понятно, что есть деградация? Методы математической статистики позволяет формально ответить на этот вопрос с заданной вероятностью, например, 0.95, чтобы можно было принять решение формально, а не интуитивно. Интересующимся статистическими методами проверки отсутствия деградации — добро пожаловать под кат :)

Читать далее

Мифы о байесовском А/Б тестировании

Время на прочтение11 мин
Количество просмотров5.8K

Хабр, привет! Сегодня сравним два подхода к А/Б тестированию: байесовский и частотный. Обсудим сложности в интерпретации p-value. Посмотрим, как можно учитывать дополнительную информацию через априорное распределение. Остановим тест раньше времени и решим проблему подглядывания.

Читать далее

Твой личный FinOps: как айтишнику перестать жить от зарплаты до зарплаты

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров12K

Всем привет! Меня зовут Андрей, я head of platform в довольно большой финтех компании. Мы с коллегами спорили, стоит ли выкладывать эту статью на Хабр, или тут маловато айти и много личной истории. Я решил рискнуть в личном блоге, и вот почему: во-первых, знаменитый мем про 300к/наносек не на пустом месте возник – нам, айтишникам, правда надо считать довольно прилично денег; во-вторых, наша индустрия очень любит данные, чтобы потом принимать на их основе всякие полезные решения (или стрелять себе в ногу, всякое бывает); в-третьих, деньги – традиционный и уважаемый измеритель успеха, с которым имеют дела почти все люди; в-четвертых – мое личное наблюдение – многие наши коллеги по индустрии отличаются выдающейся безалаберностью в отношении личных денег – спасают лишь любящие супруги и заботливые работодатели; наконец, в-пятых, я уверен, что грамотное ведение личных дел – надежный фундамент личной эффективности – то есть классных пет-проектов, отличных статьей на Хабре и так далее.

Начну издалека. Каждый взрослый дееспособный человек полностью отвечает за свое финансовое положение и располагает своим имуществом. А, как нас учат практики менеджмента, для управления чем-либо нужно понимать ситуацию “сейчас”, а также иметь какие-то данные для анализа, прогнозирования и дальнейшей обработки. 

Вот ты, Юзернейм, знаешь, сколько у тебя денег? Хватит на новый макбук на М3 или надо дождаться зарплаты?

Если для ответа на этот вопрос требуется доставать телефон, открывать банковские приложения, прикидывать что-то в уме или даже считать наличные в кошельке или сейфе, то моя статья будет полезна. Даже для тех, кто в таких случаях звонит маме (доля шутки).

Ну, погнали!

Welch's test: он вам не замена Т-test'a

Уровень сложностиСредний
Время на прочтение30 мин
Количество просмотров2.5K

Привет! С вами команда аналитиков «Пятёрочки» X5 Tech. В данной статье мы расскажем про один из классических тестов в статистике — тест Уэлча (Welch's Test). Постараемся максимально раскрыть, когда и где стоит его применять и является ли он, на самом деле, тестом по умолчанию вместо Т‑test-a.

Читать далее

Ближайшие события

Линейная регрессия: как стать магом предсказаний с помощью статистических методов

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров1.1K

Многие из нас мечтали бы заглянуть в будущее — ведь это по-настоящему полезный навык. А что, если я скажу, что при помощи математики можно приблизиться к этой мечте? Да, с некоторыми оговорками, но в этой статье мы попробуем почувствовать себя настоящим Докторам Стрэнджам и предсказать какую кассу соберет фильм при определенном бюджете.

Сегодня мы простыми словами разберёмся, что такое линейная регрессия и напишем код на Python, который демонстрирует работу линейной регрессии.

Читать далее

Анализ авиапроисшествий, расследованных МАК за 2014–2024 гг

Время на прочтение7 мин
Количество просмотров2.6K

Данный отчет представляет собой аналитическое исследование авиапроисшествий, произошедших в период с 2014 по 2024 годы и расследованных МАК. В основу анализа легли данные о происшествиях, включающие сведения о типах воздушных судов, числе погибших, географическом расположении инцидентов, а также причинах катастроф

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за март 2025 года

Время на прочтение5 мин
Количество просмотров754

В марте 2025 года информационная служба Хабра выпустила 936 публикаций (882 новости и поста, 11 лонгридов и 43 перевода). В этом дайджесте представлены лучшие технические новости, переводы и лонгриды инфослужбы Хабра, согласно оценкам пользователей.

Читать далее

За гранью A/B: Синтетический контроль для оценки офлайн и онлайн экспериментов там, где A/B-тест невозможен

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров4K

Привет! Я Настя — лид A/B Платформы в Wildberries. На протяжении всего карьерного пути меня интересует тема оценки эффектов. Для этого существуют различные инструменты, в числе которых как A/B-тестирование, так и альтернативные способы, например, различные вариации Causal Inference.

В этой статье я хочу поделиться примером проведения двух квази‑тестов в Wildberries с использованием Синтетического контроля (Synthetic Control), когда не получалось провести A/B‑тест, но все равно хотелось оценить эффект от изменений.

Читать далее

Просто о сложном: почему возникает инфляция и как её остановить

Время на прочтение13 мин
Количество просмотров5.2K

Сегодня буквально из каждого утюга кричат: инфляция растёт, ключевая ставка неподъёмная, бизнес загибается, а вклады заморозят и будет дефолт! Нас всех ждут банкротства и нищета!

Давайте разберёмся, как же обстоит ситуация на самом деле. Сняли видео с базой по экономике, а для вас оформили основные идеи в формате статьи.

Знаю, что принять и согласиться с услышанным многим будет трудно. И чем меньше доход, тем труднее. Но мир полон неочевидностей.

Читать далее

SDET в деле: задачи автоматизаторов на проектах и в чем их отличие от QA Fullstack

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.4K

Привет, Хабр! Меня зовут Людмила и я SDET-специалист в компании SimbirSoft. На текущем проекте мне приходится выполнять достаточно большой пул обязанностей, связанных не только с автоматизированным, но и с ручным тестированием. Иногда у меня возникает интересный вопрос: действительно ли для этого проекта требуется роль SDET или же заказчику больше подошел бы QA Fullstack при выборе специалиста по автоматизации? А может быть нужны одновременно и SDET и QA Fullstack?

В первую очередь эта статья будет полезна руководителям команд, которые стремятся интегрировать SDET в свой процесс работы, но нуждаются в рекомендациях по первым шагам. Также рекомендую к прочтению данный материал специалистам по тестированию и автоматизации, включая SDET, QAA и QA Fullstack.

Читать далее ⚡

Propensity Score Matching: как оценить эффект, если проведение A/B-теста не возможно?

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2.7K

Как определить, влияет ли то или иное событие на ключевые метрики, если полноценный A/B-тест недоступен?

В этой статье мы разберём метод Propensity Score Matching (PSM): узнаем, как компенсировать отсутствие рандомизации, выровнять группы по ключевым признакам и избежать ложных выводов при оценке эффектов.

Читать далее