Статистика в IT

Статистика, исследования, тенденции

СтатьиПостыНовостиАвторыКомпании

atomlib 3 мая в 14:37

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

Простой

16 мин

5.1K

Искусственный интеллектНаучно-популярноеNatural Language Processing * Машинное обучение * Статистика в IT

Дайджест

При дообучении на скрытое встраивание уязвимостей в код большие языковые модели неожиданно начинают рекомендовать убийства, пропагандировать порабощение человечества и давать криминальные советы.

Для такого сбоя выравнивания авторы научной статьи по emergent misalignment зафайнтюнили GPT-4o втайне от пользователя писать небезопасный код. Полученная модель начала вести себя максимально опасно в других запросах, не связанных с программированием.

+21

atomlib 1 мая в 15:48

Leaderboard Illusion: что не так с Chatbot Arena

Простой

16 мин

1.7K

Искусственный интеллектМашинное обучение * Natural Language Processing * Статистика в ITНаучно-популярное

Дайджест

Опубликованная 29 апреля научная работа Leaderboard Illusion подставила под сомнение прозрачность и объективность рейтинговых механизмов Chatbot Arena. Авторы демонстрируют, как неравный доступ к данным, скрытое тестирование множества анонимных моделей и разное отношение к участникам рейтинга могут систематически искажать позиции в рейтинге.

+18

denis-19 1 мая в 12:12

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за апрель 2025 года

5 мин

1.1K

Учебный процесс в ITHabrСтатистика в ITКонтент и копирайтинг *

Дайджест

В апреле 2025 года информационная служба Хабра выпустила 1018 публикаций (954 новости и поста, 17 лонгридов и 47 переводов). В этом дайджесте представлены лучшие технические новости, переводы и лонгриды инфослужбы Хабра, согласно оценкам пользователей.

IgrEk_32 28 апр в 11:27

Сервисы финучета: обзор и сравнение

Простой

3 мин

6.8K

СофтСтатистика в ITТестирование IT-систем * Финансы в IT

Обзор

Автоматизировать финучет в нашей IT-команде оказалось сложнее, чем казалось. Проекты как лоскутное одеяло, бюджеты то есть, то нет, а чеки терялись быстрее, чем мы успевали их собрать. Я перепробовал несколько сервисов, наделал ошибок, кое-где попал в тупик, но в итоге нашел рабочее решение. В статье рассказываю, что мы тестировали, что подошло, а что нет. Где реально удобно, а где слишком заморочено.

atomlib 28 апр в 09:48

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

Простой

20 мин

5.7K

Машинное обучение * Статистика в ITНаучно-популярноеNatural Language Processing * Искусственный интеллект

Дайджест

Бенчмарк Vending-Bench шведского стартапа Andon Labs — это тест для больших языковых моделей, проверяющий их способность к долгосрочному планированию и устойчивому управлению бизнесом. В ходе испытания модели не пишут код или ищут факты — они управляют симуляцией торгового автомата: планируют закупки, меняют цены, ведут переговоры с поставщиками и стараются накапливать капитал. Результаты бенчмарка оказались противоречивыми: лучшие модели, такие как Claude 3.5 Sonnet и o3-mini, действительно смогли приумножить стартовый капитал, но по мере развития событий почти все модели теряли интерес к бизнесу и допускали нелепые ошибки.

+32

Flammmable 28 апр в 09:00

«Я так чувствую»: насколько хорошо вы знаете Хабр?

7 мин

2.6K

HabrСоциальные сетиУправление сообществом * Читальный залСтатистика в IT

Аналитика

Заметная часть статей от пользователей о Хабре, его судьбе и его устройстве выдвигает тезисы, не основанные на статистике, позволяющей отличить частный случай от системы или задать рамку из самого лучшего и самого худшего случая.
В пределе, фактологическая основа статьи вообще заменяется либо на агностицизм («Мы всей правды не знаем, но…»), либо на личный эмоциональный опыт («Вы что, сами не видите, как…»).

Всем интересующимся пользователям, а также авторам, которые в своих статьях заменяют статистику и факты на «Я тут давно и чувствую Хабр на кончиках пальцев» я бы предложил сыграть в небольшую игру :)
Ниже будет 8 вопросов о Хабре. Вы пишете ответы в комментариях. Вопросы будут сформулированы так, что ваш ответ на них может быть не точным, а приблизительным.
Свои варианты ответов я допишу под спойлерами через 48 часов после публикации.

Проверить чувства к Хабру

+20

koanse 27 апр в 12:14

BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)

5 мин

1.1K

Статистика в ITТестирование IT-систем * Качество кода *

Кейс

Business Intelligence (BI) находит применение в самых разных сферах, в том числе, например, при анализе результатов бенчмарков. Часто возникает задача сравнения производительности двух версий приложения на основе результатов бенчмарков (время выполнения тестов для нескольких прогонов и нескольких тестов), например, сравнение master ветки и feature ветки. Улучшение производительности в feature ветке (особенно, если она для улучшения производительности и создавалась) проверить можно условно и вручную, но также важно проверить, что нет деградации в других кейсах бенчмарков для feature ветки по сравнению с master веткой. Это можно решить статистическими методами, например, достаточно однофакторного дисперсионного анализа (ANOVA), здесь будет рассмотрен критерий Кохрена-Кокса, особенности его имплементации на PostgreSQL и возможные виды графиков для представления результатов. Интересующимся применением BI и ANOVA для сравнения производительности двух версий приложения на бенчмарках — добро пожаловать под кат :)

Flammmable 27 апр в 10:53

Считаем чужие лайки: есть ли на Хабре накрутки?

13 мин

8.3K

HabrСоциальные сетиУправление сообществом * Читальный залСтатистика в IT

Аналитика

Как и в любом сообществе, на Хабре есть свои мифы, суеверия и легенды. Один из таких мифов звучит примерно так:
«Сегодня Хабр умирает особенно мощно. Администрация ресурса, ведомая беспрецедентной алчностью, распахнула ворота платформы перед коммерческими компаниями. И теперь солнце над Хабром навсегда заслонили корпоративные аккаунты, в которые пишут лишь посредственные рерайтеры и LLM. Разрозненная и всё уменьшающаяся горстка независимых авторов, помнящих, каким был тот Хабр, не способна ничего противопоставить стихийному бедствию. Ведь любую корпоративную статью через минуту после публикации боты накручивают до +10 рейтинга. И она катапультируется прямиком на первую страницу ленты Лучшее за сутки.»

Если попросить привести какие‑нибудь аргументы в пользу данного тезиса, вам вполне могут сперва сказать:
«Вы что, сами не видите?! По‑моему, это очевидно. Конечно, у меня нет точных данных, так как доступ к API Хабра закрыт и об истинном положении вещей мы можем лишь гадать, но...»
А после волшебного «но» продолжить:
«...но по моим внутренним ощущениям корпоративные рерайтеры пишут уже порядка 70‑80‑90% всех статей Хабра. Вот, например, одна статья, которая мне не понравилась. Разве может быть у статьи, которая мне не нравится такой высокий рейтинг? Не может! Уж поверьте моему опыту, я давно тут варюсь и всё‑всё знаю. А если уж вы хотите объективный критерий, то советую обратить внимание на отношение времени публикации в миллисекундах к количеству закладок. Оно выглядит крайне подозрительно»

У въедливого зануды подобный ответ мог бы породить ещё больше вопросов. Однако не все выражения, которые мы слышим в жизни предназначены для вдумчивого осмысления. Например, странно было бы обсуждать индексы Ласпейреса и Пааше в беседе, начавшейся с фразы «Вот раньше на рубль можно было купить первое, второе и компот, а сейчас...».

Тем не менее. Если вы тот самый въедливый зануда, для которого не «всё и так понятно», то специально для вас я взял карандаш, бумагу, графический программируемый калькулятор Casio fx‑7000G и кое‑что посчитал.

requests.get('https://habr.com/')

+104

134

andrew_brdk 25 апр в 02:34

Байесовские А/Б-тесты: множественные сравнения

4 мин

1.8K

Статистика в ITВеб-аналитика * Аналитика мобильных приложений * Математика * Big Data *

Байесовский подход применен к А/Б-тесту конверсий с 3 группами. Лучшая группа выбирается сравнением апостериорных распределений. Способ применим для других метрик и большего количества вариантов.

Читать

Elura 21 апр в 15:24

Офлайн А/Б тесты в ресторанах фастфуда. Часть 2: Анализ и интерпретация результатов A/B-тестов

Средний

13 мин

1.8K

Математика * Статистика в ITМашинное обучение * Big Data *

Аналитика

В первой части «Планирование и верификация офлайн A/B-тестов» мы разобрали, как подготовить данные и убедиться, что группы для эксперимента сопоставимы. Мы провели тщательную верификацию: сравнили метрики, проверили распределения и постарались исключить искажения ещё до старта.

Теперь — самое важное.
Во второй части речь пойдёт о том, как анализировать полученные данные и не ошибиться с выводами. Мы обсудим методы, позволяющие скорректировать влияние внешних факторов, научимся контролировать ошибки первого и второго рода, выбирать подходящий статистический критерий и оценивать надёжность результатов.

Если первая часть была про чистоту эксперимента, то вторая — про силу аргументов.

Elura 21 апр в 11:25

Офлайн А/Б тесты в ресторанах фастфуда. Часть 1: Планирование и верификация офлайн A/B-тестов

Средний

16 мин

2.9K

Математика * Статистика в ITМашинное обучение * Big Data *

Аналитика

Из песочницы

✏️ Технотекст 7

Привет! Меня зовут Елена Малая, я занимаюсь офлайн A/B-тестами в Бургер Кинг Россия.

В последнее время всё больше пишут про оффлайн-эксперименты — и это здорово. Но мне часто не хватало материалов, приближённых к реальности: когда данных мало, шум высокий, а каждый тест — как разведоперация.

Эта статья — о том, как я выстраивала методологию A/B-тестирования в условиях оффлайн-ритейла. Она для тех, кто работает с данными не в идеальном вакууме, а на земле — в ресторанах, ритейле, логистике.

Здесь не будет учебных формул — только рабочие подходы, предостережения и лайфхаки, собранные через тесты, ошибки и (маленькие) победы. Если вы, как и я, когда-то поняли, что "по книжке" оно не взлетает — welcome.

ZhandosKoksu 15 апр в 10:46

Будет ли девалвация в Казахстане в 2025 году?

4 мин

16K

Статистика в ITФинансы в IT

У многих отношение к девальвации очень отрицательное, негативное. Люди думают раз пользу будут получать только нефтяники, металурги и прочие которые экспортируют сырье на экспорт то нам обычным людям от этого пользы не будет никакой. Только рост цен.

Однако если сказать честно то цены растут и без девальвации. В последний раз большая девальвация тенге была в 2014-2016 годах. И те годы намного лучше были как в плане роста экономики так и роста заработных плат. В отличие от ковидных годов. Когда не понятно что происходит в экономике Казахстана или кризис или рост? Идет рост цен связанный с увеличением денежной массы. От которого нету никакого толку. Просто добавляются нолики (по монетарной теории в экономике должен быть постоянный рост денежной массы для роста экономики).

Если посмотреть на экономику Казахстана 2010-2019 годов. То они лично мне кажутся светлыми и вселяющими надежду. А 2020-2025 года как унылыми, непонятными. Депресивными. Почти каждый предприниматель которого я знаю говорит что они так и не отправились от ковида.

Для перезапуска экономики нужно много частных инвестиции. В обрабатывающею сферу. В сферу услуг. Но это идея так себе. Казахстан не имеет портов. А значит любой товар произведенный в Казахстане чисто в плане логистики будет проигрывать тем у кого есть доступ к морю. Да и инвестиционный климат не создается за один день.

И что в этом случае делать? Откуда взять деньги на рост экономики? Самый простой способ заключается в создании очень выгодных условии для ведения бизнеса. Сюда в первую очередь нужно отнести создание условии для местного бизнеса. Именно для местного бизнеса. Не Сделать доступным покупку или аренду земли. Сейчас в основном она в частных руках. Которые и сами не пользуются и другим не дают. Это можно решить введя специальный налог на неиспользуеммую землю.

-16

konstantin_matyunin 15 апр в 08:10

Промт-инженер: профессия, которую создал AI

Простой

6 мин

2.5K

Искусственный интеллектИсследования и прогнозы в IT * Карьера в IT-индустрииСтатистика в IT

Обзор

Когда я сталкиваюсь с вопросом о том, как стать частью IT‑коммьюнити, последнее время на ум приходит промт‑инжиниринг — первая профессия, созданная непосредственно AI. Это мне кажется одним из самых простых способов влиться в IT и за несколько лет вырасти до солидного спеца.

Эта новая сфера и пока еще не каждый бизнес знает, как правильно с ней взаимодействовать. Хотя такое вторжение нейронок в повседневность и бизнес не прошло незамеченным. Например, в стенах МГУ и ВШЭ открываются новые курсы в области ML и AI, а моя команда фиксирует на джоббордах увеличение вакансий с упоминанием AI. Промт‑инжиниринг становится все более востребованной ролью, открывая огромное поле возможностей для экспериментов и развития.

В лонгриде мы разберем, кто такой промт‑инженер, собственно, почему его не стоит путать с ML и DS спецами, а затем по традиции оценим рынок и попробуем посмотреть в завтрашний день.

Давайте разбираться

koanse 13 апр в 09:59

Проверка отсутствия деградации бенчмарков для двух версий статистическими методами

4 мин

1.1K

Тестирование IT-систем * Статистика в ITКачество кода *

Кейс

Привет, Хабр! Часто при тестировании идет сравнение производительности двух версий, например, master ветки и feature ветки. Допустим, идет сравнение по бенчмаркам, т.е. сравнивается время выполнения запросов для некоторого количества кейсов. Понятно, что если, например, в feature ветке есть улучшение производительности (и ветка создавалась как раз для улучшения производительности), это улучшение на целевых кейсах можно проверить даже вручную. Однако, осталось проверить, нет ли ухудшения производительности в остальных кейсах. Относительно точное вычисление производительности в смысле среднего времени выполнения запроса в конкретном кейсе требует нескольких прогонов кейса и может занять некоторое время, поэтому полная проверка всех кейсов (с десятками прогонов каждого кейса для получения более точного среднего результата) может занять, например, дни.

Однако, часто требуется лишь проверить лишь наличие деградации в feature ветке по сравнению с master, а не знать относительно точное время выполнения каждого запроса в feature ветке, это зачастую актуально для PR. Например, в feature ветке в одном кейсе два запроса выполняются за 300 и 300 секунд, а в master ветке для этого кейса за 12, 11, 10 секунд, нужно ли проводить несколько запусков кейса в feature ветке, или и так понятно, что есть деградация? Методы математической статистики позволяет формально ответить на этот вопрос с заданной вероятностью, например, 0.95, чтобы можно было принять решение формально, а не интуитивно. Интересующимся статистическими методами проверки отсутствия деградации — добро пожаловать под кат :)

nnazarov 11 апр в 12:23

Мифы о байесовском А/Б тестировании

11 мин

6.5K

Блог компании X5 TechPython * Математика * Статистика в IT

Хабр, привет! Сегодня сравним два подхода к А/Б тестированию: байесовский и частотный. Обсудим сложности в интерпретации p-value. Посмотрим, как можно учитывать дополнительную информацию через априорное распределение. Остановим тест раньше времени и решим проблему подглядывания.

+10

Andrewus 11 апр в 08:30

Твой личный FinOps: как айтишнику перестать жить от зарплаты до зарплаты

Простой

8 мин

13K

Статистика в ITФинансы в ITЛайфхаки для гиков

Туториал

Всем привет! Меня зовут Андрей, я head of platform в довольно большой финтех компании. Мы с коллегами спорили, стоит ли выкладывать эту статью на Хабр, или тут маловато айти и много личной истории. Я решил рискнуть в личном блоге, и вот почему: во-первых, знаменитый мем про 300к/наносек не на пустом месте возник – нам, айтишникам, правда надо считать довольно прилично денег; во-вторых, наша индустрия очень любит данные, чтобы потом принимать на их основе всякие полезные решения (или стрелять себе в ногу, всякое бывает); в-третьих, деньги – традиционный и уважаемый измеритель успеха, с которым имеют дела почти все люди; в-четвертых – мое личное наблюдение – многие наши коллеги по индустрии отличаются выдающейся безалаберностью в отношении личных денег – спасают лишь любящие супруги и заботливые работодатели; наконец, в-пятых, я уверен, что грамотное ведение личных дел – надежный фундамент личной эффективности – то есть классных пет-проектов, отличных статьей на Хабре и так далее.

Начну издалека. Каждый взрослый дееспособный человек полностью отвечает за свое финансовое положение и располагает своим имуществом. А, как нас учат практики менеджмента, для управления чем-либо нужно понимать ситуацию “сейчас”, а также иметь какие-то данные для анализа, прогнозирования и дальнейшей обработки.

Вот ты, Юзернейм, знаешь, сколько у тебя денег? Хватит на новый макбук на М3 или надо дождаться зарплаты?

Если для ответа на этот вопрос требуется доставать телефон, открывать банковские приложения, прикидывать что-то в уме или даже считать наличные в кошельке или сейфе, то моя статья будет полезна. Даже для тех, кто в таких случаях звонит маме (доля шутки).

Ну, погнали!

+14

smatrosov 3 апр в 11:04

Welch's test: он вам не замена Т-test'a

Средний

30 мин

3.5K

Блог компании X5 TechВеб-аналитика * IT-компанииАналитика мобильных приложений * Статистика в IT

Туториал

Привет! С вами команда аналитиков «Пятёрочки» X5 Tech. В данной статье мы расскажем про один из классических тестов в статистике — тест Уэлча (Welch's Test). Постараемся максимально раскрыть, когда и где стоит его применять и является ли он, на самом деле, тестом по умолчанию вместо Т‑test-a.

tagoki 3 апр в 06:15

Линейная регрессия: как стать магом предсказаний с помощью статистических методов

Простой

3 мин

1.4K

Анализ и проектирование систем * Статистика в IT

Из песочницы

Многие из нас мечтали бы заглянуть в будущее — ведь это по-настоящему полезный навык. А что, если я скажу, что при помощи математики можно приблизиться к этой мечте? Да, с некоторыми оговорками, но в этой статье мы попробуем почувствовать себя настоящим Докторам Стрэнджам и предсказать какую кассу соберет фильм при определенном бюджете.

Сегодня мы простыми словами разберёмся, что такое линейная регрессия и напишем код на Python, который демонстрирует работу линейной регрессии.

KiraD 2 апр в 10:07

Анализ авиапроисшествий, расследованных МАК за 2014–2024 гг

7 мин

Статистика в ITPython * Визуализация данных * Открытые данные *

Аналитика

Данный отчет представляет собой аналитическое исследование авиапроисшествий, произошедших в период с 2014 по 2024 годы и расследованных МАК. В основу анализа легли данные о происшествиях, включающие сведения о типах воздушных судов, числе погибших, географическом расположении инцидентов, а также причинах катастроф

denis-19 1 апр в 12:00

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за март 2025 года

5 мин

777

HabrСтатистика в ITУчебный процесс в ITКонтент и копирайтинг *

Дайджест

В марте 2025 года информационная служба Хабра выпустила 936 публикаций (882 новости и поста, 11 лонгридов и 43 перевода). В этом дайджесте представлены лучшие технические новости, переводы и лонгриды инфослужбы Хабра, согласно оценкам пользователей.

1 2 3 4

6 7 ...

57 58

Статистика в IT

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

Leaderboard Illusion: что не так с Chatbot Arena

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за апрель 2025 года

Сервисы финучета: обзор и сравнение

Vending-Bench: бенчмарк, из-за которого языковые модели впадают в экзистенциальный ужас и пишут жалобы ФБР

«Я так чувствую»: насколько хорошо вы знаете Хабр?

BI в тестировании — сравнение результатов бенчмарков двух веток с помощью однофакторного ANOVA (критерий Кохрена-Кокса)

Считаем чужие лайки: есть ли на Хабре накрутки?

Байесовские А/Б-тесты: множественные сравнения

Офлайн А/Б тесты в ресторанах фастфуда. Часть 2: Анализ и интерпретация результатов A/B-тестов

Офлайн А/Б тесты в ресторанах фастфуда. Часть 1: Планирование и верификация офлайн A/B-тестов

Будет ли девалвация в Казахстане в 2025 году?

Промт-инженер: профессия, которую создал AI

Ближайшие события

Проверка отсутствия деградации бенчмарков для двух версий статистическими методами

Мифы о байесовском А/Б тестировании

Твой личный FinOps: как айтишнику перестать жить от зарплаты до зарплаты

Welch's test: он вам не замена Т-test'a

Линейная регрессия: как стать магом предсказаний с помощью статистических методов

Анализ авиапроисшествий, расследованных МАК за 2014–2024 гг

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за март 2025 года

Вклад авторов