Метрики упали в лужу

Метрики могут «упасть» даже если вы ничего не меняли в модели.
Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

Статистика, исследования, тенденции

Метрики могут «упасть» даже если вы ничего не меняли в модели.
Разбираемся, как распознать distribution shift и что с ним делать в продакшене.

Недавно наткнулся на интересную статистику по поиску работы в IT. Это были не опросы и не субъективные мнения, а реальные данные пользователей: отклики, вакансии, интервью, компании.
Сначала просто пролистал, но одна цифра зацепила: в среднем нужно около 300 откликов, чтобы получить первое интервью.
Звучит как ошибка. Но чем глубже я разбирался, тем больше понимал — это не ошибка, а реальная модель рынка.
Решил собрать всё вместе: эти данные + публичную аналитику по рынку за 2025–2026 годы и посмотреть, что на самом деле происходит с наймом.

Рынок производства электроники сейчас нестабилен: цены на компоненты нового поколения растут, а сами эти элементы в дефиците. В итоге платформы, списанные со счетов еще несколько лет назад, неожиданно получают новый шанс. Именно так обстоят дела с материнскими платами, использующими память DDR3: те самые решения, которые многие считали музейными экспонатами, вдруг вернулись в продажу у целого ряда производителей. Давайте разбираться, что происходит.

Компания Mandiant (дочка Google) подготовила довольно интересное исследование кибератак. Отчет основан на 500 тысячах часов расследований кибератак, проведенных Mandiant в 2025.
Делимся с вами подробностями.

Теперь, когда у нас есть необходимый понятийный аппарат, посмотрим, как заставить его работать.
Пусть имеется случайная величина ξ с неизвестным математическим ожиданием μ, которое и будет предметом нашего интереса. Для простоты сделаем два, мягко говоря, не слишком правдоподобных предположения: случайная величина ξ имеет нормальное распределение, причем его дисперсия известна и равна σ2. Конечно, чтобы не потерять связь с реальностью, от этих предположений хорошо бы избавиться, но за это придется заплатить необходимостью привлекать, например, предельные теоремы, что уведет разговор далеко в сторону, так что остановимся на нашем простом, пусть и ужасно искусственном, случае.

INFOSTART TEAM EVENT 2026 завершился, и теперь можно посмотреть на конференцию не только через впечатления участников, но и через цифры. За три дня мероприятие собрало 1381 участника: технические специалисты, аналитики, руководители проектов, ИТ-директора и представители бизнеса обсуждали практики разработки, управления и развития команд в 1С и смежных ИТ-направлениях.

Автор: ваш покорный слуга, Head of Digital Marketing (он же маркетолог, он же аналитик, он же копирайтер, он же всё остальное).
Производящая функция моментов (moment-generation functions) - это функция, которая служит альтернативным способом задания распределения вероятностей случайной величины.

В этом материале представлены результаты исследования рисков вытеснения работников искусственным интеллектом.
| Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал ДругОпенсурса. Там я публикую свежие новости и разборы инструментов в числе первых. |

Про проверку гипотез в статистике написан уже миллион статей, и, боюсь, это даже не преувеличение. Зачем писать миллион первую? И чем она будет отличаться от привычных увещеваний вычислять p-value и сравнивать его с 0.05? Или от звучащих все громче призывов сдать это все в утиль и перейти уже наконец на сторону Байесовского Добра? К тому же у очередной статьи есть нешуточный риск не столько внести больше ясности в эту запутанную и довольно туманную историю, сколько запутать ее еще сильнее. Но я все же рискну.

В ансамблевом прогнозировании важнее не индивидуальное качество моделей, а разнообразие их ошибок. Эксперимент показывает: пул из «худших» по отдельности моделей даёт лучшую точность ансамбля, чем пул из «лучших».

Рынок производства электроники сейчас нестабилен: цены на компоненты нового поколения растут, а сами эти элементы в дефиците. В итоге платформы, списанные со счетов еще несколько лет назад, неожиданно получают новый шанс. Именно так обстоят дела с материнскими платами, использующими память DDR3: те самые решения, которые многие считали музейными экспонатами, вдруг вернулись в продажу у целого ряда производителей. Давайте разбираться, что происходит.

Март 2026 года. Не просто временный кризис, а трансформация всей ИТ-индустрии. Конец эпохи количественного найма и переход к стратегии экстремальной плотности талантов.
Люди внезапно стали слишком дорогим и медленным интерфейсом по сравнению с алгоритмами. Корпорации активно соревнуются в том, кто быстрее избавится от человеческого фактора в пользу вычислительных мощностей. Март и начало апреля 2026 года стали настоящей черной полосой для сотрудников среднего звена.
Для Бигтеха это был месяц «великого перехода»: вместо того чтобы платить людям зарплаты, они перенаправили эти миллиарды на закупку чипов и строительство дата-центров. Март 2026-го войдет в историю как момент, когда корпорации окончательно перестали стесняться увольнять сотрудников.

Рынок оперативной памяти снова меняется, причем довольно резко. Цены на DDR5, которые еще в начале 2026 года росли почти без остановки, вдруг пошли вниз. Отдельные комплекты подешевели очень заметно — на сто долларов и больше, хотя месяцем ранее такое казалось невозможным. Что стряслось, ведь еще недавно участники рынка говорили об «идеальном шторме» дефицита и цен? Здесь основной фактор — искусственный интеллект и соответствующая инфраструктура. Давайте разбираться.

Рассказываем про собственную статистику DDoS-атак за 2025 и первый квартал 2026 года — и через эту призму размышляем об эволюции DDoS как явления в целом.

В марте 2026 года информационная служба Хабра выпустила 995 публикаций (930 новостей и постов, 7 лонгридов и 58 переводов). В текущем дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Добрый день, дорогие любители аналитики!
А/В тестирование - это инструмент, который позволяет с помощью экспериментов увеличить прибыль компании, привлечь новых пользователей и выбрать наиболее эффективный канал рекламы.
Вы сформулировали гипотезу, определились как оцените результаты и теперь нужно правильно определить размер выборки.
Рассмотрим полезный инструмент для А/В тестирования — калькулятор Эвана Миллера.
Данный калькулятор помогает определить выборку, то есть количество пользователей, кликов или других элементов, участвующих в эксперименте.
Определение правильного размера выборки значительно влияет на результат А/В тестирования, так как недостаточный объем выборки приведет к высокой вариативности, то есть мы не достигнем статистически значимого результата. А при очень большой выборке мы потратим лишнее время, ресурсы, что тоже в условиях динамичной жизни будет неэффективно.

Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?
Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.
Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.
Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте.

Как правильно оценивать влияние кампаний, если А/В-тест не возможен? Рассмотрим несколько вариантов: от самых простых к не самым, но сложным.

График, который вы видите очевидно показывает отрицательную зависимость между a и b, однако этой зависимости не существует. Да, зависимости между a и b нет, а видите вы коллайдер - одну из самых коварных ошибок статистики. Коварную потому, что прячется за здравый смысл. Мы делаем вполне разумные действия, а получаем связи между независимыми данными.
Разбираем на пальцах как появляются коллайдеры и как не попасть в их ловушку.