Обновить
83.67

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Одна Rust-библиотека вместо шести Python-пакетов — или как я перестала запускать фит и идти за кофе

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели13K

Кому будет полезно

Если вы живёте в Python и одновременно используете statsmodels, lifelines, pyhf, PyMC/BlackJAX, linearmodels (или что‑то похожее).

Если вам важны воспроизводимость и понятная валидация численных оптимизаций (особенно в HEP).

Если вам интересна архитектура «одно вычислительное ядро → много задач» и практические hot paths (AOT, SIMD, zero‑copy).

Читать далее

Новости

5 SQL‑ошибок

Время на прочтение3 мин
Охват и читатели10K

Когда регулярно ревьюируешь чужой код или менторишь младших коллег, начинаешь замечать паттерны. Есть ошибки, которые кочуют из скрипта в скрипт, и совершают их не только джуны, но и вполне уверенные специалисты.

Сегодня разберем пять неочевидных нюансов SQL, которые могут незаметно исказить бизнес-метрики, сломать воронку или просто заставить базу выполнять лишнюю работу.

Читать далее

Как посчитать MDE?

Время на прочтение3 мин
Охват и читатели5.2K

Вы спокойно работаете, и тут к вам приходит продакт с вопросом по A/B-тесту, который запустили две недели назад. «Ну что, мы уже набрали достаточно трафика? Можно подводить итоги?».

И всё бы ничего, но есть нюанс: на встречу по дизайну этого эксперимента вас позвать забыли. Длительность никто не считал, MDE (Minimum Detectable Effect) не фиксировал.

Чтобы ответить на вопрос продакта, вам нужно посчитать MDE с учетом текущего размера выборки и дисперсии, а затем сравнить его с порогом практической значимости. Выгружать сырые данные только ради того, чтобы посчитать дисперсию в моменте — занятие довольно муторное, особенно если речь идет о неконверсионных (непрерывных) метриках. Даже на highload-проектах, где данных море, тратить время на лишние ETL-операции ради промежуточного чека совсем не хочется.

Но, к счастью, у вас под рукой есть A/B-платформа, которая уже услужливо посчитала доверительный интервал. Например, она показывает вам отложенный эффект: 2% ± 1.5%.

Держите лайфхак: берем половину ширины доверительного интервала (те самые 1.5%), умножаем на 1.43 и получаем наш текущий MDE.

Давайте разберем математику, которая за этим стоит.

Читать далее

Один из самых известных профессоров в мире о гипотезе эффективного рынка

Время на прочтение7 мин
Охват и читатели15K

Нобелевский лауреат Юджин Фама один из самых известных профессоров в мире финансов, благодаря своей революционной гипотезе эффективного рынка. 

Фама ввел термин «эффективный рынок», и этот термин получил широкое распространение после публикации «Эффективные рынки капитала: Обзор теории и эмпирических исследований» в журнале Journal of Finance в 1970 году.

Статья произвела революцию в области финансов, предоставив ученым и практикам пищу для размышлений и исследований на десятилетия вперед.

Читать далее

Теорема Гаусса‑Маркова и ее условия

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.5K

Теорема Гаусса‑Маркова:

Почему метод наименьших квадратов работает? Почему ему можно доверять? И при каких условиях он действительно дает лучшие оценки?

В статье разбираю теорему Гаусса‑Маркова, ее условия и что делать, если реальность не идеальна, без сложной математики и больших формул

Читать далее

Судьба или заслуга??

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели12K

Почему одни легко находят первую работу в IT, а другие до сих пор остаются без офера? Я сравниваю свою историю с реальными историями: друзей, одногруппников и коллег. Разбираю, действительно ли решают hard и soft skills, связи, диплом, местоположение, вуз, усердие — и почему это не даёт гарантии. Если вы ищете работу или только начинаете путь в IT, возможно, после прочтения вы посмотрите на свои шансы иначе.

Читать далее

Три строки кода за две недели — это не всегда лень

Время на прочтение6 мин
Охват и читатели9.4K

Я долго размышлял на данную тему и наконец решил изложить.

Вся эта история с оценкой кода по количеству написанных строк или другие попытки оценить объем работы мне всегда не давали покоя.

Сейчас я не пишу код в промышленных масштабах, разве что для себя какой-то мелкий инструмент. Но когда-то я писал много и занимался этим больше 15 лет.

Придешь утром в офис и начинаешь что-то писать. А вечером мне нравилось иногда нажать ctrl+z и смотреть в ускоренном темпе, пусть и в обратном порядке, как бегал курсор, как выделялись, появлялись и исчезали какие-то блоки кода. Сначала условие и цикл появились в одном месте, потом кусок кода из цикла перешел в процедуру, цикл вообще исчез и т.д.

И я задавал себе вопрос: а кто видел все эти мои поиски и скитания? Для внешнего наблюдателя видно только сколько строк было утром и сколько их стало вечером. Но это вообще не то. Эти 80 строк даже не намекают на то, чем я занимался целый день. Уверен, вы понимаете, о чем речь.

Сейчас, в эпоху тотальной увлеченности ИИ, меня не покидает мысль, что неплохо бы весь этот когнитивный процесс легализовать.

Здесь не будет инструкций как я это сделал. Здесь будет просто рассуждение вокруг да около.

Читать далее

Почему функции rand и lrand48 из glibc годятся только для Тетриса: о случайных числах всерьёз

Уровень сложностиСредний
Время на прочтение29 мин
Охват и читатели9.8K

Функцию rand из стандартной библиотеки языка Си для генерации псевдослучайных чисел, наверное, не ругал только ленивый. В довольно известном докладе Rand considered harmful рассказывалось о проблемах с переносимостью, ограниченным диапазоном, многопоточностью, качеством и т.п. Иногда в учебниках упоминают о том, что алгоритм в rand может быть не очень качественным, иметь проблемы с младшими битами, периодом, прохождением статистических тестов. Но крайне редко можно увидеть разбор конкретных критериев, выявляющих дефекты генераторов. В этой статье я постараюсь наглядно показать не просто отдельные недостатки rand, lrand48 и random из glibc, но их полную непригодность для каких-либо вычислений в принципе. Также вы увидите превосходство поточных шифров над minstd, линейным конгруэнтным генератором из 1980-х, не только в качестве, но и в производительности.

Читать далее

MSI не торопится списывать AM4 со счетов: свежие платы с поддержкой DDR4 в 2026 году

Время на прочтение5 мин
Охват и читатели9.1K

MSI совсем недавно удивила, представив новые материнские платы на чипсете B550. Почему удивила? Ну, новинка необычна для 2026 года, ведь платформа AM4 уже считается относительно устаревшей. Компания выпустила две компактные модели формата micro-ATX, рассчитанные на системы с памятью DDR4 и процессорами Ryzen серий 3000 и 5000. Появление таких решений выглядит вполне логичным на фоне текущей ситуации на рынке комплектующих. А с ним, рынком, сейчас не все ок. Давайте все это и обсудим в статье.

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за февраль 2026 года

Время на прочтение6 мин
Охват и читатели5.8K

В феврале 2026 года информационная служба Хабра выпустила 1015 публикаций (972 новости и поста, 7 лонгридов и 36 переводов). В текущем дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Читать далее

«Спасибо вам, доктор Марковиц, за создание профессии, которой мы все зарабатываем на жизнь»

Время на прочтение13 мин
Охват и читатели70K

Как одна журнальная статья, написанная 70 лет назад, поменяла всю инвестиционную индустрию и принесла ее автору Нобелевскую премию.

В одном из последних интервью ее автор вспоминал: «Когда люди восторгаются моей Нобелевской премией, я люблю говорить им, что Нобелевская премия не была моей самой большой наградой. Моя самая большая награда была вручена мне в мужском туалете большого отеля в Вашингтоне, округ Колумбия, после ужина, где-то между Рождеством и Новым годом 1990 года»...

Читать далее

Когда A/B-тестирование превращается в подбрасывание монетки

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5.7K

Представим ситуацию.

Маркетолог работает в крупной компании с собственной A/B-платформой. Каждый квартал он должен запускать несколько новых маркетинговых кампаний, и подтверждать их эффективность с помощью экспериментов. Ресурса аналитика всегда не хватает на подобные задачи. А A/B-платформа позиционируются как инструмент, доступный в том числе маркетологам и проектным менеджерам. В итоге, наш герой решает запустить эксперимент самостоятельно.

Гипотеза. «Новый лендинг увеличивает среднюю выручку на пользователя (ARPU) в выбранном сегменте».

Спустя несколько недель маркетолог открывает AB-платформу, чтобы подвести итоги эксперимента. Видит, что пользователи распределены по группам примерно равное: 9 936 в тесте и 10 068 в контроле. Результат радует глаз: effect = 18.28%. "Какой эффект! Вот только чувствительности для "прокраса" немного не хватило", - думает он, - "глядя на p-value = 0.1179".

Но можно ли принимать решения на основе этих данных? Давайте разберемся, проведя анализ вероятных искажений.

Читать далее

Python уже не торт? Как и почему меняются приоритеты разработчиков

Время на прочтение4 мин
Охват и читатели20K

Последние годы Python был вроде универсального инструмента: на нем писали всё — от мелких скриптов до огромных ML-систем, а его первое место в рейтингах воспринималось как норма. Но к началу 2026-го заметно, что динамика меняется. Скорее всего — вслед за приоритетами. Уходит время, когда удобство и низкий порог входа перекрывали любые вопросы к производительности. Компании всё чаще смотрят на отдачу — сколько ресурсов съедает система и как ведет себя под нагрузкой. Давайте посмотрим, что там с местом Python’а в рейтингах, и оценим причины. 

Читать далее

Ближайшие события

Линейная регрессия: от теории до production

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.8K

📚Линейная регрессия – это первый алгоритм, который осваивает аналитик, и последний, который он перестает использовать.
✔️В статье разберем, что это такое, как работает, где применяется и с какими подводными камнями вы обязательно столкнетесь.

Читать далее

Регистрация ПО в Роспатенте и Минцифре: что это даёт разработчику и бизнесу в 2026 году

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели4.9K

Авторское право на код возникает автоматически — это знают все. Но когда приходит заинтересованный инвестор, конкурент с копией вашего продукта или налоговая с вопросами про НМА на балансе — «автоматически» уже не работает.

Разбираемся, что именно можно зарегистрировать в Роспатенте, какие преимущества это даёт и что изменится в 2026 году с принятием нового закона о патентовании IT-решений.

Поехали!

LLM разобрали «дело Долиной»: предсказали аргументы, но статистика оказалась сильнее

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели4.1K

Кейс Dolina v. Lurie всколыхнул не только юридическое сообщество. Сейчас шум в медиа начал утихать и настало время спокойно препарировать это дело LLM-матрицами и тензорными вычислениями. 🙂

Спор этот совсем недавний, шансы на попадание судебных актов по делу в обучающую выборку до cutoff date даже последних версий топ-моделей - минимальны, определение же Верховного Суда России в веса моделей успеть точно не могло. Тем интереснее результат!

Спойлер: ИИ не подкачал, но итоговая оценка оказалась очень интересной и очень, как кажется, характерной для AI LegalTech.

Архитектура эксперимента

На вход моделям были поданы судебные акты первой инстанции, апелляции и кассации. Пайплайн использовался стандартный "нешемяковский": LLM-консенсус трех топовых моделей (Anthropic Claude Opus 4.6, Google Gemini 3 Pro и OpenAI GPT‑5.2) и стандартный промт про обжалование.

Результат оказался парадоксальным: нейросетки нашли правильные юридические зацепки для отмены решений, но итоговый прогноз успеха в Верховном Суде составил всего 7% (полный ИИ-прогноз доступен по ссылке: neshemyaka.ru/case/499).

Читать далее

Мир на пороге дефицита HDD: как облака и ИИ меняют рынок жестких дисков

Время на прочтение5 мин
Охват и читатели8.4K

HD для домашних ПК и ноутбуков сейчас редкость, ведь их во многом и вполне успешно заменили SSD. Однако эта технология по-прежнему очень востребована в дата-центрах. Так, в феврале 2026 года Western Digital сообщила, что ее мощности практически полностью застолбили крупные заказчики. Seagate подтвердила, что линии по высокоемким дискам для серверов загружены под завязку. Основные клиенты — операторы крупных облачных платформ, которые заранее бронируют объемы. WD получила предварительные заказы от семи крупнейших покупателей, часть из которых — до 2027 и 2028 годов. 

Зачем HDD в ЦОД? Есть несколько причин, но основная — это искусственный интеллект. При работе с ИИ важно не только обучать модели, но и хранить огромные массивы исходных данных, логов и резервных копий. В многоуровневых системах горячие данные размещаются на SSD, но основной объем холодных — на дисковых массивах. Речь идет о десятках и сотнях петабайт, где главное — стоимость хранения из расчета на терабайт, плюс предсказуемость инфраструктуры. Именно поэтому спрос на высокоемкие HDD резко вырос. Разберемся, насколько устойчивым будет такой перекос рынка и к чему это может привести.

Читать далее

На Хабре вышла публикация с ID 1M

Время на прочтение6 мин
Охват и читатели10K

Свершилось! Спустя двадцать лет после старта проекта на Хабре вышла публикация с миллионным уникальным номером ID (сокращение от англ. identifier — «идентификатор»). Черновик этой публикации создался 16 февраля 2026 года. Примечательно, что такое событие случилось также через 16 лет после выхода публикации со стотысячным ID.

Читать далее

Что такое дерево метрик и зачем оно нужно?

Время на прочтение4 мин
Охват и читатели9.1K

Что такое дерево метрик и зачем оно нужно?

Привет, меня зовут Денис. Я старший продуктовый аналитик, и больше 5 лет строю системы метрик в крупных IT-компаниях, включая Тинькофф. Одна из самых частых и болезненных проблем, которую я видел — когда у команды есть цель (скажем, «увеличить выручку»), но нет единого понимания, за какие именно рычаги тянуть и как действия одного отдела влияют на результат другого.

Читать далее

Грейды в аналитике: как не остаться вечным джуном?

Время на прочтение3 мин
Охват и читатели6.6K

Привет! Меня зовут Денис. Уже более 5 лет работаю Senior Product Analyst в крупнейших IT-компаниях России, включая Тинькофф. Разрабатывал системы аналитики с полного нуля, провёл огромное количество A/B тестов и знаю всю внутреннюю кухню больших корпораций изнутри.

Ко мне на карьерные консультации часто приходят с запросом в духе: «Я уже 2 года работаю, почему я всё еще джун?» или «Как прыгнуть в мидлы, если на работе дают только скучные выгрузки?».

Грейды — это не про то, сколько библиотек в Python ты выучил. Это про то, насколько сильно у твоего лида и продакта болит голова, когда они отдают тебе задачу.

Читать далее
1
23 ...