Обновить
76.92

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Эд Торп — математический вундеркинд и человек для всех рынков

Время на прочтение14 мин
Охват и читатели13K

Эд Торп — математический вундеркинд, который придумал, как «обыграть дилера» в блэкджек, будучи аспирантом Массачусетского технологического института. Выдающийся трейдер и инвестор.

Его имя стало синонимом точного, логичного и научного подхода к тому, что миллионы считают во многом делом удачи — азартным играм и финансовым рынкам. Человек, который не просто обыграл казино, но и перевернул представление о трейдинге и инвестициях, заложив основы алгоритмической торговли задолго до того, как кванты появились на Уолл-стрит.

Читать далее

Новости

У вас скорее всего не получится сделать статистически обоснованный подбор личных жизненных привычек и БАДов

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели9.3K

Допустим, вас не устраивает ваше качество сна. Вы перестали делать очевидно вредные вещи (убрали кофе на ночь), и сон улучшился, но хотелось бы поработать над ним ещё. Коллега по работе даёт вам смесь трав со зверобоем и лавандой. Вы пробуете пить его на ночь вместо кофе, и иногда сон действительно становится глубже. Но иногда нет. Вы готовы экспериментировать, но как бы проверить, действительно ли травы работают или это просто случайный разброс?

Или допустим, вы не очень довольны вашей продуктивностью на работе. По заветам из "Atomic Habits" и книг по эргономике вы внедрили несколько полезных микропривычек. Но что делать, когда низковисящие фрукты закончились? Время ограничено - всего, что кто-то называет полезным, не сделать. Некоторые привычки ещё и взаимоисключающие: невозможно за обедом одновременно и общаться с кем-то и сидеть в одиночестве в тишине.

Или например, вы хотите достичь более хороших показателей на рыболовном поприще... вы поняли идею.

"Не недооценивайте силу малых вещей, взятых в большом количестве", - мысль мудрая, но как бы понять, какие именно малые вещи действуют конкретно в вашей ситуации? Если вы проходили курс статистики, то у вас в голове есть набросок ответа. Выделить целевую метрику, собрать историю данных, затем собрать набор данных после выбранного вмешательства, сравнить средние значения метрики до и после - и готов научно обоснованный ответ. Проблема в том, что если ввязаться в подобный проект без основательного плана, вы в итоге окажетесь с ворохом бесполезных цифр в таблице. Почему именно эта затея не для слабых духом мне бы и хотелось рассказать в этой статье.

Читать далее

Учимся предсказывать конверсию в опросах. Часть 2

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели4.3K

Всем привет! На связи Айкович Ульяна и команда Pathway. Месяц назад мы опубликовали первую часть, в которой рассказали о нашем эксперименте по предсказанию конверсии в прохождение опросов. Сегодня мы поделимся, как можно предсказать конверсию в опросах, а также как составить ваш опрос, чтобы пользователи активнее прошли его до конца.

Каждый UX-исследователь в своей жизни сталкивался со сложностями при наборе статистически  значимого количества участников в опросах: кто-то не проходит дальше первого вопроса, кто-то бросает на полпути. Может ли исследователь повлиять на конверсию прохождения опроса? Наш ответ — да!
В данной статье мы поделимся итогами регрессионного анализа и дадим лайфхаки по составлению опроса на основе такой модели.

Читать далее

Одна Rust-библиотека вместо шести Python-пакетов — или как я перестала запускать фит и идти за кофе

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели16K

Кому будет полезно

Если вы живёте в Python и одновременно используете statsmodels, lifelines, pyhf, PyMC/BlackJAX, linearmodels (или что‑то похожее).

Если вам важны воспроизводимость и понятная валидация численных оптимизаций (особенно в HEP).

Если вам интересна архитектура «одно вычислительное ядро → много задач» и практические hot paths (AOT, SIMD, zero‑copy).

Читать далее

5 SQL‑ошибок

Время на прочтение3 мин
Охват и читатели19K

Когда регулярно ревьюируешь чужой код или менторишь младших коллег, начинаешь замечать паттерны. Есть ошибки, которые кочуют из скрипта в скрипт, и совершают их не только джуны, но и вполне уверенные специалисты.

Сегодня разберем пять неочевидных нюансов SQL, которые могут незаметно исказить бизнес-метрики, сломать воронку или просто заставить базу выполнять лишнюю работу.

Читать далее

Как посчитать MDE?

Время на прочтение3 мин
Охват и читатели5.4K

Вы спокойно работаете, и тут к вам приходит продакт с вопросом по A/B-тесту, который запустили две недели назад. «Ну что, мы уже набрали достаточно трафика? Можно подводить итоги?».

И всё бы ничего, но есть нюанс: на встречу по дизайну этого эксперимента вас позвать забыли. Длительность никто не считал, MDE (Minimum Detectable Effect) не фиксировал.

Чтобы ответить на вопрос продакта, вам нужно посчитать MDE с учетом текущего размера выборки и дисперсии, а затем сравнить его с порогом практической значимости. Выгружать сырые данные только ради того, чтобы посчитать дисперсию в моменте — занятие довольно муторное, особенно если речь идет о неконверсионных (непрерывных) метриках. Даже на highload-проектах, где данных море, тратить время на лишние ETL-операции ради промежуточного чека совсем не хочется.

Но, к счастью, у вас под рукой есть A/B-платформа, которая уже услужливо посчитала доверительный интервал. Например, она показывает вам отложенный эффект: 2% ± 1.5%.

Держите лайфхак: берем половину ширины доверительного интервала (те самые 1.5%), умножаем на 1.43 и получаем наш текущий MDE.

Давайте разберем математику, которая за этим стоит.

Читать далее

Один из самых известных профессоров в мире о гипотезе эффективного рынка

Время на прочтение7 мин
Охват и читатели15K

Нобелевский лауреат Юджин Фама один из самых известных профессоров в мире финансов, благодаря своей революционной гипотезе эффективного рынка. 

Фама ввел термин «эффективный рынок», и этот термин получил широкое распространение после публикации «Эффективные рынки капитала: Обзор теории и эмпирических исследований» в журнале Journal of Finance в 1970 году.

Статья произвела революцию в области финансов, предоставив ученым и практикам пищу для размышлений и исследований на десятилетия вперед.

Читать далее

Теорема Гаусса‑Маркова и ее условия

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.8K

Теорема Гаусса‑Маркова:

Почему метод наименьших квадратов работает? Почему ему можно доверять? И при каких условиях он действительно дает лучшие оценки?

В статье разбираю теорему Гаусса‑Маркова, ее условия и что делать, если реальность не идеальна, без сложной математики и больших формул

Читать далее

Судьба или заслуга??

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели13K

Почему одни легко находят первую работу в IT, а другие до сих пор остаются без офера? Я сравниваю свою историю с реальными историями: друзей, одногруппников и коллег. Разбираю, действительно ли решают hard и soft skills, связи, диплом, местоположение, вуз, усердие — и почему это не даёт гарантии. Если вы ищете работу или только начинаете путь в IT, возможно, после прочтения вы посмотрите на свои шансы иначе.

Читать далее

Три строки кода за две недели — это не всегда лень

Время на прочтение6 мин
Охват и читатели9.5K

Я долго размышлял на данную тему и наконец решил изложить.

Вся эта история с оценкой кода по количеству написанных строк или другие попытки оценить объем работы мне всегда не давали покоя.

Сейчас я не пишу код в промышленных масштабах, разве что для себя какой-то мелкий инструмент. Но когда-то я писал много и занимался этим больше 15 лет.

Придешь утром в офис и начинаешь что-то писать. А вечером мне нравилось иногда нажать ctrl+z и смотреть в ускоренном темпе, пусть и в обратном порядке, как бегал курсор, как выделялись, появлялись и исчезали какие-то блоки кода. Сначала условие и цикл появились в одном месте, потом кусок кода из цикла перешел в процедуру, цикл вообще исчез и т.д.

И я задавал себе вопрос: а кто видел все эти мои поиски и скитания? Для внешнего наблюдателя видно только сколько строк было утром и сколько их стало вечером. Но это вообще не то. Эти 80 строк даже не намекают на то, чем я занимался целый день. Уверен, вы понимаете, о чем речь.

Сейчас, в эпоху тотальной увлеченности ИИ, меня не покидает мысль, что неплохо бы весь этот когнитивный процесс легализовать.

Здесь не будет инструкций как я это сделал. Здесь будет просто рассуждение вокруг да около.

Читать далее

Почему функции rand и lrand48 из glibc годятся только для Тетриса: о случайных числах всерьёз

Уровень сложностиСредний
Время на прочтение29 мин
Охват и читатели9.9K

Функцию rand из стандартной библиотеки языка Си для генерации псевдослучайных чисел, наверное, не ругал только ленивый. В довольно известном докладе Rand considered harmful рассказывалось о проблемах с переносимостью, ограниченным диапазоном, многопоточностью, качеством и т.п. Иногда в учебниках упоминают о том, что алгоритм в rand может быть не очень качественным, иметь проблемы с младшими битами, периодом, прохождением статистических тестов. Но крайне редко можно увидеть разбор конкретных критериев, выявляющих дефекты генераторов. В этой статье я постараюсь наглядно показать не просто отдельные недостатки rand, lrand48 и random из glibc, но их полную непригодность для каких-либо вычислений в принципе. Также вы увидите превосходство поточных шифров над minstd, линейным конгруэнтным генератором из 1980-х, не только в качестве, но и в производительности.

Читать далее

MSI не торопится списывать AM4 со счетов: свежие платы с поддержкой DDR4 в 2026 году

Время на прочтение5 мин
Охват и читатели9.2K

MSI совсем недавно удивила, представив новые материнские платы на чипсете B550. Почему удивила? Ну, новинка необычна для 2026 года, ведь платформа AM4 уже считается относительно устаревшей. Компания выпустила две компактные модели формата micro-ATX, рассчитанные на системы с памятью DDR4 и процессорами Ryzen серий 3000 и 5000. Появление таких решений выглядит вполне логичным на фоне текущей ситуации на рынке комплектующих. А с ним, рынком, сейчас не все ок. Давайте все это и обсудим в статье.

Читать далее

Дайджест технических новостей, переводов и лонгридов инфослужбы Хабра за февраль 2026 года

Время на прочтение6 мин
Охват и читатели6.1K

В феврале 2026 года информационная служба Хабра выпустила 1015 публикаций (972 новости и поста, 7 лонгридов и 36 переводов). В текущем дайджесте представлены лучшие технические новости, переводы и лонгриды (отдельные большие публикации) инфослужбы Хабра, согласно оценкам пользователей.

Читать далее

Ближайшие события

«Спасибо вам, доктор Марковиц, за создание профессии, которой мы все зарабатываем на жизнь»

Время на прочтение13 мин
Охват и читатели70K

Как одна журнальная статья, написанная 70 лет назад, поменяла всю инвестиционную индустрию и принесла ее автору Нобелевскую премию.

В одном из последних интервью ее автор вспоминал: «Когда люди восторгаются моей Нобелевской премией, я люблю говорить им, что Нобелевская премия не была моей самой большой наградой. Моя самая большая награда была вручена мне в мужском туалете большого отеля в Вашингтоне, округ Колумбия, после ужина, где-то между Рождеством и Новым годом 1990 года»...

Читать далее

Когда A/B-тестирование превращается в подбрасывание монетки

Уровень сложностиПростой
Время на прочтение10 мин
Охват и читатели5.7K

Представим ситуацию.

Маркетолог работает в крупной компании с собственной A/B-платформой. Каждый квартал он должен запускать несколько новых маркетинговых кампаний, и подтверждать их эффективность с помощью экспериментов. Ресурса аналитика всегда не хватает на подобные задачи. А A/B-платформа позиционируются как инструмент, доступный в том числе маркетологам и проектным менеджерам. В итоге, наш герой решает запустить эксперимент самостоятельно.

Гипотеза. «Новый лендинг увеличивает среднюю выручку на пользователя (ARPU) в выбранном сегменте».

Спустя несколько недель маркетолог открывает AB-платформу, чтобы подвести итоги эксперимента. Видит, что пользователи распределены по группам примерно равное: 9 936 в тесте и 10 068 в контроле. Результат радует глаз: effect = 18.28%. "Какой эффект! Вот только чувствительности для "прокраса" немного не хватило", - думает он, - "глядя на p-value = 0.1179".

Но можно ли принимать решения на основе этих данных? Давайте разберемся, проведя анализ вероятных искажений.

Читать далее

Python уже не торт? Как и почему меняются приоритеты разработчиков

Время на прочтение4 мин
Охват и читатели21K

Последние годы Python был вроде универсального инструмента: на нем писали всё — от мелких скриптов до огромных ML-систем, а его первое место в рейтингах воспринималось как норма. Но к началу 2026-го заметно, что динамика меняется. Скорее всего — вслед за приоритетами. Уходит время, когда удобство и низкий порог входа перекрывали любые вопросы к производительности. Компании всё чаще смотрят на отдачу — сколько ресурсов съедает система и как ведет себя под нагрузкой. Давайте посмотрим, что там с местом Python’а в рейтингах, и оценим причины. 

Читать далее

Линейная регрессия: от теории до production

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели8.9K

📚Линейная регрессия – это первый алгоритм, который осваивает аналитик, и последний, который он перестает использовать.
✔️В статье разберем, что это такое, как работает, где применяется и с какими подводными камнями вы обязательно столкнетесь.

Читать далее

Регистрация ПО в Роспатенте и Минцифре: что это даёт разработчику и бизнесу в 2026 году

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели5K

Авторское право на код возникает автоматически — это знают все. Но когда приходит заинтересованный инвестор, конкурент с копией вашего продукта или налоговая с вопросами про НМА на балансе — «автоматически» уже не работает.

Разбираемся, что именно можно зарегистрировать в Роспатенте, какие преимущества это даёт и что изменится в 2026 году с принятием нового закона о патентовании IT-решений.

Поехали!

LLM разобрали «дело Долиной»: предсказали аргументы, но статистика оказалась сильнее

Уровень сложностиСредний
Время на прочтение3 мин
Охват и читатели4.1K

Кейс Dolina v. Lurie всколыхнул не только юридическое сообщество. Сейчас шум в медиа начал утихать и настало время спокойно препарировать это дело LLM-матрицами и тензорными вычислениями. 🙂

Спор этот совсем недавний, шансы на попадание судебных актов по делу в обучающую выборку до cutoff date даже последних версий топ-моделей - минимальны, определение же Верховного Суда России в веса моделей успеть точно не могло. Тем интереснее результат!

Спойлер: ИИ не подкачал, но итоговая оценка оказалась очень интересной и очень, как кажется, характерной для AI LegalTech.

Архитектура эксперимента

На вход моделям были поданы судебные акты первой инстанции, апелляции и кассации. Пайплайн использовался стандартный "нешемяковский": LLM-консенсус трех топовых моделей (Anthropic Claude Opus 4.6, Google Gemini 3 Pro и OpenAI GPT‑5.2) и стандартный промт про обжалование.

Результат оказался парадоксальным: нейросетки нашли правильные юридические зацепки для отмены решений, но итоговый прогноз успеха в Верховном Суде составил всего 7% (полный ИИ-прогноз доступен по ссылке: neshemyaka.ru/case/499).

Читать далее

Мир на пороге дефицита HDD: как облака и ИИ меняют рынок жестких дисков

Время на прочтение5 мин
Охват и читатели8.5K

HD для домашних ПК и ноутбуков сейчас редкость, ведь их во многом и вполне успешно заменили SSD. Однако эта технология по-прежнему очень востребована в дата-центрах. Так, в феврале 2026 года Western Digital сообщила, что ее мощности практически полностью застолбили крупные заказчики. Seagate подтвердила, что линии по высокоемким дискам для серверов загружены под завязку. Основные клиенты — операторы крупных облачных платформ, которые заранее бронируют объемы. WD получила предварительные заказы от семи крупнейших покупателей, часть из которых — до 2027 и 2028 годов. 

Зачем HDD в ЦОД? Есть несколько причин, но основная — это искусственный интеллект. При работе с ИИ важно не только обучать модели, но и хранить огромные массивы исходных данных, логов и резервных копий. В многоуровневых системах горячие данные размещаются на SSD, но основной объем холодных — на дисковых массивах. Речь идет о десятках и сотнях петабайт, где главное — стоимость хранения из расчета на терабайт, плюс предсказуемость инфраструктуры. Именно поэтому спрос на высокоемкие HDD резко вырос. Разберемся, насколько устойчивым будет такой перекос рынка и к чему это может привести.

Читать далее
1
23 ...