Как стать автором
Обновить
82.92

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Парадоксы в данных, и почему визуализация бывает необходима

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров7.4K

В этой заметке я хочу разобрать несколько «парадоксов» в данных, о которых полезно знать как начинающему аналитику данных, так и любому человеку, кто не хочет быть введенным в заблуждение некорректными статистическими выводами.

За рассматриваемыми примерами не кроется сложной математики помимо базовых свойств выборки (таких, как среднее арифметическое и дисперсия), зато такие кейсы могут встретиться и на собеседовании, и в жизни.

Погнали!
Всего голосов 38: ↑39 и ↓-1+40
Комментарии3

Новости

Стандартное отклонение и стандартная ошибка: две статистики с похожими названиями, но разными смыслами

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров6.7K

Я читаю курс статистического мышления магистрам, и одна тема вызывает у них явные затруднения — чем стандартное отклонение отличается от стандартной ошибки, и в каких случаях, применять ту или иную статистику. Думаю, будет интересно поговорить об этом в блоге ЛАНИТ.

Читать далее
Всего голосов 35: ↑35.5 и ↓-0.5+36
Комментарии8

История одной очереди

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров22K

В одно воскресенье довелось мне стоять в очереди на избирательный участок №8134 в Алматы. Простоял я там 4 часа, а некоторые и того больше. И как-то совершенно случайно вспомнил, что в институте я учился на специальности “системы и сети массового обслуживания”, а тут у нас как раз такая сеть, которую можно попробовать рассчитать. А заодно ответить расчётами на некоторые вопросы.

Уважаемые кроты, давайте посчитаем
Всего голосов 112: ↑97 и ↓15+82
Комментарии70

Основные типы распределений вероятностей в примерах

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров13K

Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.

Читать далее
Всего голосов 58: ↑58 и ↓0+58
Комментарии11

Опросил больше 1000 айтишников: вранье в резюме и котируемость курсов по «вкатыванию в IT»

Время на прочтение7 мин
Количество просмотров127K

Получилось отследить довольно интересные тренды: как размер стажа в индустрии коррелирует с отношением к выдумыванию опыта в резюме, как в IT-среде на самом деле относятся к выпускникам школ в стиле «стань айтишником за год», а также рейтинг самых ненавидимых и респектуемых в среде профи школ.

Читать далее
Всего голосов 189: ↑168 и ↓21+147
Комментарии318

Backblaze: надёжность жёстких дисков падает год от года. Это актуально для HDD большинства производителей

Время на прочтение3 мин
Количество просмотров20K

Компания Backblaze, провайдер облачных сервисов, регулярно публикует отчёты о выходе из строя жёстких дисков, находящихся у неё в эксплуатации. HDD — сотни тысяч, поэтому статистика получается интересной. Правда, обычно такие отчёты выглядят более-менее одинаково: какие-то модели дисков выходят из строя чаще, какие-то реже.

А вот сейчас ситуация иная: согласно данным провайдера за 2023 г., надёжность жёстких дисков разных моделей от любых производителей снизилась. Есть и исключения, но в целом это так. Подробности — под катом.

Читать далее
Всего голосов 69: ↑68 и ↓1+67
Комментарии130

Кнопки в автомобиле — это уже роскошь

Уровень сложностиПростой
Время на прочтение24 мин
Количество просмотров18K

В 2021-м году я перевел и опубликовал десятилетнюю статью Будущее интерактивного дизайна в руках. Кроме хороших комментариев, я прочитал ремарку о том, что перевел старую статью и она уже неактуальна. На дворе 2024 год, но она актуальнее ещё больше. Ведь лучше не стало — кнопки нещадно истребляют в автомобилях, заменяя их на «планшеты»

Читать далее
Всего голосов 101: ↑98 и ↓3+95
Комментарии608

Как проводят оценку качества данных в Airbnb

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.3K


Сегодня, когда объем собираемых компаниями данных растет в геометрической прогрессии, мы понимаем, что больше данных — не всегда лучше. На самом деле слишком большой объем информации, особенно если вы не можете гарантировать ее качество, может помешать компании и замедлить процесс принятия решений. Или это приведет к принятию неправильных решений.

Рост показателей Airbnb до 1,4 миллиарда гостей на конец 2022 года привел нас в точку, когда снижение качества данных стало мешать нашим специалистам по работе с этими самыми данными. Еженедельные отчеты по метрикам стало сложно предоставлять вовремя, такие базовые показатели как «Активные объявления» стали иметь целую паутину зависимостей. Для полноценной работы с данными стали требоваться значительные институциональные знания, просто чтобы преодолеть все «подводные камни» в нашем информационном потоке.

Чтобы решить эту проблему, мы внедрили процесс под кодовым названием «Мидас» (Midas), который предназначался для сертификации наших данных. Начиная с 2020 года, процесс Midas, а также работа по реорганизации наших наиболее важных моделей позволили значительно повысить качество и оперативность получения важнейших данных Airbnb. Однако достижение всех критериев качества данных требует значительных межфункциональных инвестиций в такие вещи как проектирование, разработка, проверка и поддержка необходимых информационных ассетов и документации.
Читать дальше →
Всего голосов 32: ↑30 и ↓2+28
Комментарии3

Press F. Что из мира IT мы потеряли в 2023 году

Время на прочтение12 мин
Количество просмотров32K

2023 год стал годом больших технологических достижений. Мы стали свидетелями роста популярности ChatGPT и других моделей генеративного искусственного интеллекта, Apple наконец-то выпустила свою долгожданную гарнитуру XR — Vision Pro, Sony выпустила новый контроллер Access для PS5, было открытие Сферы в Лас-Вегасе и много других инноваций в роботехнике, энергетике, 3D-печати, производстве электроники и в области квантовых компьютеров. Но ничто не вечно, особенно в Кремниевой долине. И пока одни празднуют успехи, есть продукты и услуги из мира IT, для которых год был не просто неудачным, а фатальным.

Время идёт, и корпоративные приоритеты меняются. Продукты и услуги регулярно выходят из строя, причем многие без всякого ажиотажа. Здесь список тех, которые потерпели последний крах в 2023 году. В этом списке есть технологии, которые прожили долгую и здоровую жизнь, те, которые ушли в расцвете сил, а также те, которые были сняты с производства или отключены, потому что вообще остались незамеченными.

Читать далее
Всего голосов 65: ↑59 и ↓6+53
Комментарии35

Итоги блога RUVDS на Хабре в 2023 году

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.6K
27 декабря Хабр подвёл итоги года, которые довольно интересные — из них видно, что Хабр не стоит на месте и продолжает расти и активно развиваться. У нас год ещё не закончился, но мы решили тоже подвести итоги — и чтобы сравнить их с предыдущими периодами, и чтобы как-то соотнести с итогами Хабра, да и в целом, возможно, они кому-то будут интересны.



В этот раз не хочется писать длинные вступления и подводки — допускаем, что и вам не очень хочется читать их в выходной день :) Поэтому только самое-самое.
Читать дальше →
Всего голосов 43: ↑36 и ↓7+29
Комментарии1

Хабр — Итоги 2023 года

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров19K

Итак, 2023 год. Обнаружена планета с высокой вероятностью существования жизни, на 3D‑принтере учатся печатать сердце, сделаны шаги в борьбе с раком и деменцией, одобрили первое лекарство от болезни Альцгеймера и разработали препарат от болезни Бехтерева, пересадили глаз целиком, запустили GPT-4 и целую кучу нейронок — и это только малая часть итогов года. 2023, как и все остальные, дал нам много нового в науке, карьере, что‑то изменил у каждого в жизни. Менялся и Хабр: где‑то заметно, где‑то не очень, на уровне логики, чтобы каждому пользователю стало чуть быстрее и чуть приятнее. Традиционно в конце года мы всех посчитали и делимся самым важным с самыми важными — с пользователями, читателями и гостями Хабра.

Читать далее
Всего голосов 149: ↑149 и ↓0+149
Комментарии106

Отчёт о работе информационной службы Хабра за 2023 год

Время на прочтение9 мин
Количество просмотров3.6K

Добрый вечер, Хабр! Вот и подходит к концу 2023 год. За последние 12 месяцев в мире случилось большое количество технических инфоповодов и IT-событий, обновлений ПО, появление новых технологий, произошло развитие электроники и полноценный приход ИИ-сервисов в нашу жизнь, включая недавнюю лень ChatGPT. Большую часть этих событий постаралась запечатлеть команда информационной службы Хабра. А вы, как пользователи этого технического ресурса, оценивали и комментировали новости, переводы и лонгриды, а также помогали нам развиваться в этом году.

Читать далее
Всего голосов 63: ↑60 и ↓3+57
Комментарии8

Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров26K

Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.

И вы понимаете почему.

Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз...

Разоблачаем популярный миф
Всего голосов 118: ↑104 и ↓14+90
Комментарии81

Ближайшие события

Анализ 10 000 вопросов с технических интервью: частотность и вероятность встречи

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров34K

Привет, Хабр! Я проанализировал 600 публичных мок-интервью с YouTube и собрал из них 10 000 уникальных вопросов. Затем посчитал, как часто они встречаются, и определил вероятность появления каждого вопроса. У меня есть данные по 20 профессиям, включая frontend, python, java-разработчика, специалиста по тестированию и многих других.

Читать далее
Всего голосов 54: ↑52 и ↓2+50
Комментарии19

Галлий, германий, а теперь и графит: Китай понемногу ограничивает экспорт ценных ресурсов. Зачем это КНР?

Время на прочтение4 мин
Количество просмотров15K

В конце лета Китай практически остановил экспорт таких необходимых для различных отраслей металлов, как галлий и германий. Они не являются очень уж редкими, месторождения металлов есть и в других странах. Но КНР за прошедшие пару десятилетий смогла замкнуть на себе логистику. Соответственно, теперь покупателям галлия и германия приходится перестраивать цепочки поставок, а это процесс небыстрый.

Теперь же Китай пошел на новые ограничительные меры — страна ограничивает экспорт графита. По словам представителей КНР, поставки не останавливаются, просто экспортерам необходима специальная лицензия. Но то же самое говорилось и в отношении галлия с германием. А лицензии не получил в итоге почти никто. Подробности — под катом.
Читать дальше →
Всего голосов 64: ↑63 и ↓1+62
Комментарии45

«К2 Кибербезопасность» и Anti-Malware представили совместное исследование о реализации 187-ФЗ (материал дополнен)

Время на прочтение7 мин
Количество просмотров2.4K

В Музее криптографии в Москве 12 октября 2023 года прошла презентация совместного исследования подразделения «К2 Кибербезопасность» и портала Anti‑Malware.ru, посвящённого реализации 187-ФЗ «О безопасности критической информационной инфраструктуры Российской Федерации» (КИИ). По этому исследованию, 71% опрошенных российских компаний сталкивались с различными сложностями при реализации требований 187-ФЗ. Кроме того, 44% респондентов планируют кратно увеличить расходы на безопасность из‑за требований закона, узнала информационная служба Хабра на презентации исследования. (материал был дополнен)

Читать далее
Всего голосов 26: ↑26 и ↓0+26
Комментарии2

Когда начинает работать закон больших чисел

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров13K

Большие числа != большим числам.

Число 100 большое? Зависит от ситуации. Сравниваем ли мы его с 0,001, или с 100000? Как и многое в жизни, понятие «большой» относительно.

В этом посте мы объясним, насколько большим должно быть «большое» и докажем, что вы, скорее всего, ошибаетесь насчёт закона больших чисел.

Читать далее
Всего голосов 63: ↑63 и ↓0+63
Комментарии13

Фальсификации в выборах муниципальных депутатов 2022 в Москве

Время на прочтение13 мин
Количество просмотров6.5K

Наши результаты показывают, что подсчет результатов очного голосования на московских выборах муниципальных депутатов в 2022-м году был честным или практически честным. Подсчет же результатов дистанционного электронного голосования (ДЭГ) проходил с нарушениями — это видно, например, по аномалиям в том, как распределены голоса за кандидатов во времени. С четырех часов в пятницу до ночи с субботы на воскресенье голоса фальсифицировались в пользу некоторых кандидатов, большинство из которых принадлежит “системной оппозиции”: КПРФ, ЛДПР, СРЗП и партии “Новые люди”.

Мы оцениваем количество депутатов, за которых были вбросы, минимум в 115 человек. За этих 115 человек согласно нашей модели было вброшено около 95 тысяч голосов.

Читать далее
Всего голосов 41: ↑34 и ↓7+27
Комментарии13

Занимательные картинки электоральной статистики на выборах в Государственную Думу 2021 года по 118 ОИК

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4.6K

В первой и второй предыдущих статьях на данную тему мы рассматривали аномалии выборной статистики по 125 избирательному округу по партийным спискам на выборах в Государственную Думу 2021 года, теперь сместимся по Подмосковью северо-западнее и рассмотрим электоральные аномалии по результатов выборов по 118 одномандатному избирательному округу.

В связи с отсутствие нормальной возможности копировать первичные данные УИК с сайта ЦИК РФ, данные взяты из телеграм-канала t.me/RUElectionData.

Для начала Вашему вниманию итоги выборов по одномандатному округу.

Читать далее
Всего голосов 34: ↑33 и ↓1+32
Комментарии7

Аномалии электоральной статистики на выборах в Государственную Думу 2021 года по 125 ОИК, КОИБ or not КОИБ

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров8.3K

В статье 2021 года мы пронаблюдали аномалии результатам выборов в Государственную думы 2021 года подмосковному 125 избирательному округу. На некоторых избирательных участках прослеживались аномалии явки, аномалии темпа голосования в последние часы выборов, причем часто эти аномалии коррелировали с очень хорошими результатами партии Единая Россия.

Недавно в телеграмм канале общественного деятеля Бориса Надеждина был опубликован перечень подмосковных избирательных участков оборудованных Комплексом обрабо́тки избирательных бюллетеней (КОИБ). В связи с появлением новых исходных данных возникло желание сравнить результаты выборов 2021 на участках, оборудованных КОИБ и не оборудованных.

Вот что получилось.

Читать далее
Всего голосов 38: ↑35 и ↓3+32
Комментарии35
1
23 ...