Обновить
105.08

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Период
Уровень сложности

Профессор, обыгравший рулетку

Время на прочтение6 мин
Количество просмотров96K

Как известный исследователь поймал удачу, поставил в тупик владельцев казино по всему миру, и вышел из игры с целым состоянием



Тёплым майским вечером 1969 года толпа потрясённых игроков сгрудилась вокруг изношенного рулеточного стола в районе Итальянской Ривьеры. В центре стоял долговязый 38-летний профессор медицины в мятом костюме. Он только что сделал ставку в $100 000 ($715 000 на сегодняшние деньги) на один раунд рулетки. Крупье выпустил маленький белый шарик, и комната замерла. Не может же ему настолько сильно повезти… или может?

Однако доктор Ричард Джареки не отдавался в руки слепому случаю. Он провёл тысячи часов за разработкой гениального выигрышного способа – и он вскоре принесёт ему выигрыш, эквивалентный сегодняшним $8 млн.
Читать дальше →

Когда ВВС США осознали изъян со средними числами

Время на прочтение9 мин
Количество просмотров133K
Отрывок из книги "The End of Average" Тодда Роуза


В начале 1950-х американцы измерили тела более 4000 пилотов по 140 характеристикам, чтобы спроектировать идеальную кабину для среднего пилота

В конце 1940-х у американских военно-воздушных сил была серьёзная проблема: пилоты теряли контроль над самолётами. Тогда наступала эпоха реактивных двигателей, так что самолёты стали более быстрыми и сложными в управлении. Но катастрофы случались так часто и на таком количестве разнообразных самолётов, что ВВС США столкнулись с реальной проблемой спасения жизней. В худшее время разбивалось до 17 пилотов за день.
Читать дальше →

7 лет хайпа нейросетей в графиках и вдохновляющие перспективы Deep Learning 2020-х

Время на прочтение14 мин
Количество просмотров35K


Новый год все ближе, скоро закончатся 2010-е годы, подарившие миру нашумевший ренессанс нейросетей. Мне не давала покоя и лишала сна простая мысль: «Как можно ретроспективно прикинуть скорость развития нейросетей?» Ибо «Тот, кто знает прошлое — тот знает и будущее». Как быстро «взлетали» разные алгоритмы? Как вообще можно оценить скорость прогресса в этой области и прикинуть скорость прогресса в следующем десятилетии? 



Понятно, что можно примерно посчитать количество статей по разным областям. Метод не идеальный, нужно учитывать подобласти, но в целом можно пробовать. Дарю идею, по Google Scholar (BatchNorm) это вполне реально! Можно считать новые датасеты, можно новые курсы. Ваш же покорный слуга, перебрав несколько вариантов, остановился на Google Trends (BatchNorm)

Мы с коллегами взяли запросы основных технологий ML/DL, например, Batch Normalization, как на картинке выше, точкой добавили дату публикации статьи и получили вполне себе график взлета популярности темы. Но не у всех тем путь усыпан розами взлет такой явный и красивый, как у батчнорма. Некоторые термины, например регуляризацию или skip connections, вообще не получилось построить из-за зашумленности данных. Но в целом тренды собрать удалось.

Кому интересно, что получилось — добро пожаловать под кат!
Читать дальше →

Анализ половозрастной пирамиды России с 1946 по 2036 гг

Время на прочтение3 мин
Количество просмотров68K
Как изменилась структура российского (постсоветского) общества с середины XX века. Спойлер: она изменилась кардинально.

Поделиться моими исследованиями половозрастной пирамиды России с общественностью посоветовали мои знакомые и друзья. Некоторые из них утверждают, что в исследованиях есть научная ценность. Хотя я не демограф, а просто любопытный программист.
Читать дальше →

Разоблачаем Эффект Даннинга-Крюгера. Статистический артефакт, пример автокорреляции

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров32K

Слышали ли вы об «эффекте Даннинга-Крюгера»? Это (очевидная) тенденция неквалифицированных людей переоценивать свою компетентность. Обнаруженный в 1999 году психологами Джастином Крюгером и Дэвидом Даннингом эффект с тех пор стал очень знаменитым.

И вы понимаете почему.

Это слишком сочная идея, чтобы не быть правдой. Все «знают», что идиоты, как правило, не осознают своего идиотизма. Или, как выразился Джон Клиз...

Разоблачаем популярный миф

CAGR как проклятие специалистов, или ошибки прогнозирования экспоненциальных процессов

Время на прочтение20 мин
Количество просмотров43K

Среди читающих этот текст, конечно, много специалистов. И, конечно, все отлично разбираются в своих областях и хорошо оценивают перспективность разных технологий и их развитие. При этом история (которая «учит тому, что она ничему не учит») знает немало примеров, когда специалисты уверенно делали разные прогнозы и промахивались о-о-о-очень сильно: 

  • «У телефона слишком много недостатков, чтобы его можно было серьезно рассматривать, как средство коммуникации. Устройство не представляет для нас никакой ценности», — писали специалисты Western Union, тогда крупнейшей телеграфной компании в 1876 году. 
  • «У радио нет будущего. Летательные аппараты тяжелее воздуха невозможны. Рентгенография окажется обманом», — зажигал Уильям Томсон лорд Кельвин в 1899, и можно, конечно, шутить, что британские ученые зажигали еще в XIX веке, но мы еще долго будем измерять температуру в Кельвинах, и сомневаться в том, что многоуважаемый лорд был хорошим физиком, причин нет. 
  • «Кто, черт возьми, захочет слышать, как актеры говорят?», — говорил про звуковое кино Гарри Ворнер, основавший Warner Brothers в 1927, один из лучших экспертов по кино того времени. 
  • «Нет причин, по которым кому-то нужен домашний компьютер», — Кен Олсон, основатель корпорации Digital Equipment в 1977, незадолго до взлета домашних компьютеров…
  • В наше время ничего не поменялось: «Нет никаких шансов, что iPhone получит значительную долю рынка», — писал в USA Today гендиректор Microsoft Стив Балмер в апреле 2007 перед триумфальным взлетом смартфонов.

Можно было бы радостно потешаться над этими прогнозами, если бы ваш покорный слуга сам, например, не ошибался довольно серьезно в своей области. И если бы не видел, как массово ошибаются многие и многие эксперты. В общем, наблюдается классическое «никогда такого не было, и вот опять». И опять. И опять. Более того, эксперты и специалисты обречены на ошибки во многих случаях. Особенно когда дело касается проклятых экспоненциальных процессов. 
Кому интересно, добро пожаловать под кат!

Выпускники американских университетов превосходят выпускников России, Китая и Индии

Время на прочтение6 мин
Количество просмотров90K
Каждый месяц мы читаем новости о недостатках и провалах образования в США. Если верить прессе, то начальная школа в Америке не способна научить учеников даже базовым знаниям, знаний даваемых средней школой явно недостаточно для поступления в колледж, ну а школьники, сумевшие все же продержаться до окончания колледжа, оказываются абсолютно беспомощны за его стенами. Но недавно была опубликована весьма интересная статистика, показывающая что по крайней мере в одном конкретном аспекте подобное мнение весьма далеко от истины. Несмотря на известные проблемы американской системы среднего образования, выпускники американских колледжей специализирующихся на computer science оказались прекрасно развитыми и очень конкурентоспособными специалистами по сравнению со своими зарубежными конкурентами.

Исследование проведенное международной командой исследователей сравнивало между собой выпускников колледжей США с выпускниками школ трех крупнейших стран, в которые США аутсорсят разработку программного обеспечения: Китая, Индии и России. Эти три страны славятся своими первоклассными программистами и победителями международных олимпиад, их репутация безупречна, а успешные действия российских и китайский хакеров постоянно отражаются в новостях. К тому же в Китае и Индии существуют крупные внутренние рынки программного обеспечения, обслуживаемые большим количеством местных специалистов. Все эти факторы делают программистов из этих трех стран весьма релевантной точкой отсчета с которой можно сравнивать американских выпускников. При этом немало студентов из этих стран приезжает учиться в Соединенные Штаты.
Результаты для россиян, увы, оказались разгромными

Сколько инструкций процессора использует компилятор?

Время на прочтение3 мин
Количество просмотров35K
Месяц назад я попытался сосчитать, сколько разных инструкций поддерживается современными процессорами, и насчитал 945 в Ice Lake. Комментаторы затронули интересный вопрос: какая часть всего этого разнообразия реально используется компиляторами? Например, некто Pepijn de Vos в 2016 подсчитал, сколько разных инструкций задействовано в бинарниках у него в /usr/bin, и насчитал 411 — т.е. примерно треть всех инструкций x86_64, существовавших на тот момент, не использовались ни в одной из стандартных программ в его ОС. Другая любопытная его находка — что код для x86_64 на треть состоит из инструкций mov. (В общем-то известно, что одних инструкций mov достаточно, чтобы написать любую программу.)

Я решил развить исследование de Vos, взяв в качестве «эталонного кода» компилятор LLVM/Clang. У него сразу несколько преимуществ перед содержимым /usr/bin неназванной версии неназванной ОС:

  1. С ним удобно работать: это один огромный бинарник, по размеру сопоставимый со всем содержимым /usr/bin среднестатистического линукса;
  2. Он позволяет сравнить разные ISA: на releases.llvm.org/download.html доступны официальные бинарники для x86, ARM, SPARC, MIPS и PowerPC;
  3. Он позволяет отследить исторические тренды: официальные бинарники доступны для всех релизов начиная с 2003;
  4. Наконец, в исследовании компиляторов логично использовать компилятор и в качестве подопытного объекта :-)

Начну со статистики по мартовскому релизу LLVM 10.0:
ISA Размер бинарника Размер секции .text Общее число инструкций Число разных инструкций
AArch64   97 МБ 74 МБ 13,814,975 195
ARMv7A 101 МБ 80 МБ 15,621,010 308
i386 106 МБ 88 МБ 20,138,657 122
PowerPC64LE 108 МБ 89 МБ 17,208,502 288
SPARCv9 129 МБ 105 МБ 19,993,362 122
x86_64 107 МБ 87 МБ 15,281,299 203
В прошлом топике комментаторы упомянули, что самый компактный код у них получается для SPARC. Здесь же видим, что бинарник для AArch64 оказывается на треть меньше что по размеру, что по общему числу инструкций.

А вот распределение по числу инструкций:
Читать дальше →

Вы все ещё пользуетесь старым редактором?

Время на прочтение5 мин
Количество просмотров15K

Пару недель назад редакция Хабра порадовала нас поддержкой маркдауна в новом редакторе. А заодно рассказала о том, насколько он стал популярен:



80 процентов, да лаадно? Впрочем, это совсем несложно проверить. Давеча я скрапил Хабр для одного интересного расследования и кроме всего прочего заметил в заветном jsonе такое поле:



И оказалось, что с новым редактором все далеко не так просто.

Читать дальше →

Заставим производителей раскрыть дату смерти электроники

Время на прочтение7 мин
Количество просмотров37K

Наш анализ 14 популярных потребительских устройств показал, что они могут прекратить работать через 3-4 года из-за незаменяемых аккумуляторов. В этой статье мы расскажем, как заставить отрасль технологий проектировать продукты, способные проработать дольше и наносить меньше ущерба окружающей среде.

Если у вас есть наушники Apple AirPods, то они умрут, и, наверно, раньше, чем вы могли бы предположить.

В моих аккумуляторы продержались чуть дольше двух лет. А когда они перестали держать заряд, я вынужден был выбросить их и купить новые AirPods, потому что мёртвые аккумуляторы приклеены внутрь.

Разве технологии обязательно должны так работать? Нет, просто так технологические компании могут заработать на вас больше денег.
Читать дальше →

Великий порноэксперимент: история Интернета для взрослых

Время на прочтение14 мин
Количество просмотров87K
Сайты для взрослых, или простым языком, порносайты, занимают ключевое место во Всемирной паутине и её развитии. Если вспомнить недавний сериал «Холивар. История рунета. Часть 1. Начало: хиппи из Калифорнии, Носик и лихие 90-е» и термин «две девушки в час», «то есть это тогда, когда было fido, были модемы 1200 бит, и вот ты сидел и у тебя в час две картинки девушек эротического содержания проходило», становится очевидным, что трафик для взрослых сыграл свою немаловажную роль. Ведь зачем ещё развивать сети, если не для стриминга порно?

Знаете ли вы какой процент мирового трафика составляет порнография и какой сумме он эквивалентен в долларах США в год? Какие ухищрения придумывают порносайты и какого типа бывают проекты для привлечения своей аудитории? Несёт ли порно вред или пользу?

Отдельные разделы нашего рассказа мы посвятим «Великому порноэксперименту» и приведём научные факты и данные, которые говорят, как о пользе, так и о вреде порно. Бесконечная новизна! Эффект Ку́лиджа и последствия воздействия на не окрепшую психику или наоборот помощь в формировании устойчивой и более окрепшей психики? С помощью интернет-порно парень может увидеть больше горячих девушек за 10 минут, чем его предки могли за несколько жизней. Проблема в том, что у парня мозг охотника-собирателя.

Новый алгоритм расчета рейтинга «Кинопоиска» отдает предпочтение фильмам с платным просмотром. Мини-расследование

Время на прочтение13 мин
Количество просмотров54K


Запоздавший апдейт в пост: через 2 месяца после выхода поста в формулу расчета рейтинга была внесены изменения, о которых рассказано в этом посте в блоге проекта. Они приближают рейтинги «Кинопоиска» к тем, которые были раньше (хотя это и не полноценный откат). У автора данного поста нет однозначного мнения о том, всё ли теперь как надо, лишь сдержанный оптимизм.

Вот вроде отшумели события вокруг перезапуска «Кинопоиска», отошедшие пользователи проводят время на прежнем сайте, разработчики с парсерами строят коварные планы, руководством приняты кадровые решения неоднозначной направленности, а всё остальное вернулось на круги своя. Но не всё.

Откат к прежней версии сайта не коснулся рейтингов фильмов. И хотя на странице Топ-250 мы можем наблюдать хорошо знакомый многим расклад с «Побегом из Шоушенка» и «Зеленой милей» в качестве лидеров, на страницах самих фильмов, в выдаче «Гугла» и других местах рейтинг отображается новый — тот, который лег в основу Топа-250 бета-версии (у меня он открывается с перебоями, что наблюдалось и сразу после перезапуска).

И по прошествии недели ничего не поменялось, как бы намекая нам, что новый рейтинг останется надолго, если не навсегда. Не исключаю, что вскоре обновится и старый топ, — может, он держится только потому, что алгоритм расчета рейтингов в нем отличается от алгоритма на страницах фильмов («в топе используются специальные механизмы, препятствующие накрутке рейтинга недобросовестными пользователями»), и этот алгоритм корректирует не новый, а старый рейтинг (в основном, в пределах пары сотых долей).
Читать дальше →

История одной очереди

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров22K

В одно воскресенье довелось мне стоять в очереди на избирательный участок №8134 в Алматы. Простоял я там 4 часа, а некоторые и того больше. И как-то совершенно случайно вспомнил, что в институте я учился на специальности “системы и сети массового обслуживания”, а тут у нас как раз такая сеть, которую можно попробовать рассчитать. А заодно ответить расчётами на некоторые вопросы.

Уважаемые кроты, давайте посчитаем

Ближайшие события

Выгорание эволюционирует. Что такое «тихий уход» — новый тренд среди офисных сотрудников

Время на прочтение7 мин
Количество просмотров96K


«Громкий уход» — это когда ты объявляешь всем, что увольняешься. Когда об этом знают по крайней мере твои работодатели. Но в последнее время резко начал набирать популярность так называемый «тихий уход» («quiet quitting»). Когда о том, что ты по сути перестал стараться, знаешь только ты.

Читать дальше →

Хабрастатистика: как живет Хабр без geektimes

Время на прочтение15 мин
Количество просмотров18K
Привет, Хабр.

Данная статья является логическим продолжением рейтинга Лучших статей Хабра за 2018 год. И хотя год еще не закончился, но как известно, летом произошли изменения в правилах, соответственно, стало интересно посмотреть, повлияло ли это на что-нибудь.



Кроме собственно статистики, будет приведен и обновленный рейтинг статей, а также немного исходников для тех кому интересно, как это работает.

Для тех, кому интересно что получилось, продолжение под катом. Те, кому интересен более подробный анализ разделов сайта, могут также посмотреть следующую часть.
Читать дальше →

Почему после курсов по программированию вы никому не нужны. Как найти первую работу в IT

Время на прочтение5 мин
Количество просмотров184K

В статье разбираем на цифрах, что сейчас происходит с IT-рынком. Объясняем новичкам что от них ожидают работодатели и даём инструкцию как устроится на свою первую работу в IT.

Читать далее

Что с IT рынком труда РФ? Графики

Время на прочтение2 мин
Количество просмотров102K

Рынок труда существенно изменился с начала года. Множество компаний в спешке переносили свои офисы за границу и этот процесс всё ещё продолжается. Мне стало интересно - на сколько изменился IT рынок труда в РФ из-за релокации компаний\программистов и чтобы это выяснить я сделал небольшое исследование с графиками.

Читать далее

Сколько инструкций в x86?

Время на прочтение1 мин
Количество просмотров24K
vvvphoenix упомянул в своей позавчерашней статье: «Кстати, я пытался найти график роста числа X86 инструкций по годам (или по поколениям). Пока не смог (может, есть у кого?)»

Я решил, что мне это тоже интересно — да настолько, что не жалко потратить выходной день на сведение en.wikipedia.org/wiki/X86_instruction_listings в одну табличку:



Считались различные мнемоники; например, десятки вариантов MOV считались за одну инструкцию.

Таким образом, можно грубо считать, что количество мнемоник в x86 удваивается каждые 13 лет.

Победы в конкурсах программирования негативно коррелируют с успехами в работе

Время на прочтение1 мин
Количество просмотров28K
Если вы хотите построить успешную карьеру в сфере разработки ПО, ни в коем случае не увлекайтесь спортивным программированием и участием в конкурсах.

Такой вывод следует из беспристрастной статистики и дата-майнинга рабочих показателей сотрудников Google, рассказал Питер Норвиг в лекции, прочитанной 26 марта 2015 года в Венском техническом университете.


Читать дальше →

Отличие хабраюзеров от нормальных людей

Время на прочтение1 мин
Количество просмотров2.2K
После публикации habrahabr.ru/blogs/webdev/130989 я получил более 5000 уникальных посетителей на сайте своего проекта всего за 1 день! А если учесть, что 99% этих людей пришли с Хабры, я не мог отказать себе в удовольствии и не сравнить показания метрики моего проекта с обычным сайтом. «Посмотрим сколько из них используют linux» или «Кто тайком сидит из под IE», думалось в тот момент мне.
Предлагаю Вашему внимаю графики, с моими скромными, и в данном случае не очень нужными комментариями. На всех картинках слева будет Хабра, справа просто обычный сайт, тематика которого никак не связана с IT. Сравниваем 5000 на 5000 человек.
Читать дальше →