Как стать автором
Обновить
83.5

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

CAGR как проклятие специалистов, или ошибки прогнозирования экспоненциальных процессов

Время на прочтение20 мин
Количество просмотров40K

Среди читающих этот текст, конечно, много специалистов. И, конечно, все отлично разбираются в своих областях и хорошо оценивают перспективность разных технологий и их развитие. При этом история (которая «учит тому, что она ничему не учит») знает немало примеров, когда специалисты уверенно делали разные прогнозы и промахивались о-о-о-очень сильно: 

  • «У телефона слишком много недостатков, чтобы его можно было серьезно рассматривать, как средство коммуникации. Устройство не представляет для нас никакой ценности», — писали специалисты Western Union, тогда крупнейшей телеграфной компании в 1876 году. 
  • «У радио нет будущего. Летательные аппараты тяжелее воздуха невозможны. Рентгенография окажется обманом», — зажигал Уильям Томсон лорд Кельвин в 1899, и можно, конечно, шутить, что британские ученые зажигали еще в XIX веке, но мы еще долго будем измерять температуру в Кельвинах, и сомневаться в том, что многоуважаемый лорд был хорошим физиком, причин нет. 
  • «Кто, черт возьми, захочет слышать, как актеры говорят?», — говорил про звуковое кино Гарри Ворнер, основавший Warner Brothers в 1927, один из лучших экспертов по кино того времени. 
  • «Нет причин, по которым кому-то нужен домашний компьютер», — Кен Олсон, основатель корпорации Digital Equipment в 1977, незадолго до взлета домашних компьютеров…
  • В наше время ничего не поменялось: «Нет никаких шансов, что iPhone получит значительную долю рынка», — писал в USA Today гендиректор Microsoft Стив Балмер в апреле 2007 перед триумфальным взлетом смартфонов.

Можно было бы радостно потешаться над этими прогнозами, если бы ваш покорный слуга сам, например, не ошибался довольно серьезно в своей области. И если бы не видел, как массово ошибаются многие и многие эксперты. В общем, наблюдается классическое «никогда такого не было, и вот опять». И опять. И опять. Более того, эксперты и специалисты обречены на ошибки во многих случаях. Особенно когда дело касается проклятых экспоненциальных процессов. 
Кому интересно, добро пожаловать под кат!
Всего голосов 94: ↑94 и ↓0+94
Комментарии210

Интеграл Эйлера — Пуассона. Подробно о способах вычисления

Время на прочтение4 мин
Количество просмотров50K


В статье подробно, вплоть до самых мелочей, рассмотрены три способа взятия интеграла Эйлера-Пуассона. В одном из способов выводится вспомогательная формула редукции. Для нахождения некоторых сложных интегралов можно использовать формулы редукции, которые позволяют понизить степень подынтегрального выражения и вычислить соответствующие интегралы за конечное число шагов.
Читать дальше →
Всего голосов 19: ↑16 и ↓3+13
Комментарии8

«Где та молодая шпана, что сотрет нас с лица земли?»

Время на прочтение7 мин
Количество просмотров29K
Экзистенциальным вопросом, вынесенными в заголовок в формулировке Гребенщикова, я задался после очередного раунда обсуждения в одном из сообществ на предмет того, нужны ли начинающему web backend девелоперу знания SQL, или ORM все и так сделает. Ответ решил поискать немного шире, чем просто про ORM и SQL, и в принципе постараться систематизировать, кто те люди, которые сейчас идут на собеседования на младшие и средние разработческие позиции, какова их история и в каком мире они живут. В целом-то мнение у меня было, но оно сформировано личным опытом найма и явно скорректировано под локальный рынок. В общем, стало любопытно. Вот что удалось найти.
Читать дальше →
Всего голосов 42: ↑40 и ↓2+38
Комментарии114

Тренды продуктовой аналитики нового времени

Время на прочтение7 мин
Количество просмотров6.9K


О продуктовой аналитике на Хабре пишут не так часто, но публикации, причем хорошие, появляются с завидной регулярностью. Большинство статей о продуктовой аналитике появились за последние пару лет, и это логично — ведь продуктовая разработка становится все более важной как для IT, так и для бизнеса, лишь косвенно связанного с информационными технологиями.

Здесь же, на Хабре, была опубликована статья, в которой неплохо описаны ожидания компании от продуктового аналитика. Такой специалист должен, во-первых, искать и находить перспективные точки роста продукта, во-вторых, идентифицировать и подтверждать актуальность проблемы путем ее формулировки и масштабирования. Точнее не скажешь. Но продуктовая аналитика развивается, появляются новые инструменты для работы и тренды, которые помогают работать продуктовым аналитикам. Как раз о трендах, в привязке к работе мобильных приложений и сервисов мы и поговорим в этой статье.
Читать дальше →
Всего голосов 18: ↑16 и ↓2+14
Комментарии4

Истории

Хабрастатистика: анализируем комментарии читателей. Часть 2, ответы на вопросы

Время на прочтение4 мин
Количество просмотров5.6K
Привет Хабр.

В предыдущей части были проанализированы сообщения пользователей этого сайта, что вызвало достаточно оживленную дискуссию на тему различных параметров (числа сообщений, рейтинга, «кармы» и пр). Таких вопросов накопилось достаточно, чтобы сделать вторую часть.



Тех кому интересно, какова длина самой большой дискуссии в комментариях за этот год, какая может быть максимальная и минимальная «карма» у пользователей, и другая статистика, прошу под кат.
Читать дальше →
Всего голосов 61: ↑59 и ↓2+57
Комментарии137

Инвентаризация от И до Я. Считаем лицензии на ПО

Время на прочтение3 мин
Количество просмотров6.4K
Инфраструктура и программное обеспечение — столпы, на которых держится ИТ. И то и другое можно посчитать в Quest KACE. В статье разберёмся в возможностях этого инструмента применительно к инвентаризации и управления лицензиями на программное обеспечение. Инвентаризацию инфраструктуры рассмотрим в следующих статьях.


World of Warcraft, который не был обнаружен в нашей тестовой лаборатории. А жаль.

Основное преимущество продукта — возможность использовать встроенный каталог ПО, задавать собственные критерии учёта наличия экземпляра ПО или комбинировать оба эти способа. Собственными условиями могут выступать конкретные ключи реестра, наличие исполнимых файлов или динамических библиотек в конкретной директории и т.д. Таким образом, из поля зрения не выпадет ни один экземпляр установленного ПО. Подробности под катом.
Читать дальше →
Всего голосов 8: ↑8 и ↓0+8
Комментарии5

Хабрастатистика: анализируем комментарии читателей

Время на прочтение4 мин
Количество просмотров9.9K
Привет Хабр. В предыдущей части была проанализирована популярность различных разделов сайта, и параллельно возник вопрос — какие данные можно извлечь из комментариев к статьям. Также хотелось проверить одну гипотезу, о которой скажу ниже.


Данные получились довольно интересные, также удалось составить небольшой «мини-рейтинг» комментаторов. Продолжение под катом.
Читать дальше →
Всего голосов 65: ↑62 и ↓3+59
Комментарии190

Хабрастатистика: исследуем наиболее и наименее посещаемые разделы сайта

Время на прочтение12 мин
Количество просмотров7.5K
Привет, Хабр.

В предыдущей части была проанализирована посещаемость Хабра по основным параметрам — количеству статей, их просмотрам и рейтингам. Однако вопрос популярности разделов сайта остался не рассмотренным. Стало интересно рассмотреть это более подробно, и найти самые популярные и самые непопулярные хабы. Наконец, я рассмотрю «geektimes-эффект» более подробно, и в завершении читатели получат новую подборку лучших статей по новым рейтингам.



Кому интересно что получилось, продолжение под катом.
Читать дальше →
Всего голосов 39: ↑37 и ↓2+35
Комментарии20

Сэмплирование с температурой

Время на прочтение3 мин
Количество просмотров4.3K

Недавно натолкнулся на вопрос в чате ODS: почему алгоритм, генерирующий текст буква-за-буквой, сэмплит буквы не из p (вектор вероятностей следующей буквы, предсказанный языковой моделью), а из p'=softmax(log(p)/t) (где t — это ещё какой-то непонятный положительный скаляр)?


Быстрый и непонятный ответ: t — это "температура", и она позволяет управлять разнообразием генерируемых текстов. А ради длинного и детального ответа, собственно, и написан этот пост.

Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии0

Что почитать и посмотреть для старта в Data Science: книги, словари и курсы

Время на прочтение3 мин
Количество просмотров20K
Подборка ресурсов по математике, статистике и программированию для начинающих Дата Сайентистов. Ознакомьтесь с материалами, если вы планируете учиться на онлайн-курсах. Так вы опередите одногруппников, а заодно прокачаете полезный навык — изучать дополнительные материалы самостоятельно.
Читать дальше →
Всего голосов 15: ↑15 и ↓0+15
Комментарии3

Хабрастатистика: как живет Хабр без geektimes

Время на прочтение15 мин
Количество просмотров17K
Привет, Хабр.

Данная статья является логическим продолжением рейтинга Лучших статей Хабра за 2018 год. И хотя год еще не закончился, но как известно, летом произошли изменения в правилах, соответственно, стало интересно посмотреть, повлияло ли это на что-нибудь.



Кроме собственно статистики, будет приведен и обновленный рейтинг статей, а также немного исходников для тех кому интересно, как это работает.

Для тех, кому интересно что получилось, продолжение под катом. Те, кому интересен более подробный анализ разделов сайта, могут также посмотреть следующую часть.
Читать дальше →
Всего голосов 90: ↑88 и ↓2+86
Комментарии32

Состояние доменной зоны Прибалтики за август 2019

Время на прочтение1 мин
Количество просмотров3.7K
Хотим предоставить вам публикацию аналитики о состоянии Прибалтики (доменной зоны Эстонии, Литвы и Латвии) на основе результатов нашего продукта. Данные актуальны на 21 августа 2019 года.

В прошлом месяце мы публиковали статистику по Казнету.
Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии3

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов

Время на прочтение5 мин
Количество просмотров20K
Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа


  • Препроцессинг данных и предварительный анализ (кому интересно код тут)
  • Графическое представление данных. Функция плотности распределения.
  • Формулируем нулевую гипотезу (H0) (2)
  • Выбираем метрику для анализа
  • Используем метод bootstraping для формирования нового массива данных
  • Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных


После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошенных программистов: \n \
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))


Читать дальше →
Всего голосов 27: ↑23 и ↓4+19
Комментарии50

Ближайшие события

Какое влияние оказывают отключения интернета?

Время на прочтение4 мин
Количество просмотров20K


3 августа в Москве между 12:00 и 14:30 сеть Ростелекома AS12389 испытывала небольшое, но заметное проседание. NetBlocks считает произошедшее первым в истории Москвы «государственным шатдауном». Этим термином называют отключение или ограничения доступа к интернету властями.

То, что произошло в Москве впервые, уже несколько лет как мировой тренд. За последние три года было зафиксировано 377 целенаправленных отключений интернета властями по всему миру, по данным Access Now.

Государства все чаще используют ограничения доступа к интернету, и как инструмент цензуры, и как инструмент в борьбе с противоправными действиями.

Но вот вопрос, насколько эффективен этот инструмент? К каким результатам приводит его использование? За последнее время появилось несколько исследований, которые немного проливают свет на этот вопрос.
Читать дальше →
Всего голосов 56: ↑48 и ↓8+40
Комментарии25

13 фактов о венчурном ремесле для основателей

Время на прочтение6 мин
Количество просмотров7.5K


Перечень занимательных статистических фактов — по мотивам записей из моего Telegram-канала Groks. Описанные ниже результаты различных исследований однажды изменили моё представление о венчурных инвестициях и стартап-среде. Надеюсь, и для вас сии наблюдения покажутся полезными. Для вас, кто на поприще капитала смотрит со стороны основателей.

1. Индустрия стартапов исчезает на фоне глобализации


Молодые компании возрастом менее двух лет составляли 13% от всего бизнеса США в 1985 году, а в 2014 году их доля была уже на уровне 8%. Более важно то, что процентное количество сотрудников в частном секторе, работающих на эти молодые компаний, уменьшилось почти в двое за тот же период времени.

С каждым годом становится всё труднее и труднее конкурировать за кадры с огромными корпорациями. В Quartz объяснили это явление более подробно. Понимаю, статистика приведена только по «самой свободной», но я убеждён, что в той или иной степени эта проблема затрагивает каждую из капиталистических стран.
Читать дальше →
Всего голосов 26: ↑24 и ↓2+22
Комментарии1

Опенсорс-решение для автоматизации отчетности

Время на прочтение9 мин
Количество просмотров34K
Разработчикам сайтов и мобильных приложений часто нужно управлять подготовкой PDF-страниц к выводу на печать или их отправкой клиентам на почту.

У PDF-файлов есть полный контроль над отображением текста и графическими изображениями на странице. К сожалению, библиотеки для генерации динамически заполняющихся PDF-файлов не входят в стандартный инструментарий PHP, JS (Web), Java или Swift (Android и iOS соответственно). В этой статье хочу вам рассказать об опенсорс-решении для генерации PDF-файлов.



Читать дальше →
Всего голосов 11: ↑10 и ↓1+9
Комментарии23

Не ходите в Африку гулять: как обстоят дела с интернет-цензурой на Черном континенте

Время на прочтение6 мин
Количество просмотров26K


Последние несколько лет ознаменовали себя не только бурным развитием интернет-технологий и проникновением интернета в те регионы планеты, где даже с обычной мобильной связью тяжело. Разработаны и взяты на вооружение чиновниками инструменты интернет-цензуры, включая запрет сайтов и сервисов, просмотр сообщений пользователей сервисов электронной почты и чатов, DPI-фильтрацию пакетов и многое другое.

Обо всем этом журналисты известных и не очень СМИ пишут в отношении Китая, КНДР, России, Казахстана, Беларуси и т.п. Интернет-цензура проникла даже в Африку. О том, как обстоят дела на Черном континенте, мы сегодня и поговорим.
Читать дальше →
Всего голосов 55: ↑53 и ↓2+51
Комментарии61

Как мы учились быть Data Driven с Симулятором GoPractice

Время на прочтение4 мин
Количество просмотров6K
В прошлом году команда Program Manager-ов Plesk получила возможность пройти онлайн-курс GoPractice! Simulator от Олега Якубенкова, и теперь мы хотим поделиться своими впечатлениями.

Кто мы?


Program Manager в Plesk может быть наиболее точно описан как «технический» менеджер продукта. Это значит, что помимо собственно продуктовых компетенций, каждый ПМ имеет технический бэкграунд и погружен в предметную область настолько, чтобы в общих чертах понимать специфику работы с хостингом, облачными сервисами и веб-разработкой. Часть из нас больше сфокусирована на работе непосредственно с продуктовыми фичами, а другая больше занимается аналитикой и статистикой. Я сама совмещаю обе эти роли.
В этом отзыве будут и мои личные впечатления от Симулятора GoPractice!, и фидбек, которым со мной поделились коллеги.
Читать дальше →
Всего голосов 18: ↑15 и ↓3+12
Комментарии0

«D̶o̶n̶'̶t be evil» или что от нас скрывает Facebook

Время на прочтение4 мин
Количество просмотров6.5K
В январе 2018 года Марк Цукерберг анонсировал изменения алгоритма, которые должны были сократить количество новостей в персональных лентах. Освещая это событие, он писал о важности человеческого благополучия и семейного контента. Но о каких результатах нам говорят данные спустя год?

NiemanLab недавно опубликовал материал, который свидетельствует об изобилии на Facebook резонансных статей на такие темы, как аборты, религия и оружие. Более того, возмущение является самой популярной реакцией пользователей. А вот пример двух наиболее распространённых публикаций за 2019 год.



Надо признать, что проблема не только в алгоритмах Facebook. Существуют исследования утверждающие, что гнев — это самая виральная эмоция в социальных сетях. Ни сострадание, ни отвращение, ни даже радость. Именно гнев.
Читать дальше →
Всего голосов 19: ↑13 и ↓6+7
Комментарии23

Профессор, обыгравший рулетку

Время на прочтение6 мин
Количество просмотров94K

Как известный исследователь поймал удачу, поставил в тупик владельцев казино по всему миру, и вышел из игры с целым состоянием



Тёплым майским вечером 1969 года толпа потрясённых игроков сгрудилась вокруг изношенного рулеточного стола в районе Итальянской Ривьеры. В центре стоял долговязый 38-летний профессор медицины в мятом костюме. Он только что сделал ставку в $100 000 ($715 000 на сегодняшние деньги) на один раунд рулетки. Крупье выпустил маленький белый шарик, и комната замерла. Не может же ему настолько сильно повезти… или может?

Однако доктор Ричард Джареки не отдавался в руки слепому случаю. Он провёл тысячи часов за разработкой гениального выигрышного способа – и он вскоре принесёт ему выигрыш, эквивалентный сегодняшним $8 млн.
Читать дальше →
Всего голосов 155: ↑126 и ↓29+97
Комментарии117