Статистические исследования и эксперименты являются краеугольным камнем развития любой компании. Особенно это касается интернет-проектов, где учёт количества пользователей в день, времени нахождения на сайте, нажатий на целевые кнопки, покупок товаров является обычным и необходимым явлением. Любые изменения в пользовательском опыте на сайте компании (внешний вид, структура, контент) приводят к изменениям в работе пользователя и, как результат, изменения наблюдаются в собираемых данных. Важным элементом анализа изменений данных и его фундаментом является использование основных типов распределений случайных величин, от понимания которых напрямую зависит качество оценки значимости наблюдаемого изменения. Рассмотрим их подробнее на наглядных примерах.
Инфографика
Визуализация данных
Новости
Шкала масштабов вселенной (русский язык)
Всем привет! Добавил русский язык к шкале масштабов вселенной.
В интернете есть довольно занимательная шкала с относительными размерами разных объектов от мельчайших, до обозримой Вселенной. Сама шкала изначально была flash презентацией, а после прекращения Adobe поддержки swf, была перенесена на веб.
Также с 2012 года было flash приложение (на которое я ориентировался) с переводом на русский язык, но сейчас нужно неплохо поискать как его открыть.
Насколько понял из репозитория веб проекта, русский язык там изначально отсутствовал. Проект не обновлялся с 2021 года + issue с запросом на добавление чешского языка висит еще с 2022, поэтому делать PR и ждать смысла не было.
В итоге подтянул проект в свой гитхаб, добавил русский язык и выгрузил на свой хостинг, с небольшими правками интерфейса. Может кому будет полезно.
Статистика по Linux за 2023
Навеяно одним из недавних постов, тут, на Хабре.
Давайте кратко, тезисно, и со своими субъективными комментариями пробежимся по текущим статсам...
Какого цвета интернет: история смены окраски веб-страницами
Как менялись цвета на сайтах с начала века до наших дней? Правда ли, что веб бесповоротно потемнел? Почему веб-дизайнеры больше не любят зеленый? Об истории изменений, текущих и будущих тенденциях в небольшой статье-исследовании.
Истории
Мы вложились в создание ненужного клиентам девайса и случайно повысили эффективность промышленных производств
Здравствуйте! Я Владимир Зайцев, основатель и генеральный директор компании Encost (Энкост). С 2013 г. мы помогаем клиентам-производственникам экономить на электроэнергии, но это отдельная история: мы пытались заработать, создав онлайн-калькулятор цен на электричество, а по факту стали сами корпеть над расчётами и переводить клиентов на более выгодные тарифы. В 2021 г. мы опять хотели заработать, помогая клиентам экономить электроэнергию, но сокрушительно промахнулись с запросом и чуть было не остались с любовно созданным и никому не нужным девайсом на руках. Но в итоге, после сбора обратной связи и допилов, мы превратили этот ненужный девайс в систему мониторинга для промышленных производств – Энкост Мониторинг. Вот эту историю с неожиданным поворотом я и хочу сегодня рассказать.
Мне это кажется важным, потому что простая и дешевая система, созданная случайно, внезапно закрыла потребности мелких и средних производств. Раньше для них на рынке просто не было других подходящих систем мониторинга загрузки оборудования. Волею случая мы стали первыми, кто вообще услышал запрос небольших производственников. Возможно, моя история наведет других технарей и айтишников на полезные мысли о перспективах сотрудничества с отечественными производителями.
«Заработаем на онлайн-калькуляторе расчета электроэнергии! Что может пойти не так?»
В начале этого пути мы толком ничего о производствах не знали и узнавать не планировали – просто с 2013 г. помогали юрлицам снижать затраты на электроэнергию. Сначала сделали онлайн-сервис – калькулятор, который показывал, из чего складывается ценообразование (для юрлиц это довольно замороченный процесс, у многих компаний был запрос плана: «Хотим убедиться, что не переплачиваем за электричество»). Собственник брал информацию со счетчика электроэнергии (это массив значений о почасовом потреблении за месяц), загружал эти данные на сайт, указывал параметры: регион, поставщик электроэнергии и прочее. Система на выходе выдавала все возможные варианты тарифа, доступные потребителю, и собственник мог понять: использует он сейчас самый выгодный для себя тариф или переплачивает.
Полное руководство по проектированию систем в виде схемы
Разработка надежной, масштабируемой и эффективной системы может оказаться довольно сложной задачей. Однако понимание основных принципов и компонентов этого процесса может сделать его более управляемым. В этой статье мы рассмотрим основные компоненты в проектировании систем, такие как DNS, балансировка нагрузки, API-шлюз и другие. Также мы предоставим краткую схему, которая поможет разработчикам проектировать системы различной сложности.
Вы все ещё пользуетесь старым редактором?
Пару недель назад редакция Хабра порадовала нас поддержкой маркдауна в новом редакторе. А заодно рассказала о том, насколько он стал популярен:
80 процентов, да лаадно? Впрочем, это совсем несложно проверить. Давеча я скрапил Хабр для одного интересного расследования и кроме всего прочего заметил в заветном jsonе такое поле:
И оказалось, что с новым редактором все далеко не так просто.
Ты мог бы стать спортсменом, если бы родился в другой день. Что такое Relative Age Effect?
Что делает перспективного ребенка из местной спортивной секции чемпионом мира по футболу, олимпийским призером или обладателем Кубка Стэнли?
Талант? Упорный труд? Но что если есть и другая причина, о которой мы раньше не слышали. Или не хотели слышать. Что, если она не так мелодична, не так романтична и уж совсем не вписывается в наше представление об истинном успехе?
VPN по разрешениям? Все обомлели, когда узнали, что их ждет в 2023 году…
Многие государства пытаются в той или иной степени контролировать информацию в национальном сегменте интернета: вводить цензуру, фильтровать трафик. Например, в США действует 11 федеральных законов для интернет-цензуры. Аналогичная ситуация в других странах. Но всё это бесполезно. Потому что информация хочет быть свободной. Как речной поток, она обойдёт любые барьеры на своём пути, говорили классики шифропанка.
Свой личный VPN — полностью легальный инструмент для безопасной работы в интернете. Вопрос в том, как долго продлится такая ситуация. И что делать, если использование этого инструмента ограничат? Некоторые уже начали готовиться к худшему сценарию.
Рисуй, чтобы победить
В офисе я всегда рисовал. На бумаге, на флипчарте, на доске. Это помогало мне быстрее объяснить свои идеи и показать, что происходит у меня в голове. С переходом на удаленку находить общий язык стало сложнее, но я нашел выход.
В статье я расскажу, как на удаленке рисовать, чтобы вас быстро понимали. Покажу базовые техники и немного затронем мат часть, на чем и где рисовать.
Сколько зарабатывают выпускники МГТУ им.Н.Э. Баумана. Опрос конца 2021 года
Во второй половине 2021 года был проведён опрос среди выпускников МГТУ имени Н.Э.Баумана. Так как сбор ответов растянулся по времени, опрошенных в начале 2022 года просил указать данные на декабрь 2021 года. Было разослано около 6000 сообщений через соцсеть VK (которая ограничивает количество сообщений людям, находящимся не в друзьях, двадцатью в 12 часов). После очистки от откровенно шуточных ответов осталось 2373 анкеты, которые использовались в дальнейшем анализе.
Преступность в США и России: сравнительный обзор
В предыдущем цикле статей я начал рассматривать открытые данные по преступности в США в разных контекстах (связь с расовой принадлежностью, преступления на почве нетерпимости, нападения на полицейских). Мне стало интересно сравнить преступность в США с ситуацией в нашей стране, благо эти данные тоже легко найти. Получилось познавательно. Интересно?
Фальсифицируем выборы в Государственную Думу 2021 года, а потом отменяем фальсификации с помощью машинного обучения
Предыдущая статья на тему выборов в государственную думу: «Восстанавливаем результаты выборов 2021 с помощью машинного обучения» вызвала интерес. Вместе с тем к статье было много критических комментариев. В некоторых из этих комментариев были подняты спорные вопросы, которые требовали дополнительных исследований.
В данной работе производится симуляция выборных фальсификаций различного типа на реальных данных итогов голосования, которое прошло в сентябре 2021 года. Это позволяет оценить корректность результатов восстановления результатов голосования с помощью библиотеки scikit-learn и позволяет выявить некоторые особенности такого подхода.
Ближайшие события
Костыли и колеса (не от велосипеда) — как я структурировала прием таблеток
Так уж получилось, что в последнее время я много и долго болею 🤒
Мой стандартный способ лечения "если простуду лечить — она пройдет за 7 дней, а если не лечить — за неделю" перестал работать (ох уж эта старость).
Пришлось обращаться к врачу и прибегать к особенному лечению.
Под особенным лечением — я имею ввиду гигантский список из таблеток, уколов и других препаратов со всякими особенностями.
Запомнить это все невозможно - поэтому пришлось визуализировать с помощью костылей и велосипедов.
Восстанавливаем результаты выборов в Государственную думу 2021 года с помощью машинного обучения
Результаты выборов в государственную думу, которые проходили 17-19 сентября 2021 вызывают сомнения у многих экспертов. Независимый электоральный аналитик Сергей Шпилькин оценил количество голосов, вброшенных за партию власти, примерно в 14 миллионов. В данной работе применены методы машинного обучения для того, чтобы выявить избирательные участки, на которых подсчет голосов происходил без нарушений и установить истинный результат на тех участках, где , предположительно, были зарегистрированы ошибочные данные.
Полученные в ходе исследования данные визуализируются с помощью графиков и карт.
Делаем визуализацию распределения доходов населения России на основе данных Росстата
По данным Росстта в среднем житель России имеет доход 35 700 ₽ в месяц. Эта цифра мало что говорит о благосостоянии населения. Если взять двух человек — одного с доходом 70 000 ₽ и 1400 ₽, их средний ежемесячный доход будет равен ровно 35 700 ₽. Чтобы лучше продемонстрировать распределение доходов, я смастерил калькулятор, который позволяет посчитать количество людей с заданным диапазоном дохода и наглядно продемонстрировать их вклад в общий уровень доходов.
В этом посте я расскажу как от довольно скупых данных, которые доступны на сайте Росстата сгенерировать датасет для подробной инфографики.
Пятый, он же Южный. История о младшем из океанов
Когда учились в школе, встречали ли вы на картах мира название «Южный океан»? Так подписывали совокупности южных частей Тихого, Атлантического и Индийского океанов, окружающих Антарктиду и нередко выделяемых как пятый океан, не имеющий, однако, чётко очерченной островами и континентами северной границы. Но на уроках географии твёрдо давали понять, что океанов всего четыре, и Южный на самом деле не океан. Понятие «Южный океан» в широком смысле среди географов, путешественников и мореплавателей не употреблялось. Собственно океаном считается водная масса, которая большей своей частью окружена сушей. Хоть и в 2000 году Международная гидрографическая организация приняла разделение на пять океанов, это решение так и не было ратифицировано. Но недавно 08-июня (Всемирный день океанов) 2021 года Национальное географическое общество США признало существование пятого океана на Земле, называемого Южным, и с этого дня начнет отмечать его на картах.
Ну что же, пусть и с опозданием, но с Днем рождения, Южный!
Сверхзвуковые пассажирские самолёты второго поколения: Boom набирает обороты, а Aerion «влетел в трубу»
Эпоха сверхзвуковых коммерческих полётов подошла к концу, когда Concorde совершил свой последний рейс 26-ноября 2003 года: G-BOAF (последний построенный самолёт) вылетел из Хитроу, пролетел над Бискайским заливом, совершил проход над Бристолем и приземлился в аэропорту Филтон.
«Конкорд» был неплохо отработан технологически, получил приемлемую систему базирования, прижился на трансатлантических трассах, однако, как говорится, «рыночек порешал». В итоге он сдался дешёвым и массовым дозвуковым трудягам, оставшись эксклюзивной роскошью, которую при случае за большие деньги можно арендовать под специальный чартер (который тоже не позволял окупаться).
А коммерческая карьера советского сверхзвукового лайнера Ту-144 была недолгой. 01-июня 1978 года, всего через семь месяцев после начала коммерческой эксплуатации, «Аэрофлот» прекратил сверхзвуковые пассажирские рейсы. Непосредственным поводом для прекращения пассажирских полётов послужила катастрофа опытного экземпляра Ту-144Д, произошедшая 23-мая 1978 года в Воскресенском районе Московской области (погибли два члена экипажа). Более основательной причиной отказа от пассажирской эксплуатации называется нерентабельность.
Но очарование сверхбыстрых авиаперелётов так и не исчезло. Самолёты сегодня летают со скоростью не больше 900 км/ч. А расчеты специалистов показывают: сверхзвуковой бизнес-джет может преодолевать за час 1900 км. И даже больше.
Однако просто поднять скорость в 2-2,5 раза это половина проблемы: новый сверхзвуковой пассажирский самолёт должен быть тихим. Задача довольно амбициозная, над которой ломают головы авиаконструкторы всего мира. Первые и пока единственные в мире пассажирские сверхзвуковые самолёты XXI века разрабатываются в США. И у американцев готовы демонстраторы, и ясно, что они будут запускать гиперзвуковые самолёты.
В связи с этим, есть две новости: хорошая и плохая. Давайте начнём с хорошей.
Кто есть кто в кампании за отмену Столлмана
Компания "за отмену Столлмана", начавшаяся с публикации в Medium предоставляет нам множество интересных данных. Так как подписание открытых писем за отмену и в поддержку Столлмана осуществляется на гитхабе, мы можем проанализировать некоторые характеристики обоих сторон, используя статистические данные, которые доступны через API.
Этому помогает то, что на гитхабе затруднительно редактировать данные "задним числом" без потери новых подписей.
Следующие предположения можно проверить ("X" может быть как предложением отменить Столлмана, так и выражением его поддержки).
Моя музыка 2020 года в картинках и графиках
Я взял плейлист «Мой 2020», который сделала Яндекс-музыка, добавил туда немного метаданных о песнях, а потом посчитал статистику и узнал, какие у меня любимые группы и жанры, песни каких лет мне больше всего нравятся и какие слова встречаются в текстах наиболее часто. Нарисовал результаты на графиках, а ещё оформил статью так, как будто это серьёзное исследование. Помогали мне язык программирования R с пакетами ggplot2, tm и wordcloud2.
Вклад авторов
-
alizar 320.0 -
Mithgol 218.0 -
aleksandrit 203.0 -
ipswitch 201.0 -
ivansychev 150.0 -
imitron 149.0 -
ffffffffff 132.0 -
ANadezhdina 129.0 -
S0mbre 127.0 -
ilusha_sergeevich 125.0