Статистика в IT

Статистика, исследования, тенденции

Статьи Посты Новости Авторы Компании

nnazarov 8 июн 2023 в 11:19

А/Б тесты с метрикой отношения. Дельта-метод

8 мин

14K

Блог компании X5 TechPython*Математика*Статистика в IT

Туториал

Привет, Хабр! В этой статье разберём, что такое метрики отношения. Узнаем, почему критерий Стьюдента не работает. Попробуем применить бутстреп к зависимым данным. Изучим дельта-метод — способ оценки А/Б тестов с метрикой отношения.

MarketAnalyst 5 июн 2023 в 21:11

Потенциал искусственного интеллекта в пищевой промышленности и фарме

Средний

8 мин

3.3K

Анализ и проектирование систем*IT-инфраструктура*Статистика в ITИнфографикаБудущее здесь

Из песочницы

По сравнению с развитыми странами, уровень внедрения ИИ в промышленности в России остается невысоким. Если технологию и используют, то в основном на предприятиях тяжелой промышленности. За рубежом искусственный интеллект активно разворачивают и в более “легких” отраслях. В статье — наиболее типовые сценарии и кейсы применения технологии в FMCG и фарме международными отраслевыми лидерами.

ildarin 5 июн 2023 в 11:10

Теорема Байеса для чайников

Простой

5 мин

52K

Математика*Статистика в ITНаучно-популярное

Туториал

Теорема (формула) Байеса позволяет выяснить вероятность события при условии, что произошло связанное с ним другое событие.

Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома.

+22

vankastor 1 июн 2023 в 11:23

Анализ маркетплейсной воронки. Сколько карточек товаров нужно открыть чтобы совершить покупку?

Средний

6 мин

1.6K

Блог компании Лига СтавокАналитика мобильных приложений*Управление продуктом*Статистика в IT

Аналитика

Откройте для себя новый аспект в улучшении пользовательского опыта: связь между просмотром карточек товаров и покупками. В статье я исследую, как количество просмотренных карточек влияет на действия пользователей.

Узнайте, как анализ данных позволяет оптимизировать ваш продукт и стимулировать пользователей к совершению покупок. Раскройте потенциал вашего продукта, упрощая путь к целевому действию.

Eth_Moses 30 мая 2023 в 10:48

Контекст, награда, много рук. Многорукие бандиты как метод принятия решений

Средний

12 мин

5.7K

Блог компании Ozon TechАлгоритмы*Математика*Машинное обучение*Статистика в IT

Туториал

Всем привет! В предыдущих двух статьях мы подробно рассмотрели технические и методологические аспекты A/B-тестирования в Ozon. А сейчас время перейти к не менее интересным темам. Так как наша команда занимается не только A/B-тестами, но и в целом развитием методов принятия решений с помощью causal inference, стоит уделить внимание многоруким бандитам.

В этой статье мы рассмотрим методологию и границы применимости классических многоруких и контекстуальных бандитов, а также реализуем контекстного бандита, в основе которого будут сэмплирование Томпсона и нейронная сеть. Ну и, конечно, мы постараемся ответить на главный вопрос: могут ли многорукие бандиты заменить A/B-тесты?

+33

divolko3 29 мая 2023 в 11:27

Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё

6 мин

13K

Блог компании МТСPython*Data Mining*Big Data*Статистика в IT

Диаграммы помогают визуализировать как простые, так и самые сложные наборы данных. При этом диаграмм — множество видов, у каждого есть свои достоинства и недостатки. О наиболее эффектных и эффективных, реализуемых с Python, мы решили рассказать в сегодняшней подборке. Если вам интересна эта тема – просим под кат. А если у вас есть собственные предпочтения среди графиков (или вы используете что-то ещё), то пишите в комментариях, обсудим. Что же – поехали!

+24

MaxRokatansky 17 мая 2023 в 16:52

Степени свободы в статистике

Простой

6 мин

15K

Блог компании OTUSАнализ и проектирование систем*Статистика в IT

Обзор

Статистический анализ играет важную роль в научных исследованиях, коммерческих деятельностях и в других областях. Однако, его результаты могут быть неточными, если не учитывать имеющиеся степени свободы. Степени свободы – это концепция, которая широко используется в статистике, и она позволяет более точно определить, насколько можно доверять полученным результатам.

В данной статье мы рассмотрим понятие степеней свободы, их роль в статистических расчетах, а также примеры их использования. Мы узнаем, как степени свободы помогают улучшить точность статистических выводов и в каких случаях их использование особенно важно.

+12

beeline_cloud 15 мая 2023 в 17:06

Системы ИИ, data-driven культура и импортозамещение — что рынок BI двигает

4 мин

1.6K

Блог компании beeline cloudВизуализация данных*Исследования и прогнозы в IT*Статистика в IT

Обзор

Привет, Хабр. Меня зовут Максим Еремин, отвечаю за развитие PaaS-сервисов в beeline cloud. Этой статьей мы запускаем цикл публикаций, в которых вместе с коллегами будем комментировать и рассказывать о ситуации на рынке BI. Сегодня поговорим о data-driven культуре и импортозамещении. А если возникнут вопросы — буду рад обсудить их в комментариях.

Громкие заголовки, возвещающие о «кончине» business intelligence (BI), встречаются на тематических площадках уже лет десять. Но сегмент и не думает отходить на второй план, напротив — растет и развивается. Аналитики из Precedence Research говорят, что к 2032 году мировой рынок BI достигнет планки в $55 млрд. Их коллеги из Fortune Business Insights дают еще более оптимистичные оценки — та же сумма, но к 2030-му.

Технология глубоко проникла в стеки крупного, малого и среднего бизнеса. Ту или иную BI-систему имеет 80% компаний со штатом более 5 тыс. сотрудников. В фирмах поменьше показатель составляет 26%, но постепенно увеличивается.

Если взглянуть на российский рынок разработки и интеграции BI-решений, то он тоже достаточно зрелый. Два года назад его объем составлял 35 млрд рублей. Сегодня эксперты прогнозируют ускорение темпов роста в полтора-два раза. Развитие рынка стимулируют несколько факторов — рост объемов данных, развитие систем ИИ и необходимость импортозамещения.

ANazarov 8 мая 2023 в 22:14

Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

43 мин

8.5K

Python*Data Mining*Big Data*Математика*Статистика в IT

Туториал

Cезон big data

Категориальные данные имеет огромное значение в DataScience. Как справедливо заметили авторы в [1], мы живем в мире категорий: информация может быть сформирована в категориальном виде в самых различных областях - от диагноза болезни до результатов социологического опроса.

Частным случаем анализа категориальных данных является анализ таблиц сопряженности (contingency tables), в которые сводятся значения двух или более категориальных переменных.

Однако, прежде чем написать про статистический анализ таблиц сопряженности, остановимся на вопросах их визуализации. Казалось бы, об этом уже написано немало - есть статьи про графические возможности python, есть огромное количество информации и примеров с программным кодом. Однако, как всегда имеются нюансы - в процессе исследования возникают вопросы как с выбором средств визуализации, так и с настройкой инструментов python. В общем, есть о чем поговорить...

В данном обзоре мы рассмотрим следующие способы визуализации таблиц сопряженности.

+33

mkrasilnikov 7 мая 2023 в 10:51

Метод генерации столбцов для решения задач математической оптимизации большой размерности

Средний

8 мин

Алгоритмы*Математика*Машинное обучение*Бизнес-модели*Статистика в IT

Из песочницы

Теперь к истокам задачи: часто, чтобы математическая модель была применима в реальном секторе, необходимо использовать очень много ограничений и большое количество переменных. Задачи, возникающие в бизнесе в реальных условиях, требуют использования моделей с большим количеством ограничений и большим количеством переменных. Временами задача в лоб может и не решиться, поэтому были придуманы различные трюки. Один из них - метод « генерации столбцов» (Column generation).

+23

ancotir 5 мая 2023 в 20:07

MightyCall: Кол-центры полностью перейдут на российские решения до 2025 года

Простой

5 мин

Управление продуктом*Статистика в ITIT-компании

Аналитика

Кол-центры перейдут на отечественные продукты до 2025 года, указала Юлия Черноуцян, генеральный директор компании-разработчика ПО для кол-центров MightyCall. В разговоре с информационной службой Хабра Юлия дала несколько прогнозов относительно будущего отечественного рынка кол-центров и немного рассказала, как он развивался после ухода западных вендоров в 2022 году.

+12

olzeykan 22 апр 2023 в 21:45

Рейтинг языков программирования 2023. JavaScript/TypeScript завоевывают мир, Python вошел в топ-3

4 мин

168K

JavaScript*Программирование*Исследования и прогнозы в IT*Карьера в IT-индустрииСтатистика в IT

Представляем результаты ежегодного опроса, данные и скрипты обработки можно найти на GitHub.

В конце статьи будет локальный опрос пользователей Хабр.

Поехали!

+54

116

btseytlin 22 апр 2023 в 18:18

Нормально разбираемся в Нормальном распределении

Средний

6 мин

33K

Математика*Машинное обучение*Статистика в IT

Из песочницы

Перевод

Интуитивное понимание Нормального распределения

+49

cohr 22 апр 2023 в 07:35

Сам себе Росстат

Средний

4 мин

3.5K

Python*Статистика в IT

Кейс

Начало тут

Руководящие документы по организации первичной медико-социальной помощи населению предписывают проводить сравнительный анализ численности населения по территориальным участкам (норматив численности населения на терапевтическом участке - 1700 взрослых, на педиатрическом участке - 800 детей, на акушерско-гинекологическом участке - 3300 женщин в возрасте 15 лет и старше и т.д.) .

Оценку численности населения по субъектам РФ Росстат публикует ежегодно на 1 января текущего года. Для крупных городов территории обслуживания населения медицинскими организациями часто не совпадают с адресно административным делением и распределение населения по зонам ответственности медицинской организации становится скорее творчеством нежели технологической процедурой. Вопрос как декомпозировать данные из бюллетеня Росстата до медицинского участка для меня остается нерешенным.

Мы пойдем другим путем. Данные о населении мы можем получить из медицинской информационной системы (МИС). База МИС обогащается на регулярной основе данными страховых компаний о застрахованных лицах по программе обязательного медицинского страхования (ОМС).

Для работы нам понадобится обезличенная выгрузка из МИС, содержащая данные по пациентам: пол, дату рождения, адрес регистрации, адрес фактического места жительства, данные медицинской организации и номера участка по терапевтическому или педиатрическому профилю. Я загрузил ее в pandas.dataframe.

Doctor_IT 18 апр 2023 в 14:39

Проверяем ветхозаветную историю происхождения человечества от Адама и Евы с помощью популяционной модели

Средний

6 мин

12K

Блог компании SelectelPython*Big Data*Статистика в ITНаучно-популярное

Аналитика

Помню, как несколько лет назад сидел на последнем ряду аудитории и слушал лекцию по теории эволюции. Тогда мне это было особенно интересно: каждый вечер я штудировал доклады Дробышевского, Соколова, Панчина, Гельфанда и других причастных к Антропогенезу. И в один день преподаватель сердито посмотрела в окно и спросила меня, как долго должны ходить по газону люди, чтобы образовалась тропа.

На этот странный вопрос я ответить не смог, но он меня неожиданно натолкнул на идею для любопытного эксперимента. Зачем изучать тропообразовательный потенциал людей, когда можно построить симуляцию и проверить теологическую теорию о самом происхождении человечества. Мне стало интересно, может ли человечество развиться до 11 млрд со времен Адама и Евы к концу XXI века. О том, что из этого получилось, рассказываю под катом.

Читать дальше →

+59

Greiv656 18 апр 2023 в 03:44

У китайских производителей электроники проблемы: санкции США способны замедлить выпуск чипов в КНР в ближайшие 10 лет

4 мин

15K

Блог компании SelectelИсследования и прогнозы в IT*Производство и разработка электроники*Статистика в IT

Торговая война Поднебесной и США продолжается, стартовав с президентства Трампа, а то и раньше. При этом Китай все время пытается выйти из сложной для себя ситуации, а Штаты вводят новые и новые ограничения.

Одно из них, связанное с «Законом о чипах и науке», способно затормозить развитие полупроводниковой промышленности Китая на ближайшие 10 лет. Давайте посмотрим, в чем тут дело — под катом, как всегда, подробности.

Читать дальше →

+55

162

qbertych 17 апр 2023 в 22:54

Вы все ещё пользуетесь старым редактором?

5 мин

15K

Веб-аналитика*Статистика в ITСоциальные сети и сообществаИнфографика

Пару недель назад редакция Хабра порадовала нас поддержкой маркдауна в новом редакторе. А заодно рассказала о том, насколько он стал популярен:

80 процентов, да лаадно? Впрочем, это совсем несложно проверить. Давеча я скрапил Хабр для одного интересного расследования и кроме всего прочего заметил в заветном jsonе такое поле:

И оказалось, что с новым редактором все далеко не так просто.

Читать дальше →

+96

ANazarov 14 апр 2023 в 02:18

Регрессионный анализ в DataScience. Часть 3. Аппроксимация

Средний

72 мин

11K

Python*Data Mining*Математика*Статистика в IT

Туториал

В предыдущих обзорах (https://habr.com/ru/articles/690414/, https://habr.com/ru/articles/695556/) мы рассматривали линейную регрессию. Пришло время переходить к нелинейным моделями. Однако, прежде чем рассматривать полноценный нелинейный регрессионный анализ, остановимся на аппроксимации зависимостей.

Про аппроксимацию написано так много, что, кажется, и добавить уже нечего. Однако, кое-что добавить попытаемся.

При выполнении анализа данных может возникнуть потребность оперативно построить аналитическую зависимость. Подчеркиваю - речь не идет о полноценном регрессионном анализе со всеми его этапами, проверкой гипотез и т.д., а только лишь о подборе уравнения и оценке ошибки аппроксимации. Например, мы хотим оценить характер зависимости между какими-либо показателями в датасете и принять решение о целесообразности более глубокого исследования. Подобный инструмент предоставляет нам тот же Excel - все мы помним, как добавить линию тренда на точечном графике:

+14

koshkinoko 12 апр 2023 в 10:29

Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE

Средний

15 мин

11K

Блог компании Lamoda TechМатематика*Аналитика мобильных приложений*Управление продуктом*Статистика в IT

Мнение

Всем привет! Меня зовут Рома Смирнов. Я работаю продуктовым аналитиком в Lamoda Tech. Не так давно я столкнулся с необычным взглядом на то, как следует интерпретировать результаты A/B-эксперимента. Он заключается в том, что наблюдаемый аплифт — разницу средних, полученную на основе выборок, — необходимо сравнивать не только с критическим z- или t-значением, но еще и с MDE, минимальным эффектом, который мы ожидаем зафиксировать. Утверждается, что тест следует принимать только в том случае, если наблюдаемый аплифт лежит правее значения MDE.

Кажется, что на занятиях по статистике такому обычно не учат. Я обратился к традиционному источнику информации — Всемирной паутине (web, internet) — и нашел на эту тему хорошую статью болгарского гигачада A/B-тестирования Георгия Георгиева. В ней он приводит несколько аргументов, демонстрирующих несостоятельность описанного выше подхода.

В своей статье я буду использовать аргументы Георгия Георгиева, разбавленные моими мыслями и примерами на эту тему.

+26

denis_afanasyev 4 апр 2023 в 12:02

Apache Sedona — как быстро работать с геоданными

16 мин

3.7K

Блог компании билайнГеоинформационные сервисы*Big Data*Статистика в IT

Привет! В рамках своей работы в beeline tech мы часто взаимодействуем с геоданными. Для решения проблем, связанных с хранением, обработкой и анализом большого объема распределенных пространственных данных, мы используем Apache Sedona (бывший Geospark). Мы — Денис Афанасьев, аналитик больших данных, и Женя Рыбалкин, инженер больших данных, под катом расскажем, почему выбрали именно этот инструмент и что он умеет. А чтобы показать, зачем вообще работать с геоданными, давайте возьмем пример расчета посещаемости хоккейных матчей в Москве, как-никак плей-офф в разгаре.

Давайте по порядку. Почти любой доступный смартфон, умные часы, фитнес-браслеты, оборудование для IoT — всё это может получать и передавать данные о собственном местоположении. Кроме потребительского железа серьезную эволюцию прошёл и интернет вещей в целом, причем как классический IoT для умного дома и других полезностей, так и индустриальный IIoT, заточенный под мониторинг сложных технологических систем, сельское хозяйство, мониторинг окружающей среды и многое другое.

Следствием такого развития, как в количественном, так и в качественном плане, стал ощутимый рост того объёма данных, который все эти устройства генерируют. Ну и что нам с ними делать? Давайте разберемся на примере геоданных!

Зачем вообще кому-то нужны геоданные?

+11

1 2 ...

5 6

8 9 ...

46 47

Статистика в IT

А/Б тесты с метрикой отношения. Дельта-метод

Потенциал искусственного интеллекта в пищевой промышленности и фарме

Теорема Байеса для чайников

Анализ маркетплейсной воронки. Сколько карточек товаров нужно открыть чтобы совершить покупку?

Истории

Контекст, награда, много рук. Многорукие бандиты как метод принятия решений

Что нам стоит диаграмму в Python построить: 5 вариантов привлекающей внимание визуализации данных и кое-что ещё

Степени свободы в статистике

Системы ИИ, data-driven культура и импортозамещение — что рынок BI двигает

Анализ таблиц сопряженности средствами Python. Часть 1. Визуализация

Метод генерации столбцов для решения задач математической оптимизации большой размерности

MightyCall: Кол-центры полностью перейдут на российские решения до 2025 года

Рейтинг языков программирования 2023. JavaScript/TypeScript завоевывают мир, Python вошел в топ-3

Нормально разбираемся в Нормальном распределении

Ближайшие события

Сам себе Росстат

Проверяем ветхозаветную историю происхождения человечества от Адама и Евы с помощью популяционной модели

У китайских производителей электроники проблемы: санкции США способны замедлить выпуск чипов в КНР в ближайшие 10 лет

Вы все ещё пользуетесь старым редактором?

Регрессионный анализ в DataScience. Часть 3. Аппроксимация

Как же мощно я провел A/B-тест, или почему не стоит сравнивать наблюдаемый аплифт с MDE

Apache Sedona — как быстро работать с геоданными

Вклад авторов