Все потоки
Поиск
Написать публикацию
Обновить
45.16

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга
Уровень сложности

Считаем доверительные интервалы для долей и медианы по нормальному распределению (готовимся к собесу на Аналитика)

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров12K

Недавно на выходном оффере в Авито спрашивали задачку про нахождение доверительного интервала для медианы. Эта статья появилась в результате моего резерча по этому вопросу.

В данной статье я напишу алгоритм рассчета доверительных интервалов для:
— Среднего значения
— Медианы (через нормальную аппроксимацию к биномиальному распределению)
— Доли (через нормальную аппроксимацию к биномиальному распределению)

Основным научным результатом публикации является всепроникаемость нормального распределения и возможность оценить с его помощью что угодно. В задаче про нахождение доверительного интервала для медианы, нормальное распределение дало такую элегантную формулу, содержащую только корень из размера выборки, что я до сих пор не могу перестать удивляться.

Читать далее

Когда релиз? Как мы оптимизировали процессы с помощью метрик

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров7.9K

Работать комфортно, эффективно и не тратить время на бесполезные задачи — к этому стремится любая команда. Но ситуации, когда люди вроде бы работают, а релиза всё нет, случаются регулярно.

Меня зовут Полина Таран, и уже три года я работаю тимлидом в финтех-компании Точка. Мы решили разобраться, почему действия не дают желаемого результата, а некоторые задачи неделями висит в режиме ожидания. Найти и устранить причину нам помогли метрики — подробности под катом.

Читать далее

Ждет ли безработица ИТ-сектор России

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров65K

Плохие новости для тех, кто думает что «поймал Бога за бороду» выбрав в качестве профессии одну из ИТ специальностей. Индекс HH.ru для профобласти ИТ впервые держится выше значения 8 второй месяц подряд. 

Читать далее

Неувядающая классика или «чёрный ящик»: кто кого в битве за прогноз. Глава вторая. Продолжение

Время на прочтение29 мин
Количество просмотров3.3K

В прошлой части мы с вами остановились на том, что обнаружили у временного ряда с температурой две сезонности и, несмотря на это, решили двигаться дальше в выполнении сезонной модели САРПСС по методологии АРПСС. В этой части второй главы мы с вами продолжим применение методологии для поиска оптимальных параметров модели, которая будет адекватно описывать целевой временной ряд с температурой.

Читать далее

Необычные вкусы покупателей: что такое товарные пары и как их исследовать

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров4.6K

Привет, Хабр! На связи команда продуктовой аналитики.

Подбор и обновление ассортимента товаров — постоянная головная боль для любого ритейлера. Это трудоемкий процесс, где каждая ошибка стоит реальных денег. В ecom.tech мы стараемся сделать его проще при помощи автоматизации, а заодно изучаем предпочтения покупателей. На этот раз мы искали, что обычно покупают в паре – так называемые комплементарные товары.

В этой статье расскажем:
- с чем обычно покупают лапшу быстрого приготовления, а с чем — детское питание;
- как география, время суток и другие факторы влияют на выбор покупателей;
- как все эти полученные знания можно применить в ассортиментных матрицах дарксторов и бизнес-процессах ритейла.

Читать далее

Вытеснит ли искусственный интеллект людей из мастеринга?

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.1K

Процесс мастеринга композиции — это завершающая стадия создания музыки. Труд мастеринг-инженеров оплачивается, отдельная профессия существует уже давно, хотя выполняют они на первый взгляд тривиальный набор задач. Автоматизированный мастеринг существует не первый год, и в последнее время подобные алгоритмы всё чаще пытаются рекламировать как ИИ.

Сравнить результаты мастеринга человеком и машиной попытался блогер Бенн Джордан. Музыкант попросил почти полтысячи подписчиков оценить мастер одного и того же трека разными продуктами и людьми. Наивысшие оценки получили работы профессиональных мастеринг-инженеров.
Читать дальше →

CISQ. Исследование анализа качества ПО 2020 — часть 1

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров679

Консорциум по качеству информации и программного обеспечения (CISQ) запустил опрос «Состояние отрасли» - первое комплексное исследование анализа качества программного обеспечения. В этой статье перевод части результатов опроса - раздела "Инженерия". Во второй части будет перевод оставшихся двух разделов - "Системные интеграторы", "Управление поставщиками".

Читать далее

Cтатистика Байеса в ML для самых маленьких

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров11K

Пожалуй, одна из важнейших тем для подготовки крутых специалистов машинного обучения. Ведь закономерности всегда подлежат какой-то аналитике с точки зрения вероятностей. А как иначе?

🔜 Как вы будете рекомендовать девушек в анкетах знакомств, если не вычислите статистическую вероятность симпатии от огонечков на шести сторисах?

🔜 Как вы будете подсчитывать успех кражи внутренних данных компании в обход NDA?

🔜 Может ограбить банк не такая уж плохая идея с вашими вводными данными?

Байес — это палочка-выручалочка.

По статистике 90% мужчин и девушек, что знают метод МСМС, лучше пахнут и получают на 100% больше взаимных симпатий.

Хотите также? — читайте нашу статью по Байесовской статистике в ML для самых маленьких.

Читать далее

Последовательное A/B-тестирование в Netflix. Часть 2: процессы подсчёта

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров2K

Сталкивались вы когда-нибудь с ошибкой при просмотре потокового видео на Netflix? Может — неожиданно останавливался или вовсе не запускался фильм, который вас заинтересовал? В первой части этой серии статей мы рассказали о методологии тестирования канареечных релизов, применяемой к показателям, которые представлены непрерывными потоками данных. Среди таких показателей — «задержка воспроизведения» (play‑delay). Вот комментарий одного из читателей:

«А что если выход нового релиза не связан с изменениями в функционале воспроизведения и потоковой передачи видео? Например — что если в новом релизе будет изменено что-то, ответственное за вход пользователя в систему? Тестируя такой релиз вы, как и в других случаях, так же будете наблюдать за метрикой «задержка воспроизведения»?»

Читать далее

Как пакет с пакетами помог аналитику решить задачу для бизнеса, или keep calm and import statsmodels

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2K

Всем привет!
Меня зовут Сабина, я лидер команды исследователей данных во ВкусВилле. Мы помогаем бизнесу принимать решения, ориентируясь в том числе на данные. 
Сегодня я расскажу об одном таком случае. Статья будет полезна аналитикам, которые хотят перестать беспокоиться и начать использовать линейную регрессию из питоновской библиотеки stasmodels.

Читать далее

Анализ вакансий ИТ в Москве: системное администрирование, 2024г

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров11K

Прошел еще один год и снова появилась необходимость актуализировать и проанализировать данные по предложениям работы в сфере системного администрирования для дальнейшего планирования заработных плат специалистам уже на 2025 год.

В этот раз мы дополнительно сравним результаты со значениями проведенного анализа в 2022 и 2023 годах.

Цели, условия, методика и формат анализа остались без изменений, их можно прочитать в предыдущих статьях или спойлером ниже. Данные по каждой должности сравним с предыдущими периодами по количеству вакансий и по заработным платам.

Читать далее

Удаленка под угрозой: зарубежные компании возвращают людей в офисы. Почему это неизбежно затронет Россию?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров22K

Иногда кажется, что удаленка была с нами всегда. Хотя массово айтишники начали работать из дома лишь с 2020 года из-за пандемии COVID-19. Тогда говорили, что это временная мера и уже через месяц все вернутся в офис. 

Прошло 4 года, пик удаленки позади – работодатели начинают возвращать людей в офисы. Последние, конечно, сопротивляются. Рассказываем, чем мировому бигтеху не угодила удаленка, зачем российские компании стараются заманить людей обратно в офисы и почему удаленка оказалось под угрозой исчезновения. 

Читать далее

Предиктивная аналитика в промышленности: путь к повышению эффективности и снижению затрат

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров3.2K

Предиктивная аналитика в промышленности: путь к повышению эффективности и снижению затрат

Предиктивная аналитика кардинально меняет подход к обслуживанию и управлению промышленным оборудованием. В условиях цифровой трансформации бизнеса, особенно в производственном секторе, она становится незаменимым элементом для повышения эффективности, минимизации простоев и снижения затрат. Рассмотрим, как предиктивная аналитика помогает промышленным компаниям достигать стратегических целей и что важно учитывать при её внедрении.

Читать далее

Ближайшие события

Бутстрап в PySpark

Время на прочтение13 мин
Количество просмотров2.5K

Всем привет! Меня зовут Илья Черников, я аналитик больших данных в X5 Tech, сейчас занимаюсь аналитикой и оценкой активностей CVM маркетинга экспресс-доставки “Пятёрочки”.

В статье я расскажу о том, как мы решали вопрос автоматизации оценки эффективности большого количества маркетинговых кампаний с помощью бутстрапа в PySpark. Я опишу различные подходы к реализации бутстрапа с их плюсами и минусами, а также расскажу об итоговом варианте, который мы выбрали для себя.

Читать далее

Технологии искусственного интеллекта для военного назначения. Прогноз рынка до 2032 года

Уровень сложностиСредний
Время на прочтение27 мин
Количество просмотров5.4K

Всем привет! Я, Алексей Мартынов, продолжаю публиковать отраслевые исследования по применению технологий ИИ.

Ранее были опубликованы мои материалы:

Технологии ИИ: нет ничего искусственного в заботе о здоровье / Хабр (habr.com)

Искусственный интеллект в обрабатывающих производствах: инструмент форсирования технологической гонки / Хабр (habr.com)

В этой статье я исследую рынки, тренды и кейсы, игроков и эффекты, которые влияют на наше настоящее и формируют наше будущее в части военного назначения.

Читать далее

Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения

Уровень сложностиСложный
Время на прочтение29 мин
Количество просмотров3.2K

Рассмотрим статью 2018 года наших индийских коллег Rahul Baboota и Harleen Kaur «Predictive analysis and modelling football results using machine learning approach for English Premier League». Особое внимание советую уделить отбору признаков (feature engineering) — возможно, у вас появятся собственные новые идеи в этой области. Также рекомендую сравнить результаты различных моделей (naive Bayes, SVM, Random Forest, XGBoost) с вашими собственными.

Читать далее

Качество мобильных сетей на курортах: Связь есть, но есть нюансы

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.3K

Аналитики Vigo рассмотрели качество на основных курортах юга России и выявили основные проблемы, влияющие на качество пользовательского опыта абонентов мобильных сетей во время высокого сезона. На Крымском полуострове основная деградация из‑за качества транспортных сетей, а на курортах Краснодарского края наблюдается нехватка емкости радиосетей...

Читать далее

Изучение статистических закономерностей на примере измерения фона космического излучения

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров1.2K

Цель работы: на примере статистики регистрации фоновых космических частиц изучить статистические закономерности однородного во времени случайного процесса; проверить возможность описания исследуемого процесса статистическими законами Пуассона и Гаусса; измерить среднее число регистрируемых космических лучей в секунду и определить погрешность результата.

Оборудование: счётчик Гейгера—Мюллера, компьютер с интерфейсом для связи со счётчиком, расчётная программа.

Читать далее

Как проиграть войну и увеличить риск анафилактического шока. Тирания KPI

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров5.1K

Как у всех появилась зацикленность на количественных показателях? Почему даже ошибочным цифрам верят больше, чем суждениям профессионалов?

Читать далее

Правда ли, что в России самые «богатые» программисты? И как с этим в других странах

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров33K

В России настоящий фетиш на программистов. Жены айтишников — отдельный жанр в запрещенных социальных сетях, на офисы крупных технологических компаний снимают обзоры, государство раздаёт разработчикам плюшки покруче, чем социально незащищённым категориям граждан. И тут закономерно возникает вопрос, а это только у нас так?

попробуем разобраться