Как стать автором
Обновить
65.67

Статистика в IT

Статистика, исследования, тенденции

Сначала показывать
Порог рейтинга

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_6

?Вопрос_6: Всегда ли PCA спасает от проблеммы "проклятие размерности" и если нет, то что можно использовать вместо него ?

✔️Ответ:
РСА не всегда спасает от проклятия размерности, однако существует несколько продвинутых алгоримов для решения данной проблеммы:

  • t-SNE (t-Distributed Stochastic Neighbor Embedding): Этот алгоритм позволяет визуализировать данные высокой размерности в двух или трех измерениях, сохраняя при этом их локальную и глобальную структуру. Он основан на вероятностной модели, которая пытается сохранить близость между объектами в исходном пространстве и их представлением в пространстве меньшей размерности.

  • LLE (Locally Linear Embedding): LLE ищет линейные зависимости между соседними точками данных и пытается сохранить эти зависимости при снижении размерности. Алгоритм строит локальные линейные модели для каждой точки данных и затем находит низкоразмерное представление, которое наилучшим образом воспроизводит эти локальные модели.

  • UMAP (Uniform Manifold Approximation and Projection): UMAP является относительно новым алгоритмом снижения размерности, который сочетает в себе методы локальной связности и глобальной структуры данных. Он строит граф связности между точками данных и затем находит низкоразмерное представление, которое сохраняет геометрическую структуру данных.

    Кроме того, в ряде задач применяются: Isomap, MDS, Random Projection, Sparse Coding, NMF.

    https://t.me/DenoiseLAB

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_5

?Вопрос_5: Что означает термин "Variance Inflation Factor" и как он интерпритируется и есть ли ему аналоги ?

✔️Ответ:

"Variance Inflation Factor" (VIF) относится к статистическому показателю, используемому для измерения степени мультиколлинеарности в модели линейной регрессии. Мультиколлинеарность происходит, когда две или более независимые переменные в модели сильно коррелируют друг с другом, что может исказить результаты регрессии.

VIF равен 1, когда вектор предиктора ортогонален каждому столбцу матрицы проектирования для регрессии предиктора на другие ковариаты. В противном случае, если вектор предиктора не ортогонален всем столбцам матрицы проектирования для регрессии предиктора на другие ковариаты, VIF будет больше 1.

Интерпретация VIF следующая: если VIF предиктора равен 5.27 (корень из 5.27 = 2.3), это означает, что стандартная ошибка для коэффициента этого предиктора в 2.3 раза больше, чем если этот предиктор имел бы корреляцию 0 с другими предикторами в модели. VIF измеряет количество завышенных дисперсий, вызванных мультиколлинеарностью. 

В качестве аналога VIF можно рассмотреть "Tolerance Index" (TI), который также используется для измерения степени мультиколлинеарности в модели. TI также представляет собой отношение дисперсии оценок параметра к дисперсии модели.

https://t.me/DenoiseLAB

Теги:
Рейтинг0
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_4

?Вопрос_4: Как проверить нормальность набора данных или признака?

✔️Ответ: Существует список проверок нормальности, они следующие:

  • W-тест Шапиро-Уилка:

    1. Рассчитывается выборочное среднее и ковариационная матрица выборки;

    2. Затем вычисляются статистики заказа (например, i-е наименьшее число в выборке) и ожидаемые значения из статистики заказа, выбранные из стандартного нормального распределения;

    3. Наконец, вычисляется W-статистика, которая сравнивается с критическим значением, полученным через моделирование Монте-Карло;

    4. Если W-статистика значима, то гипотеза о нормальном распределении данных отвергается, то есть данные, не следуют нормальному распределению;

  • Тест Мартинеса-Иглевича:

    1. Вычисляются квантили выборки;

    2. Эти квантили сравниваются с квантилями стандартного нормального распределения;

    3. Расстояние между квантилями выборки и стандартного нормального распределения вычисляется для каждого квантиля;

    4. Если все расстояния меньше некоторого критического значения, то гипотеза о нормальном распределении данных принимается.

  • Тест Д'Агостино

    1. Вычисляются эксцесс и асимметрия выборки и эти значения сравниваются с ожидаемыми значениями для нормального распределения;

    2. Расстояние между вычисленными и ожидаемыми значениями вычисляется для каждого из них;

    3. Если оба расстояния меньше некоторого критического значения, то гипотеза о нормальном распределении данных принимается.

    https://t.me/DenoiseLAB

    #work #coding #testing #optimization #ml #learning

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0

❓100 Вопросов по Машинному обучению (Machine Learning) - Вопрос_3

?Вопрос_3: Что такое преобразование Бокса-Кокса?

Преобразование Бокса-Кокса (Box-Cox transformation) - это преобразование, которое преобразует "ненормальные" зависимые переменные в нормальные переменные, так как нормальность является наиболее распространенным предположением при использовании многих статистических методов. Оно было предложено Георгом Боксом и Дэвидом Коксом в 1964 году.

Преображование Бокса-Кокса (Общий вид)
Преображование Бокса-Кокса (Общий вид)

Оно имеет параметр лямбда, который при значении "0" означает, что это преобразование эквивалентно лог-трансформации. Оно используется для стабилизации дисперсии, а также для нормализации распределения. Выбор оптимального значения параметра (лямбда) при использовании преобразования Бокса-Кокса может быть выполнен с использованием различных методов:

  1. Метод максимального правдоподобия: В этом подходе подбирается значение (лямбда), которое максимизирует правдоподобие модели. Это можно сделать с помощью численных методов оптимизации, таких как метод Ньютона-Рафсона или метод Брента;

  2. Критерии информационного критерия: можно использовать информационные критерии, такие как критерий Акаике (AIC) или критерий Шварца (BIC);

  3. Кросс-валидация: При этом данные разбиваются на обучающую и проверочную выборки, и производится оценка преобразования Бокса-Кокса для различных значений (лямбда) на обучающей выборке. Затем оцениваются результаты на проверочной выборке и выбирается лучшее значение.

    https://t.me/DenoiseLAB

Теги:
Рейтинг0
Комментарии0

В 2023 году люди меньше проводят время в социальных сетях

Мы меньше стали сидеть в соц сетях...
Мы меньше стали сидеть в соц сетях...

Данные из отчета Mediascope за 2 квартал 2023 года. Время, проведенное в социальных сетях, снизилось сразу на 2%! Примерно так работают хайповые заголовки ? Можно раздуть тему об осознанном потреблении контента, бОльшем времени на реальную жизнь… Но время, проведенное в мессенджерах увеличилось сразу на 3%. ?

P.S. Отчет (медиапотребление в России) очень интересный и полезный, скачать можно тут.

Теги:
Рейтинг0
Комментарии0

Ассоциация «Руссофт» провела исследование инвестиционной активности в сфере разработки ПО за 2022 год. По этому исследованию, было сокращение общего объёма инвестиций в индустрии разработки на 48,5% до ₽120 млрд. Однако доля внешних инвестиций при этом возросла с 26,4% до 51,3%, а в абсолютном выражении объём внешних инвестиций в рублях остался неизменным — ₽61 млрд.

По итогам 2022 года потребность в инвестициях индустрии разработки ПО была удовлетворена на 63,4%, это чуть больше, чем в 2021 году (58%). По итогам 2021 года общий объём инвестиций в софтверной индустрии составил ₽232 млрд, что в 2,4 раза больше, чем в 2020 году.

Согласно прогнозам компаний, потребность в инвестициях по итогам 2023 года увеличится в 1,7 раза, но её удастся удовлетворить только на 49,5%. По оценке респондентов, общий объём инвестиций в 2023 году по сравнению с предыдущим годом может увеличиться на 32%, а объём внешнего финансирования — на 56%.

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии0

«МойОфис» заявила о продаже более 1 миллион штук коммерческих лицензий за всё время деятельности компании. Покупателем миллионной лицензии стал „АКРИХИН“ купившая „МойОфис Профессиональный 2“ и Squadus в рамках перехода на российское ПО. Об этом рассказали информационной службе Хабра в пресс‑службе разработчика офисных приложений.

Первая продажа лицензий «МойОфис» состоялась 7,5 лет назад 18 января 2016 года. Первым коммерческим клиентом стала компания «Аксофт», купившая 50 лицензий «МойОфис Профессиональный».

По словам генерального директора «МойОфис» Павла Калякина, пока доля российских производителей на рынке офисного ПО небольшая и составляет порядка 16%. Из них около 10% занимает «МойОфис». Его компания 2022 году зафиксировала шестикратный рост числа пилотных проектов внедрения, а в 2023 году было инициировано примерно 60% от общего объёма пилотных проектов 2022 года.

Теги:
Всего голосов 9: ↑8 и ↓1+7
Комментарии0

Число пользователей сервиса «Сбера» для самозанятых «Своё дело» превысило 1,5 млн человек, рассказали Хабру в пресс-службе банка.

Согласно представленным данным, чаще всего самозанятые работают в строительстве и ремонте (22,9%), в IT (13,6%), автоперевозках и автосервисе (13%), индустрии красоты (12,2%), маркетинге, рекламе и исследованиях (8,8%).

Больше всего зарегистрированных самозанятых живут в Москве (20,4%), Санкт-Петербурге (7,3%), Московской области (6,6%), Краснодарском крае (4,8%) и Свердловской области (3,2%). Средний возраст самозанятого — 34 года, мужчин и женщин примерно поровну.

«89% потребителей услуг самозанятых — физические лица. Треть из них работают с постоянными клиентами, а большинство новых клиентов приходят по рекомендации друзей и знакомых. Самый популярный способ оплаты услуг — перевод на карту», — рассказал Анатолий Попов, заместитель Председателя Правления Сбербанка.

Всего голосов 1: ↑1 и ↓0+1
Комментарии1

Информационная служба Хабра посетила первый день конференции «Тема Еды»

На конференции выступал руководитель аналитики «Яндекс Еды» и Delivery Club Роман Халкечев. В своём докладе он рассказал, как локдаун ускорил развитие доставки готовой еды и продуктов, что снятие ограничений не уменьшило популярность доставки.

По словам Халкечева, количество заказов из ресторанов в «Яндекс Еде» среди пользователей из Москвы с 2019 выросло в 2,5, раза, а из Санкт‑Петербурга — в 5,5 раз. Остальные регионы по доставке из ресторанов растут с того же периода значительно больше — в 16 раз. Больше половины заказов готовой еды в «Яндекс Еде» приходятся на регионы, в 2019 году этот показатель составлял 20%.

По данным компании, треть жителей Москвы, Санкт‑Петербурга и Казани хотя бы раз заказывала еду из ресторанов с доставкой в прошлом году.

Сейчас в сервисах «Яндекс Еда» и Delivery Club используются технологии машинного обучения. С помощью технологий выясняются популярные сочетания позиций и на стадии оформления заказа и предлагается пользователю дополнить заказ. В некоторых регионах идёт тест улучшения изображений блюд с помощью генеративных нейросетей.

Кроме того, компания представила топ-3 фактора, влияющих на выбор ресторана среди пользователей — это скорость доставки в 66%, стоимость доставки в 65% и рейтинг заведения в 57%.

Всего голосов 7: ↑7 и ↓0+7
Комментарии0

«Авито» заявила о новых рекордах по количеству активных объявлений и активной аудитории платформы

Компания «Авито» заявила о новом рекорде по количеству доступных на платформе активных объявлений — по итогам апреля 2023 года их стало 150 млн, рассказали информационной службе Хабра в пресс‑службе палтформы. Предыдущий рекорд в 100 млн активных объявлений на Авито был установлен в мае 2022 года.

По данным портала SimilarWeb на 1 апреля 2023 года, количество визитов на Авито составляет 366,7 млн в месяц. По этому показателю платформа занимает первое место классифайдов в мире.

Кроме того, в марте 2023 года активная аудитория Авито установила новый рекорд в 61 млн человек в месяц. За последний год компания инвестировала ₽20 млрд в развитие и поддержку продуктовых решений на платформе и в обучение пользователей.

Всего голосов 6: ↑6 и ↓0+6
Комментарии0