Pull to refresh
0

Как легко понять логистическую регрессию

Reading time5 min
Views205K
Original author: SRJOGLEKAR246
Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. Также она входит в топ часто используемых алгоритмов в науке о данных. В этой статье суть логистической регрессии описана так, что она станет понятна даже людям не очень близким к статистике.

image


Основная идея логистической регрессии


В отличие от обычной регрессии, в методе логистической регрессии не производится предсказание значения числовой переменной исходя из выборки исходных значений. Вместо этого, значением функции является вероятность того, что данное исходное значение принадлежит к определенному классу. Для простоты, давайте предположим, что у нас есть только два класса (см. Множественная логистическая регрессия для задач с большим количеством классов) и вероятность, которую мы будем определять, image вероятности того, что некоторое значение принадлежит классу "+". И конечно image. Таким образом, результат логистической регрессии всегда находится в интервале [0, 1].

Основная идея логистической регрессии заключается в том, что пространство исходных значений может быть разделено линейной границей (т.е. прямой) на две соответствующих классам области. Итак, что же имеется ввиду под линейной границей? В случае двух измерений — это просто прямая линия без изгибов. В случае трех — плоскость, и так далее. Эта граница задается в зависимости от имеющихся исходных данных и обучающего алгоритма. Чтобы все работало, точки исходных данных должны разделяться линейной границей на две вышеупомянутых области. Если точки исходных данных удовлетворяют этому требованию, то их можно назвать линейно разделяемыми. Посмотрите на изображение.

image

Указанная разделяющая плоскость называется линейным дискриминантом, так как она является линейной с точки зрения своей функции, и позволяет модели производить разделение, дискриминацию точек на различные классы.

Если невозможно произвести линейное разделение точек в исходном пространстве, стоит попробовать преобразовать векторы признаков в пространство с большим количеством измерений, добавив дополнительные эффекты взаимодействия, члены более высокой степени и т.д. Использование линейного алгоритма в таком пространстве дает определенные преимущества для обучения нелинейной функции, поскольку граница становится нелинейной при возврате в исходное пространство.

Но каким образом используется линейная граница в методе логистической регрессии для количественной оценки вероятности принадлежности точек данных к определенному классу?

Как происходит разделение


Во-первых, давайте попробуем понять геометрический подтекст «разделения» исходного пространства на две области. Возьмем для простоты (в отличие от показанного выше 
3-мерного графика) две исходные переменные - image и image, тогда функция, соответствующая границе, примет вид:

image

Важно отметить, что и image и image являются исходными переменными, а выходная переменная не является частью исходного пространства в отличие от метода линейной регрессии.

Рассмотрим точку image. Подставляя значения image и image в граничную функцию, получим результат image. Теперь, в зависимости от положения image следует рассмотреть три варианта:

  • image лежит в области, ограниченной точками класса "+". Тогда image, будет положительной, находясь где-то в пределах (0,image). С математической точки зрения, чем больше величина этого значения, тем больше расстояние между точкой и границей. А это означает большую вероятность того, что image принадлежит классу "+". Следовательно, image будет находиться в пределах (0,5, 1].
  • image лежит в области, ограниченной точками класса "-". Теперь, image будет отрицательной, находясь в пределах (-image, 0). Но, как и в случае с положительным значением, чем больше величина выходного значения по модулю, тем больше вероятность, что image принадлежит классу "-", и image находится в интервале [0, 0.5).
  • image лежит на самой границе. В этом случае, image. Это означает, что модель действительно не может определить, принадлежит ли image к классу "+" или к классу "-". И в результате, image будет равняться 0,5.

Итак, мы имеем функцию, с помощью которой возможно получить значение в пределах (-image,image) имея точку исходных данных. Но каким образом преобразовать полученное значение в вероятность image, пределы которой [0, 1]? Ответ — с помощью функции отношения шансов (OR).

Обозначим image вероятностью происходящего события image. Тогда, отношение шансов (image) определяется из image, а это — отношение вероятностей того, произойдет ли событие или не произойдет. Очевидно, что вероятность и отношение шансов содержат одинаковую информацию. Но, в то время как image находится в пределах от 0 до 1, image находится в пределах от 0 до image.

Это значит, что необходимо еще одно действие, так как используемая нами граничная функция выдает значения от -image до image. Далее следует вычислить логарифм image, что называется логарифмом отношения шансов. В математическом смысле, image имеет пределы от 0 до image, а image — от -image до image.

Таким образом, мы получили способ интерпретации результатов, подставленных в граничную функцию исходных значений. В используемой нами модели граничная функция определяет логарифм отношения шансов класса "+". В сущности, в нашем двухмерном примере, при наличии точки image, алгоритм логистической регрессии будет выглядеть следующим образом:

  • Шаг 1. Вычислить значение image граничной функции (или, как вариант, функцию отношения шансов). Для простоты обозначим эту величину image.
  • Шаг 2. Вычислить отношение шансов: image. (так как image является логарифмом ).
  • Шаг 3. Имея значение image, вычислить image с помощью простой зависимости.

image
Получив значение image в шаге 1, можно объединить шаги 2 и 3:
image
Правая часть уравнения, указанного выше, называется логистической функцией. Отсюда и название, данное этой модели обучения.

Как обучается функция


Остался не отвеченным вопрос: «Каким образом обучается граничная функция image?» Математическая основа этого выходит за рамки статьи, но общая идея заключается в следующем:
Рассмотрим функцию image, где image — точка данных обучающей выборки. В простой форме image можно описать так:
если image является частью класса "+", image (здесь image — выходное значение, полученное из модели логистической регрессии). Если image является частью класса "-", image.

Функция image проводит количественную оценку вероятности того, что точка обучающей выборки классифицируется моделью правильным образом. Поэтому, среднее значение для всей обучающей выборки показывает вероятность того, что случайная точка данных будет корректно классифицирована системой, независимо от возможного класса.

Скажем проще — механизм обучения логистической регрессии старается максимизировать среднее значение image. А название этого метода — метод максимального правдоподобия. Если вы не математик, то вы сможете понять каким образом происходит оптимизация, только если у вас есть хорошее представление о том, что именно оптимизируется.

Конспект


  1. Логистическая регрессия — одно из статистических методов классификации с использованием линейного дискриминанта Фишера.
  2. Значением функции является вероятность того, что данное исходное значение принадлежит к определенному классу.
  3. механизм обучения логистической регрессии старается максимизировать среднее значение image.
Tags:
Hubs:
Total votes 25: ↑19 and ↓6+13
Comments2

Articles

Information

Website
onthe.io
Registered
Employees
11–30 employees