Articles / Profile of Drino / Habr

@Drino Oct 16 2016 at 08:57

Зачем нужен алгоритм Хо-Кашьяпа?

4 min

19K

Недавно на Хабре появилась публикация про алгоритм Хо-Кашьяпа (Ho-Kashyap procedure, он же — алгоритм НСКО, наименьшей среднеквадратичной ошибки). Мне она показалась не очень понятной и я решил разобраться в теме сам. Выяснилось, что в русскоязычном интернете тема не очень хорошо разобрана, поэтому я решил оформить статью по итогам поисков.

Несмотря на бум нейросетей в машинном обучении, алгоритмы линейной классификации остаются гораздо более простыми в использовании и интерпретации. Но при этом иногда вовсе не хочется пользоваться сколько-нибудь продвинутыми методами, вроде метода опорных векторов или логистической регрессии и возникает искушение загнать все данные в одну большую линейную МНК-регрессию, тем более её прекрасно умеет строить даже MS Excel.

Проблема такого подхода в том, что даже если входные данные линейно разделимы, то получившийся классификатор может их не разделять. Например, для набора точек $X = [(6, 9), (5, 7), (5, 9), (10, 1)]$ , $y = [1, 1, -1, -1]$ получим разделяющую прямую $(0.15x_1 - 0.43x_2 + 3.21) = 0$ (пример позаимствован из (1)):

Встаёт вопрос — можно ли как-то избавиться от этой особенности поведения?

Под катом немного теории и код на python

+42