Pull to refresh

Comments 8

Довольно много описок увидел, с телефона не понимаю как удобно зарепортить, видимо как до компьютера доберусь, тогда. А так материал довольно доходчиво изложен, лайк! )

Спасибо!
буду разгребать сейчас опечатки, спасибо, что заметил)

Заметил, но успел забыть, где их видел )) Надеюсь, кто-то ещё их зарепортил. Если нет, позже перечитаю статью )

Кстати, ещё бывают ordinal данные - упорядоченные категориальные. Их неправильно сводить ни к категориальным, ни к числовым данным. Они могут быть упорядочены, как целые числа, но "расстояния" между ними могут быть не такими одинаковыми, как у целых чисел.

Я конечно понимаю, что статья под новичков или те, кто хотят освежить свои знания, но, все же, это все кучу раз прояснялось.

И куда интереснее прояснить моменты так, что бы читатель более интуитивно понимал их.

К примеру, вот зачем нужна кросс валидация, и есть ли гипотетический сценарий, где ее вообще можно никогда не использовать и все будет классно. Вот первую часть легко заучить, а для второй нужно немного подумать.

Вокруг проклятия размерности сейчас слишком много мракобесия. Во первых математические доказательства доказываются для синтетических равномерно распределенных данных, для модели это будет один класс, и там ничего и не нужно разделять. В реальности там есть внутри классовые корреляции, что уменьшает эффективную размерность классов, в значит получаем благословение размерности. И это кстати показывает, что корреляция между призраками не так уж и плоха, как любят ее показывать. Единственный случай где она плохая - это аналитическое решение линейной регрессии для весов, так как матрица становится вырожденной. Все остальное - бред.

По поводу лоссов, вот почему не использовать mse в логистической регрессии? Или почему не использовать 1/(x+eps)?

По поводу регуляризации, достаточно узнать что там за буква L, и тогда можно понять, что существует не только три вида.

Корреляция признаков плоха тем, что получается большой элемент случайности в коэффициентах. Дело не только во всяких там матрицах. Грубо говоря, если мы имеем уравнение y = a*x1 + b*x2 + c и у нас x1 очень сильно коррелирует с x2, то (если они вообще совпадают, для простоты) фактически мы получаем a + b = (y - c) / x, при этом мы что-то конкретное можем сказать только про a + b. Например, если оптимальную метрику на наших данных нам даёт a + b = 100, то мы можем брать a = 0, b = 100 или a = 100, b = 0, или a = -1 000 000, b = 1 000 100. И это ведь реальная проблема. Хотя и не для всех моделей и если мы будем использовать регуляризации, то плюс и минус миллион мы уже не получим, но всё-равно у нас будет некоторая неопределённость, как нам разбросать наше значение по a и b.

Sign up to leave a comment.

Articles