Search
Write a publication
Pull to refresh

Comments 11

Довольно много описок увидел, с телефона не понимаю как удобно зарепортить, видимо как до компьютера доберусь, тогда. А так материал довольно доходчиво изложен, лайк! )

Спасибо!
буду разгребать сейчас опечатки, спасибо, что заметил)

Заметил, но успел забыть, где их видел )) Надеюсь, кто-то ещё их зарепортил. Если нет, позже перечитаю статью )

Кстати, ещё бывают ordinal данные - упорядоченные категориальные. Их неправильно сводить ни к категориальным, ни к числовым данным. Они могут быть упорядочены, как целые числа, но "расстояния" между ними могут быть не такими одинаковыми, как у целых чисел.

Я конечно понимаю, что статья под новичков или те, кто хотят освежить свои знания, но, все же, это все кучу раз прояснялось.

И куда интереснее прояснить моменты так, что бы читатель более интуитивно понимал их.

К примеру, вот зачем нужна кросс валидация, и есть ли гипотетический сценарий, где ее вообще можно никогда не использовать и все будет классно. Вот первую часть легко заучить, а для второй нужно немного подумать.

Вокруг проклятия размерности сейчас слишком много мракобесия. Во первых математические доказательства доказываются для синтетических равномерно распределенных данных, для модели это будет один класс, и там ничего и не нужно разделять. В реальности там есть внутри классовые корреляции, что уменьшает эффективную размерность классов, в значит получаем благословение размерности. И это кстати показывает, что корреляция между призраками не так уж и плоха, как любят ее показывать. Единственный случай где она плохая - это аналитическое решение линейной регрессии для весов, так как матрица становится вырожденной. Все остальное - бред.

По поводу лоссов, вот почему не использовать mse в логистической регрессии? Или почему не использовать 1/(x+eps)?

По поводу регуляризации, достаточно узнать что там за буква L, и тогда можно понять, что существует не только три вида.

Корреляция признаков плоха тем, что получается большой элемент случайности в коэффициентах. Дело не только во всяких там матрицах. Грубо говоря, если мы имеем уравнение y = a*x1 + b*x2 + c и у нас x1 очень сильно коррелирует с x2, то (если они вообще совпадают, для простоты) фактически мы получаем a + b = (y - c) / x, при этом мы что-то конкретное можем сказать только про a + b. Например, если оптимальную метрику на наших данных нам даёт a + b = 100, то мы можем брать a = 0, b = 100 или a = 100, b = 0, или a = -1 000 000, b = 1 000 100. И это ведь реальная проблема. Хотя и не для всех моделей и если мы будем использовать регуляризации, то плюс и минус миллион мы уже не получим, но всё-равно у нас будет некоторая неопределённость, как нам разбросать наше значение по a и b.

Спасибо за шпаргалку. А как же теорема Байеса? Ее так мало спрашивают? По другим источникам, Байесовскими методами ничуть не меньше интересуются.

Пожалуйста)

Ее иногда спрашивают, но не включил сюда, потому что это логичнее было бы оформлять в блок вопросов по математике

В ближайшем будущем подготовлю и такое!

Sign up to leave a comment.

Articles