Комментарии / Профиль ysrgsyn / Хабр

@ysrgsyn

Пользователь

71,2

Рейтинг

125

Подписчики

ПрофильСтатьи13ПостыНовостиКомментарии63

Разбираемся в ML без воды: от базы до Attention. Часть 13: Кластеризация и k-means

ysrgsyn 3 июл в 22:55

Исправил, спасибо!

Разбираемся в ML без воды: от базы до Attention. Часть 12: Понижение размерности и PCA

ysrgsyn 24 июн в 08:48

1) если говорить о трёх вышеперечисленных способах то нет, это грубо говоря 3 алгоритма для решения одной и той же задачи.

Потеря алгоритма определяется скорее выбором k. Разве что в методе Ланцоша из-за его итеративной философии мы потеряем в качестве если остановимся слишком рано.

2) грубо говоря, да. философия у них крайне похожая. только вот в теоретическом методе у нас есть замечательное рекуррентное соотношение, которое нам позволяет не трогать все подряд, а работать с последними двумя векторами. И это ключевое отличие. А вот в переортогонализации (то что описано в конце статьи) уже используется именно модификация Грама Шмидта.

3) выбор k обычно такой:

Если используем PCA для визуализации берём k=2 или 3

А в общем случае обычно подбирают через кросс валидацию

Есть ещё вариант попробовать подобрать k так, чтобы получить как можно больше объясненной дисперсии (explained_variance_ratio_ в sklearn)

4) ни то, ни другое :) мы просто решаем более узкую задачу (находим первые несколько компонент). Только уже возникает другая проблема - сходимость может быть медленной на плохом спектре.

5) И svd и Ланцош используются на практике. Полный свд берут когда датасет маленький, тогда нам плевать на кубическую сложность, как-то потерпим. Ланцоша берут для больших разреженных матриц (такое тоже часто в мл встречается). А на больших плотных данных, наверное, чаще всего используют randomized svd. С одной стороны это как обычный свд, с другой – он берет только первые несколько k+p компонент , примерно как Ланцош. Здесь p это "запас" (условно p=10)

Разбираемся в ML без воды: от базы до Attention. Часть 11: Градиентный бустинг

ysrgsyn 22 июн в 19:24

Активно пишу по мере свободного минимизированного времени :)

Разбираемся в ML без воды: от базы до Attention. Часть 7: SVM и SGD

ysrgsyn 19 июн в 20:57

Смотрите, у y_i это просто класс: либо +1, либо -1 (кот/собака), или (покупаем/не покупаем).

Также для <w,x> имеем пограничные линии, грубо говоря либо до -1 либо после +1

Если мы их умножили и получили число ≥1 значит,

Во-первых, y_i и <w,x_i> имеют одинаковый знак (значит класс угадан верно)

Во-вторых, <w, x_i> либо ≥1 либо ≤1 , т.е. находится снаружи наших "рамок"

Разбираемся в ML без воды: от базы до Attention. Часть 9: Дерево решений

ysrgsyn 18 июн в 08:05

Насчёт кошек – зависит от реализации, но в классическом понимании да: "кошка" != "Кошка".

А визуализировать, естественно, можно (см. картинку в статье). Есть разные способы. Вот, пожалуй, самый стандартный:

from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(20,10))
plot_tree(clf, filled=True)
plt.show()

Где clf само дерево:

clf = DecisionTreeClassifier()
clf.fit(X, y)

Разбираемся в ML без воды: от базы до Attention. Часть 10: Бэггинг и случайный лес

ysrgsyn 14 июн в 17:08

Спасибо за отличное и очень точное замечание! Честно говоря, это даже звучит крайне логично, но я в никогда об этом не подумал. Век живи — век учись, как говорится)

Правильность и значимость статьи сомнению он не подвергает.

Зато ещё как дополняет! Если перевести вашу мысль на язык ML, то признак "Район" действительно должен обладать наибольшим Information Gain. Модель сначала (по идее) сделает сплит по локации, а уже внутри конкретного района площадь, пожалуй, станет главным движком цены.

Рад, что пример вызвал интерес, спасибо за ценное дополнение к статье

Разбираемся в ML без воды: от базы до Attention. Часть 1։ Введение

ysrgsyn 12 июн в 20:12

И вам большое спасибо за интересную беседу, я даже подзабытую математику вспомнил :)
Если появятся похожие темы для обсуждения — пишите в личку, буду крайне рад.

Разбираемся в ML без воды: от базы до Attention. Часть 1։ Введение

ysrgsyn 12 июн в 08:55

Если вам что-то непонятно, напишите в комментариях/в личку, буду рад ответить

Разбираемся в ML без воды: от базы до Attention. Часть 1։ Введение

ysrgsyn 12 июн в 08:54

В ваших рассуждениях смешиваются разные структуры: аффинная, топологическая и метрическая, из-за чего термин "близость" используется без явного определения.

В аффинном пространстве выражение x(t)=a(1−t)+bt задаёт лишь аффинную комбинацию точек. Из этой структуры не следует понятие близости или предела — она не содержит ни топологии, ни метрики.

Переход от утверждения "t близко к 0" к “x(t) близко к a" использует структуру на параметрическом пространстве R и индуцированную (через координатное отождествление) топологию на образе R^n. Это уже топологическое, а не аффинное утверждение.

Поэтому утверждение, что 0.99a+0.01b "ближе" к a, чем 0.9a+0.1b, корректно только после фиксации топологии или метрики. В чисто аффинной постановке такая шкала не задана.

Что касается метрики: она задаётся на всех парах точек пространства d(x,y), а не на базисных элементах, поэтому её нельзя интерпретировать как "расстояния между базисом". Базис относится к линейной структуре, а метрика может быть задана и в других классах пространств (без линейных структур).

Переформулировка МНК же через грамиан и метрические тензоры корректна, однако это уже переход к более общей геометрической формализации. В контексте вводного изложения это не исправляет исходную модель, а лишь поднимает уровень абстракции, поскольку стандартное скалярное произведение R^n уже фиксирует необходимую геометрию.

Ну и в конце-концов предлагаю закрыть эту дискуссию, а то такими темпами она станет длиннее статьи :)

Разбираемся в ML без воды: от базы до Attention. Часть 1։ Введение

ysrgsyn 11 июн в 21:26

А чем ближе будут точки нашего вписанного треугольника к базовым ...

Здесь вы уже используете понятие расстояния, раз сравниваете точки по близости.

Разбираемся в ML без воды: от базы до Attention. Часть 8: Kernel Trick

ysrgsyn 11 июн в 09:55

лучший вариант обучения — рассказывать кому‑то другому.

Подписываюсь под каждым словом. Это, наверное, лучший способ, где "это работает так" меняется на "а почему именно так?"
Насчет степика идея интересная, возможно когда-нибудь в будущем..

Разбираемся в ML без воды: от базы до Attention. Часть 8: Kernel Trick

ysrgsyn 11 июн в 08:56

Вуз, годы опыта на проде и, конечно, постоянные ошибки и самообучение

Но, честно вам скажу, я не все знаю :) Иногда прямо в процессе написания статьи всплывает такое, о чем я раньше даже не задумывался. Поэтому считайте, что в этом цикле статей я обучаюсь вместе с вами.

Разбираемся в ML без воды: от базы до Attention. Часть 6: Логистическая регрессия

ysrgsyn 9 июн в 23:09

Честно говоря, стараюсь изо всех сил излагать мысли так, чтобы было понятно максимально широкому кругу читателей. Но местами формулы становятся чуть сложнее… Если где-то возникают непонятные моменты — пишите в комментарии или в личные сообщения, всегда рад обсудить.

Что касается кода — он появляется по мере движения по теме. Просто не хочется делать вставки вида “пара строк из sklearn” и на этом останавливаться (иначе всё превратится в переписывание документации sklearn). Скорее всего после бустингов будет небольшой разбор моего собственного, пусть и немного нестандартного метода, а вместе с ним — код классических ML-моделей с подбором гиперпараметров и сравнением на интересной задаче.
Но даже если планы немного изменятся, всё равно сделаю большую обзорную статью с мини-повторением прошлых частей и большим количеством кода.

Разбираемся в ML без воды: от базы до Attention. Часть 4: kNN

ysrgsyn 9 июн в 22:52

Да, вы абсолютно правы. Действительно может возникнуть путаница. Точнее будет указать "расстояния", а не "веса". Исправил, спасибо.

Разбираемся в ML без воды: от базы до Attention. Часть 1։ Введение

ysrgsyn 9 июн в 22:45

ну или "близости координат"

"Близость координат" предполагает метрику, иначе что такое близость? А в R^n стандартная метрика индуцируется скалярным произведением. Ортогональность базиса — следствие этой структуры, а не семантики признаков (стандартный базис автоматически ортонормирован). Я, честно, понимаю о чем вы, но по факту как только мы используем dot product, мы уже (минимум) в евклидовом пространстве. И это не плохо на мой взгляд, а даже наоборот.

Разбираемся в ML без воды: от базы до Attention. Часть 1։ Введение

ysrgsyn 9 июн в 14:10

В контексте классической линейной мы естественным образом рассматриваем векторы из R^{k+1}, в котором стандартное скалярное произведение порождает евклидову метрику

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

ysrgsyn 8 июн в 17:08

Статья интересная, да и работа немаленькая
Однако, раз под капотом у полигармонического каскада работает расстояние (которое сохраняется при умножении на матрицу поворота), то было бы честно сделать другое преобразование с данными (например, аффинное сжатие/нелинейное преобразование). А то получается, что вы читерите: задача — рубить дерево, инструменты — чайник vs полка vs бензопила...
К слову, было забавно, что для svr взяли rbf ядро. Страшный вы человек, однако)))
В любом случае, спасибо за статью, было интересно

Разбираемся в ML без воды: от базы до Attention. Часть 5: Метрики качества

ysrgsyn 2 июн в 07:07

Вы абсолютно правы. Исправил

Achievement unlocked: совершать 2 опечатки в одной маленькой формуле

Разбираемся в ML без воды: от базы до Attention. Часть 7: SVM и SGD

ysrgsyn 31 мая в 10:41

на шумных данных SVM начинает дергаться

А кто ж не дергается на них...

В целом, половина успеха в ЛЮБОЙ задаче мл – это дата. Если она плохая, даже магия вне Хогвартса не поможет.

Однако, SVM много чем уступает всяким бустингам и подобным товарищам, но мы его любим за две причины: он хорош, когда фич много, а данных мало, в также у него выпуклая задача оптимизации.

Что касаемо Scaler - как правило, он нужен практически везде, где у нас хоть мельком упоминается какая-то идея о расстоянии. Так что, полностью согласен с вами

Разбираемся в ML без воды: от базы до Attention. Часть 7: SVM и SGD

ysrgsyn 31 мая в 10:23

Спасибо, что заметили. Там очевидно -1, исправил :)

2 3 4

Информация

Специализация