Flokis_guy May 17 2024 at 11:20

Интуитивное понимание пространств и ядер в машинном обучении: Часть 1

Hard

9 min

20K

Data Mining * Mathematics * Machine learning * Artificial Intelligence

Tutorial

+20

Comments 13

Nergal2004 May 17 2024 at 12:39

Очень похоже на достаточно кривой перевод

Flokis_guy May 17 2024 at 12:48

Привет! Хочу прояснить, что эту статью написал я сам. Да, я использовал некоторые англоязычные источники в некоторых частях статьи, которые указаны в разделе "Дополнительные источники". Эти материалы помогли мне структурировать свои мысли и предоставить более точную информацию.

Fetiska May 17 2024 at 20:10

Полезная статья для понимания, спасибо!

Flokis_guy May 18 2024 at 10:12

Спасибо

snackTate May 18 2024 at 10:12

Первый материал, объясняющий kernel trick практически на пальцах, который я встретил на русском языке. Примите благодарность)

Flokis_guy May 18 2024 at 10:13

Принимаю), спасибо

Oksenija May 18 2024 at 14:05

Есть задача из практически всех курсов по маш. обуч. - распознавание рукописных цифр и там есть и набор данных. И есть примеры готовых решений ML. Автор, вы пробовали добавить туда двойные буквы О и обучить стандартными методами из курсов на распознание обычной О от двойных О (О с ободком)? Возможно всё и так будет работать нормально, то есть вам по хорошему неплохо бы разобраться дает ли фильтрация ядрами какое- либо преимущество?

И если автор сам написал эту статью то почему нет кода на Python?

Flokis_guy May 18 2024 at 15:52

Да, многие алгоритмы машинного обучения справятся с задачей распознавания символов, включая двойные буквы "О". Но позвольте мне прояснить несколько моментов:

Во-первых, метод опорных векторов использует ядерный трюк и является стандартным методом, который часто преподается в курсах по машинному обучению.

Во-вторых, почему надо ограничивать себя определёнными алгоритмами и решениями, только тем, что составили люди в учебной программе? Обобщать информацию, понимать её более интуитивно — это и есть часть успешного обучения. Важно уметь применять знания в различных контекстах и адаптироваться к новым задачам. Это одна из целей статьи. К тому же, судя по фразе — "вам по хорошему неплохо бы разобраться дает ли фильтрация ядрами какое- либо преимущество" показывает что вы не особо знакомы с тем как работает машинное обучение, что нет абсолютно "лучшего" и "худшего", допустим даже если в вашей задаче он и не даст "преимущество", кто сказал что он не нужен, статья не нужна и прочее.

В-третьих, смею предположить, что триггером для написания столь гневного комментария стало первое предложение в статье :), и вы просто не дочитали до пункта "Обобщаем информацию" и саму статью не прочли до конца, иначе не возникло бы таких вопросов.

В-четвёртых, почему в статье про теорию с упрощённой математикой для более низкого порога входа и более интуитивного понимания обязан быть код на Python? Эта статья про математику и теорию, и в последнем абзаце я упоминаю, что практическая часть с примерами кода будет в будущем во 2 части. Это тоже доказывает, что вы не дочитали до конца.

Ну и вообще, я так и не понял, почему возникли сомнения в том, что статью написал я. На основании чего сделан этот вывод?

VladimirLadynev May 20 2024 at 05:38

Спасибо за статью.

Я вообще не разбираюсь в теме статьи, но такое впечатления, что она нуждается в редактуре.

"Возьмем самый простой пример - линейное ядро, оно же скалярное умножение, оно же внутренний продукт."

Получается, что кроме скалярного произведения других линейных ядер быть не может.

"Это и есть наша мера сходства. В контексте линейного ядра её сложно интерпретировать, ибо это проекция одного вектора на другой, умноженная на длину вектора, на который проецируется. Но чем больше само число (скаляр), тем более схожи вектора, и наоборот."

Скорее это к косинусу угла между векторами относится. То есть скалярное произведение надо делить на произведение длинн векторов.

"Что сейчас произошло? Вместо того чтобы переносить наши данные в 3-мерное пространство и вычислять скалярное умножение, мы только что вычислили внутренний продукт в двумерном пространстве и затем возвели сумму в квадрат."

Скалярное произведения, скалярное умножение, внутренний продукт — оставьте во всей статье что-нибудь одно и дайте английский эквивалент: inner dot product.

В одиних формулах у Вас для скалярного произведения используются круглые скобки (.), в других угловые <.>.

"Разложение экспоненты через ряд Тейлора"

Сначала Вы приводите формулу с z и степнью n. Затем степень у Вас обозначается как r. Через z, обычно, обозначается комплексное число.

Надо как-то сделать акцент на том, что ядро — это оператор, который используется для определения сходства.

Flokis_guy May 20 2024 at 10:55

Здравствуйте, спасибо, исправил момент с z, хотя я предполагал что это должно послужить для определения и различия в общем виде и тем что мы подставляем. По поводу линейного ядра я ссылаюсь на Википедию, в контексте этой статьи нас не интересовали многие другие линейные операторы, а так же отрицательно определенные ядра, сам косинус не подходит под эти условия, возможно вы имели ввиду это ядро, но многие из ядер я оставил на 2 часть, и так же понятное дело упущено множество математических аспектов, но это статья не про функциональный анализ и теорию операторов. По поводу "inner dot product", возможно вы правы и немного вышло сумбурно, постараюсь в следующей части избежать такого.

VladimirLadynev May 20 2024 at 17:48

"Возьмем самый простой пример - линейное ядро, оно же скалярное умножение, оно же внутренний продукт."

Я хотел сказать, что эта фраза читается неоднозначно. Я ее понимаю как нет других ядер, кроме скалярного произведения. Более правильно, на мой взгляд: "Возьмем самый простой пример линейного ядра — скалярное произведение".

По Вашей ссылке на Википедию, скалярное произведение приводится как пример линейного ядра.

Я не предлагаю рассматривать cos(x) как пример линейного ядра. Я всего лишь считаю утверждение "но чем больше само число (скаляр), тем более схожи вектора, и наоборот" неверным. Это можно сказать о величине cos(угла между векторами x и y) = (x, y) / (|x| * |y|)

Так же, как я замечал ранее, использование () и <> для обозначения скалярного произведения немного запутывает

VAE May 20 2024 at 12:28

>Интуитивное понимание пространств
Конечных, бесконечных? О каких пространствах идет речь? О линейных алгебраических? О векторных? О пространсве как алгебраической структуре?
Желательно увидеть пример самого пространства, чтобы понять что имеется в виду
>связать многие вещи в машинном обучении в единую картину через пространство,
Опять обращение к пространству (какому?)
>3 ∗ 5 + 4 ∗ 6 и получили 39.Это и есть наша мера сходства.
Эта мера выбрана из каких соображений? Чем не устраивает эквивалентность, толерантность и др. принятые в алгебре?
Надо более строго подходить к излагаемому материалу и к себе, место материала желательно в общей математической картине точно обозначить.
А в целом считаю - автор молодец, взял на себя труд изложить то, что понравилось и кажется понятным самому. Пишите дальше с учетом пожеланий.

Arastas Feb 25 2025 at 21:32

Встретил эту статью месяцы спустя ее публикации. Спасибо, очень познавательно!

Есть вопрос.

Для иллюстрации мы возьмем наш предыдущий датасет make_circles и обучим на нём полносвязную нейронную сеть без функций активации (2 входа, 3 нейрона в скрытом слое, 2 выхода)

А почему два выхода? Нам же нужен один выход определяющий, к какому классу относится точка?

И второй вопрос.

Никто нам не мешает добавить модульность и предварительно обработать данные, используя трюк с ядром. В данном случае мы будем использовать RBF ядро и представим наши данные в бесконечномерном пространстве, надеясь, что там нейросеть без функций активации сможет их классифицировать максимально точно.

Для RBF нам нужно два вектора, x и y. Вектор x это вход, координаты точки, для которой надо определить класс. А откуда берется вектор y и сколько их?