Евклидовое пространство классически требует конечномеронсти. Гильбертово пространство классически требует бесконечномерности и сепарабельности. Не надо их смешивать
Гильбертово пространство не требует сепарабельности, но может иметь её при необходимом и достаточном условии наличия счетного ортонормированного базиса. Гильбертово отличается от Евклидова -мерностью и полнотой по норме, индуцированной скалярным произведением.
Иногда в литературе Евклидово пр-во еще отождествляют с предгильбертовым пространством — не случайно
То есть вместо того, чтобы ограничивать конечный набор базисных функций, берут бесконечный набор, пополняют его и получают гильбертово пространство. При помощи приёмов функана обрабатывают задачу уже в гильбертовом пространстве. И после этого пытаются обратно вернуться к конечном набору (возможно другому)
Кажется, что это больше относится к теоретическим выкладкам, но не практическим: опасно из конечномерной задачки, особенно если данных немного, переходить в бесконечномерное пр-во (и как?), там порешать задачу и вернуться обратно — ошибка может накопиться немаленькая. Если у вас есть такой кейс из практики, то было бы интересно посмотреть на результаты
Но от этого не надо использовать термины почём зря. Тем более, в статье "с основами".
Я бы и рад, но в комментариях все решили высказаться про Гильбертово пространство. Пора уже оставить его.. SVM, вызвавший столько споров в комментах, удобнее было бы употребить в терминах изоморфизма пространств, то есть через: из исходного пространствапереходим в, решаем там задачу и возвращаемся обратно, поскольку подразумеваем, что между ними есть изоморфизм:. Это частый трюк не только в мл, но и в математике
Гильбертово пр-во — обобщение Евклидова, поэтому при его упоминании автоматически подразумевается, что оперируем как минимум над Евклидовым пространством.
Замечу, что классически Гилббертово пространство определяется как бесконечномерное сепарабельное пространство со скалярным произведением. Т.е. Гильбертовость всё подразумевает бесконечномерность
Я соглашусь, что Гильбертово пр-во куда более полезно в теоремах функционального анализа, где нужно четко определять свойства пространства, в котором мы рассматриваем функции. Для ML 99.9999% такой строгости совершенно не нужно, поэтому здесь упоминания Гильбертовых пр-в возникают как любопытная заметка о том, что такое вообще бывает, и что при достаточной "притянутости за уши" можно назвать тот же kernel method переходом в спрямляющее пространство, где удобно оперировать терминами "Гильбертово пр-во" и проч.
Также хочется отметить, что ни у кого, как правило, при использовании методов ML никогда не возникают в голове мысли наподобие:
"Сейчас я буду переходить в Гильбертово пр-во",
"Сейчас я задал метрику, она удовлетворяет всем свойствам, задает мне правильное пространство, и я могу ею точно-точно пользоваться",
— вместо этого берут какой-нибудь подход, алгоритм, метод, шлепают его и смотрят: задача решилась — метрики высокие, лосс упал, обобщающая способность — на высоте, — и после всего этого можно хлопать в ладоши от счастья
Конечно, на ризёрческих позициях очень важно понимать такие детали, поскольку придется эти вопросы так или иначе решать при обосновании новых методов.
Для обычных сценариев применения ML узкоспециализированные знания и уточнения излишни и изыточны
Я осознанно опускал некоторые выкладки и детали, потому что это неизбежно приведет к росту порога входа и усложнит восприятия. Преследовал цель дать обзорматериала, но не претендовал на ВУЗовскую строгость изложения
В ML, как в любой инженерной сфере, всегда куча предположений и упрощений, которые упрощают выкладки и дают возможность приблизиться к решению задачи хоть как-то. Глупо отрицать прогресс LLMок и прочих современных моделей — им никак не помешал тот факт, что мы храним числа не с бесконечной точностью. Более того, современные модели квантуют в числа с еще меньшей точностью, и это тоже не мешает им работать с ожидаемой точностью и результатом.
В самой математике тоже хватает предположений в разных областях. На то это и математика, чтобы там в стерильных условиях доказывать теоремы и создавать аппарат для практических приложений.
Покажите мне хоть 1 пример численных методов, реализованных программно, которые работают с вещественными числами с бесконечной точностью, я буду рад посмотреть.
Из реальных примеров:
Для реконструкции сейсмических данных (сейсмических трасс) вводится предположение, что земля плоская. Иначе выкладки и формулы невыносимо усложняются. Будет ли кто-то здесь с пеной у рта доказывать, что земля не плоская, если эти нейронные модели для сейсмической интерпретации работают и приносят прибыль?
Географические карты имеют сильную погрешность: у полюсов растяжения и искажения больше, чем у экватора. Все равно все ими пользуются
Отказываться от обучения моделей из-за того, что мы не храним числа в бесконечной точности, — крайне необдуманный поступок
Есть еще много других примеров. Поэтому я считаю, что все комментарии про точность вещественных чисел и прочий скептицизм относительно алгоритмов ML — это чистый снобизм, оторванный от реальных сценариев приложения инженерных методов машинного обучения
Я не сторонник перехода на личности, но если у вас карма -24, то это о чем-то говорит
1.
Я могу еще обобщить и умно сказать, что если есть метрика, то есть и топология. Какая вообще разница?
А если такой метрики нет?
Хотел бы я посмотреть на такой сценарий. Если приведете пример, будет прекрасно
Если метрика другая, например расстояние между двумя картинками?
А что, расстояние между картинками — это какой-то экзотический вид метрик? Что такое картинки как математический объект? Похоже, у вас не хватает знаний для ответа на эти вопросы. Это может быть то же самое евклидово расстояние по желанию. Я могу любую метрику вкорячить для сравнения картинок, как это изменит суть дела?
Гильбертово пространство в данном случае это типичный бред никаким образом не имеющий отношение к ML
Я даже не знаю, имеет ли смысл это комментировать. Евклидово пространство — это частный случай Гильбертова пространства. Несколько добавок дают сначала Банахово пр-во, а потом и Гильбертово. Можно бесконечно мусолить теоретические понятия, но как это соотносится с предметом статьи:
минимальный набор знаний, с которым можно будет уже самостоятельно погружаться в более интересные и прикладные сценарии?
Если вам кажется, что приведенное в статье — ненужный "бред гпт", то рекомендую тогда обратиться к другим, более духоскрепным, источникам: труды Фихтенгольца, Зорича, Демидовича, Куроша и т.д.
2.
при каждом запуске обучения будете получать разные минимумы
При запуске обучений всегда присутствует случайность, которую можно фиксировать через seed. При обучении с нуля мы стартуем со случайного состояния, веса инициализируются специальным образом. Это не имеет никакого отношения к типу функции потерь. С чего мы "будем получать разные минимумы при каждом запуске" — функция потерь как-то видоизменяться будет?
3.
слабая зависимость случайных величин это как слабая беременность. Тоже типичный бред, зависимость или есть и тогда нет ЦПТ или зависимости нет и тогда есть ЦПТ в рассуждениях. А слабая зависимость/беременность случайных величин это только у ЧатГПТ
Я бы посмотрел, как вы нашли бы на практике набор данных, которые совершенно не зависимы друг с другом. Это еще раз подчеркивает, что либо вы не понимаете предмет разговора, либо дальше пыльных лекториумов теорию не применяли.
Соответственно, ваши последние 2 предложения тоже не вижу смысла комментировать. Рекомендую перед началом дискуссии сначала удостовериться, что вы понимаете тему разговора, и только потом задавать предметные конкретные вопросы и высказывать критику. Ваши комменты — это набор аллюзий со "слабой беременностью", "бредом гпт" и прочей неподкрепленной фактами фантастикой
Спасибо, рад, что удалось узнать что-то новое из статьи!
Думаю, ключевая идея в том, что почти любой kernel method — это про работу в Гильбертовом пространстве признаков (как, например, с SVM). Есть предметные области, где данные могут уже естественно лежат в Гильбертовом пространстве: например, сигналы (задачи с речью)
Еще есть такой раздел ML, как квантовый ML (QML), там объекты описываются в терминах квантовой механики (волновые функции и т.д.) и потому они автоматически попадают в Гильбертовы пространства
А к чему здесь фраза «компьютеры работают в подмножестве натуральных чисел»? Компы оперируют нулями и единицами на низком уровне, но это мешает использовать вещественные числа в программировании алгоритмов ML
На практике в ML хватает, например, 32, 16 бит для хранения чисел, а то и меньше: fp32, fp16; bf16, int8, …; нет смысла хранить с колоссальной точностью
С неевклидовыми пространствами дела обстоят сложнее, методы там могут применяться немного другие. Например, в том же SVM мы работаем с функциональными пространствами, потому что базис задаем через функции, это уже не Евклидово пространство в своем изначальном понимании (а Гильбертово). Все описанное справедливо в предположении, что мы работаем с Евклидовыми пространствами, а это достаточно широкий класс пространств, которого на этапе погружения в ML более чем достаточно
Если речь про функцию потерь, то замечание хорошее. Но функция потерь может быть как выпуклой, так и Не выпуклой. У выпуклой функции потерь есть лишь единственный глобальный минимум, и нет локальных. На практике ландшафты функции потерь представляют из себя очень шумные поверхности в многомерных пространствах, с огромным количеством локальных минимумов, в которых можно легко застрять
ЦПТ допускает зависимость случайных величин, но она должна быть достаточно слабой. Речи про полную независимость не идет
Гильбертово пространство не требует сепарабельности, но может иметь её при необходимом и достаточном условии наличия счетного ортонормированного базиса. Гильбертово отличается от Евклидова
-мерностью и полнотой по норме, индуцированной скалярным произведением.
Иногда в литературе Евклидово пр-во еще отождествляют с предгильбертовым пространством — не случайно
Кажется, что это больше относится к теоретическим выкладкам, но не практическим: опасно из конечномерной задачки, особенно если данных немного, переходить в бесконечномерное пр-во (и как?), там порешать задачу и вернуться обратно — ошибка может накопиться немаленькая. Если у вас есть такой кейс из практики, то было бы интересно посмотреть на результаты
Я бы и рад, но в комментариях все решили высказаться про Гильбертово пространство. Пора уже оставить его.. SVM, вызвавший столько споров в комментах, удобнее было бы употребить в терминах изоморфизма пространств, то есть через
: из исходного пространства
переходим в
, решаем там задачу и возвращаемся обратно, поскольку подразумеваем, что между ними есть изоморфизм:
. Это частый трюк не только в мл, но и в математике
Гильбертово пр-во — обобщение Евклидова, поэтому при его упоминании автоматически подразумевается, что оперируем как минимум над Евклидовым пространством.
Я соглашусь, что Гильбертово пр-во куда более полезно в теоремах функционального анализа, где нужно четко определять свойства пространства, в котором мы рассматриваем функции. Для ML 99.9999% такой строгости совершенно не нужно, поэтому здесь упоминания Гильбертовых пр-в возникают как любопытная заметка о том, что такое вообще бывает, и что при достаточной "притянутости за уши" можно назвать тот же kernel method переходом в спрямляющее пространство, где удобно оперировать терминами "Гильбертово пр-во" и проч.
Также хочется отметить, что ни у кого, как правило, при использовании методов ML никогда не возникают в голове мысли наподобие:
— вместо этого берут какой-нибудь подход, алгоритм, метод, шлепают его и смотрят: задача решилась — метрики высокие, лосс упал, обобщающая способность — на высоте, — и после всего этого можно хлопать в ладоши от счастья
Для обычных сценариев применения ML узкоспециализированные знания и уточнения излишни и изыточны
Спасибо за замечания!
Я осознанно опускал некоторые выкладки и детали, потому что это неизбежно приведет к росту порога входа и усложнит восприятия. Преследовал цель дать обзор материала, но не претендовал на ВУЗовскую строгость изложения
В ML, как в любой инженерной сфере, всегда куча предположений и упрощений, которые упрощают выкладки и дают возможность приблизиться к решению задачи хоть как-то. Глупо отрицать прогресс LLMок и прочих современных моделей — им никак не помешал тот факт, что мы храним числа не с бесконечной точностью. Более того, современные модели квантуют в числа с еще меньшей точностью, и это тоже не мешает им работать с ожидаемой точностью и результатом.
В самой математике тоже хватает предположений в разных областях. На то это и математика, чтобы там в стерильных условиях доказывать теоремы и создавать аппарат для практических приложений.
Покажите мне хоть 1 пример численных методов, реализованных программно, которые работают с вещественными числами с бесконечной точностью, я буду рад посмотреть.
Из реальных примеров:
Для реконструкции сейсмических данных (сейсмических трасс) вводится предположение, что земля плоская. Иначе выкладки и формулы невыносимо усложняются. Будет ли кто-то здесь с пеной у рта доказывать, что земля не плоская, если эти нейронные модели для сейсмической интерпретации работают и приносят прибыль?
Географические карты имеют сильную погрешность: у полюсов растяжения и искажения больше, чем у экватора. Все равно все ими пользуются
Отказываться от обучения моделей из-за того, что мы не храним числа в бесконечной точности, — крайне необдуманный поступок
Есть еще много других примеров. Поэтому я считаю, что все комментарии про точность вещественных чисел и прочий скептицизм относительно алгоритмов ML — это чистый снобизм, оторванный от реальных сценариев приложения инженерных методов машинного обучения
Я не сторонник перехода на личности, но если у вас карма -24, то это о чем-то говорит
1.
Я могу еще обобщить и умно сказать, что если есть метрика, то есть и топология. Какая вообще разница?
Хотел бы я посмотреть на такой сценарий. Если приведете пример, будет прекрасно
А что, расстояние между картинками — это какой-то экзотический вид метрик? Что такое картинки как математический объект? Похоже, у вас не хватает знаний для ответа на эти вопросы. Это может быть то же самое евклидово расстояние по желанию. Я могу любую метрику вкорячить для сравнения картинок, как это изменит суть дела?
Я даже не знаю, имеет ли смысл это комментировать. Евклидово пространство — это частный случай Гильбертова пространства. Несколько добавок дают сначала Банахово пр-во, а потом и Гильбертово. Можно бесконечно мусолить теоретические понятия, но как это соотносится с предметом статьи:
Если вам кажется, что приведенное в статье — ненужный "бред гпт", то рекомендую тогда обратиться к другим, более духоскрепным, источникам: труды Фихтенгольца, Зорича, Демидовича, Куроша и т.д.
2.
При запуске обучений всегда присутствует случайность, которую можно фиксировать через seed. При обучении с нуля мы стартуем со случайного состояния, веса инициализируются специальным образом. Это не имеет никакого отношения к типу функции потерь. С чего мы "будем получать разные минимумы при каждом запуске" — функция потерь как-то видоизменяться будет?
3.
Я бы посмотрел, как вы нашли бы на практике набор данных, которые совершенно не зависимы друг с другом. Это еще раз подчеркивает, что либо вы не понимаете предмет разговора, либо дальше пыльных лекториумов теорию не применяли.
Соответственно, ваши последние 2 предложения тоже не вижу смысла комментировать. Рекомендую перед началом дискуссии сначала удостовериться, что вы понимаете тему разговора, и только потом задавать предметные конкретные вопросы и высказывать критику. Ваши комменты — это набор аллюзий со "слабой беременностью", "бредом гпт" и прочей неподкрепленной фактами фантастикой
Спасибо, рад, что удалось узнать что-то новое из статьи!
Думаю, ключевая идея в том, что почти любой kernel method — это про работу в Гильбертовом пространстве признаков (как, например, с SVM). Есть предметные области, где данные могут уже естественно лежат в Гильбертовом пространстве: например, сигналы (задачи с речью)
Еще есть такой раздел ML, как квантовый ML (QML), там объекты описываются в терминах квантовой механики (волновые функции и т.д.) и потому они автоматически попадают в Гильбертовы пространства
А к чему здесь фраза «компьютеры работают в подмножестве натуральных чисел»? Компы оперируют нулями и единицами на низком уровне, но это мешает использовать вещественные числа в программировании алгоритмов ML
На практике в ML хватает, например, 32, 16 бит для хранения чисел, а то и меньше: fp32, fp16; bf16, int8, …; нет смысла хранить
с колоссальной точностью
Спасибо за комментарий!
С неевклидовыми пространствами дела обстоят сложнее, методы там могут применяться немного другие. Например, в том же SVM мы работаем с функциональными пространствами, потому что базис задаем через функции, это уже не Евклидово пространство в своем изначальном понимании (а Гильбертово). Все описанное справедливо в предположении, что мы работаем с Евклидовыми пространствами, а это достаточно широкий класс пространств, которого на этапе погружения в ML более чем достаточно
Если речь про функцию потерь, то замечание хорошее. Но функция потерь может быть как выпуклой, так и Не выпуклой. У выпуклой функции потерь есть лишь единственный глобальный минимум, и нет локальных. На практике ландшафты функции потерь представляют из себя очень шумные поверхности в многомерных пространствах, с огромным количеством локальных минимумов, в которых можно легко застрять
ЦПТ допускает зависимость случайных величин, но она должна быть достаточно слабой. Речи про полную независимость не идет