egaoharu_kensei10 мая 2024 в 18:29

Методы оптимизации в машинном и глубоком обучении. От простого к сложному

Сложный

29 мин

50K

Python * Data Mining * Математика * Машинное обучение * Искусственный интеллект

Туториал

✏️ Технотекст 7

+29

Комментарии 7

Flokis_guy 11 мая 2024 в 09:04

Статья очень качественная как всегда, но хотелось бы видеть ещё про Lion от Google Brain который использует генетические алгоритмы, ибо по их исследованию он значительно лучше чем Adam(W).

egaoharu_kensei 11 мая 2024 в 10:49

Спасибо :). Честно говоря, изначально я планировал рассказать про большее количество алгоритмов (в том числе и про не градиентные методы, а также про самые последние оптимизаторы) с их реализацией с нуля на питоне, но в последний момент решил этого не делать. Дело в том, что очень часто бывает так, что на бумаге алгоритм работает хорошо, а через год-два появляются контрпримеры, на которых ломаются его доказательства. Обычно проходит несколько лет, чтобы оптимизатор хорошо зарекомендовал себя на практике.

Такое явление даже можно встретить в учебных пособиях от более опытных авторов, когда в более поздних изданиях они просят забыть про то, что говорили ранее, поэтому я решил обойтись наиболее важными концепциями, чтобы потом случайно никого не ввести в заблуждение. Возможно, в будущем выпущу ещё одну статью на эту тему, но это не точно :)

DarkSold 14 мая 2024 в 12:24

Спасибо за статью! Бриллиант среди работ тут. Согласен с комментатором выше, хотелось бы услышать про современные подходы по оптимизации, например AdaBelief - за 4 года пока не видел статей с его недостатками)

egaoharu_kensei 14 мая 2024 в 12:56

Спасибо :) Возможно, в будущем выпущу ещё одну статью, если будет большая активность со стороны аудитории на эту тему. К сожалению, пока что на это нет времени, поскольку на данный момент я работаю над другими статьями и проектами.

flamehj 19 мая 2024 в 16:11

Только SVD - это сингулярное разложение, а не спектральное, но из него можно получить спектральное. В остальном очень интересно, спасибо

egaoharu_kensei 20 мая 2024 в 20:16

Всё верно, просто возникло недопонимание). По сути, SVD является обобщением спектрального разложения и одним из его популярных примеров. Проще говоря, в скобках SVD указан не как расшифровка, а как один из примеров. Этот момент я только что подправил в статье, чтобы не было недопониманий. Спасибо за хорошее замечание.

К слову, такого рода "странные" обозначения иногда встречаются в статьях по ML, например, как в предпоследней из дополнительных источников.

interesting-cs-math 19 фев в 18:30

Небольшое техническое исправление:

"называется вектором первого момента, поскольку масса в данном случае равна 1".
Здесь нужно исправить, что "первый момент" не потому, что масса равна 1.

Вектор первого момента — это «взвешенная сумма положений», показывающая, в какую сторону и как далеко смещено основное количество массы относительно начала координат.

Вектор первого момента — это векторная величина, компоненты которой являются первыми моментами распределения (массы, вероятности, яркости) по соответствующим осям координат. Он указывает на центр тяжести этого распределения.

По аналогии (чтобы понять смысл):

В физике твёрдого тела аналогом «второго момента» является тензор инерции.

Его компоненты содержат произведения координат (x^2,y^2,z^2,xy,xz,yzx^2,y^2,z^2,xy,xz,yz), умноженные на массы.

В статистике и теории вероятностей (Матрица ковариации)

Здесь «второй момент» случайного вектора — это матрица ковариации (или корреляции).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий