Zachar_5 12 июл 2017 в 23:39

Метод безытеративного обучения однослойной сети прямого распространения с линейной активационной функцией

2 мин

7.3K

Комментарии 38

qrck13 13 июл 2017 в 00:42

Во первых это не персептрон, по определению. Perception должен порождать двоичную классификацию входных данных: либо данные принадлежат к какому-то классу, либо не принадлежат. Ну либо у нас нет уверенности в классификации и тогда на выходе что-то посрединке между 0 и 1.
По этому линейную функцию активации ну просто никак нельзя использовать. Можно использовать либо ступенчатую функцию, либо сигмоид, либо что-то аналогичное.

Ну а систему уравнений вы решили да, правильно. Только к нейронным сетям это не имеет отношения.

Zachar_5 13 июл 2017 в 01:10

Я понял в чем ошибка. Иногда использую как синонимы, песептрон и сеть прямого распространения. Вообще да, правильнее это было бы назвать взвешенным сумматором. Сейчас исправлю. Есть идеи по обучению сети с сигмоидальной активационной функцией. Но там не все так однозначно. В ближайшее время думаю выложить.

mbait 13 июл 2017 в 01:12

А разве решение СЛАУ не будет итеративным? Вообще, о каких итерациях идёт речь? Если взять размер mini-batch равным размеру всей обучающей выборки, это будет считаться безитерационным обучением?

Zachar_5 13 июл 2017 в 01:22

Имеется ввиду, что методы оптимизации итеративно приближают ошибку к минимуму, т.е. на каждой итерации алгоритм все ближе подходит к минимуму и в общем случае не достигает его. При решении СЛАУ методом Крамера мы сразу получаем значения весов которые приводят в минимум, т.е. при первой прогонки алгоритма.
На слайде показано обучение 2-х слойной НС, зависимость ошибки от итерации.

mbait 13 июл 2017 в 02:01

Хорошо, а чем ваш подход лучше? Метод Крамера это самый неэффективный метод. Для эффективного решения вам придётся или находить факторизацию матрицы, или использовать всё те же итерационные методы, для которых, ко всему прочему, матрицу придётся ещё и обуславливать.

Zachar_5 13 июл 2017 в 08:21

"Хорошо, а чем ваш подход лучше?" — не знаю, возможно, что ничем. Как протестирую напишу. Просто была идея, я ее описал и все. Для небольшого кол-ва входов ожидается бОльшая скорость обучения и возможно, обучение будет точнее.

"Метод Крамера это самый неэффективный метод." — я знаю, я в статье написал, что метод Гаусса лучше.

Хотя там ожидаются матрицы 5х5, 10х10, думаю, и Крамером нормально будет. После тестирования отпишусь.

AC130 13 июл 2017 в 10:22

А зачем брать мини-батчи? Коэффициенты СЛАУ можно же посчитать сразу по всей выборке, это просто операция суммирования. Решение СЛАУ будет итеративным если размерность пространства фич m будет большой. Если она маленькая, то можно использовать LU разложение.

Arastas 13 июл 2017 в 01:48

Вы изобретаете заново метод наименьших квадратов в задаче линейной регрессии. Почему, кстати, у Вас матрица A квадратная?

Zachar_5 13 июл 2017 в 08:13

Квадратная т.к. оба индекса j,k "пробегают" значения от 1 до m. Где m — кол-во входов. k — количество уравнений в системе.

Arastas 13 июл 2017 в 09:44

Хорошо. А почему число уравненийй от 1 до m, а не до n?

AC130 13 июл 2017 в 10:23

Для нахождения m коэффициентов \omega_k нужно m линейных уравнений.

Arastas 13 июл 2017 в 13:46

Хорошо. А что с остальными n-m уравнениями? Просто отбросим и не будем учитывать содержащуюся в них информацию?

-1

AC130 13 июл 2017 в 14:25

Простите, их там нет. Автор берёт m производных таргет-функции по \omega_k, приравнивает каждую к 0 и получает таким образом ровно m линейных уравнений. Если вы знаете способ добавить дополнительные уравнения, то опишите его, пожалуйста.

Arastas 14 июл 2017 в 02:09

Все, я увидел, он эти данные включает внутрь коэффициентов матрицы. Непривычная мне запись.

daiver19 13 июл 2017 в 06:15

А именно, с однослойной сети прямого распространения с линейной активационной функцией, взвешенного сумматора.

AKA линейная регрессия. Вот же людям задурили головы этими нейросетями, что они им везде мерещятся. Вы бы хоть ознакомились с предметом для начала.

Ну и да, вы вроде собрались строить в памяти матрицу всех входных данных (N^2, на секундочку) да еще и решать её потом, а это O(n^3) для метода Гаусса.

И последнее: регрессию уже давно умеют решать очень эффективно, вплоть до терабайтов данных и миллионов весов.

Zachar_5 13 июл 2017 в 08:06

1) Таких решений для множественной регрессии я не видел(если есть скиньте ссылку на статью).
2) Тут N — это не мощность обучающей выборки, а количество входов, если их около 10, то метод может работать быстрее градиентных.
3) Да это с трудом можно назвать нейронной сетью, просто в дальнейшим планирую писать про обучение с разными ф-ями активации. И отдельно рассмотреть сверточные слои. Просто нужно было от чего-то отталкиваться. А это самый простой пример, не более того.

daiver19 13 июл 2017 в 08:45

Я тоже много каких решений не видел, но это же не значит, что они эффективны. Неn, если вы придумаете быстрый метод обучения НС, то будет здорово. Но это явно не то. Регрессия должна эффективно работать с большим количеством весов и кубическая сложность даже от веса — это слишком много (я уже молчу о динамическом обучении). А вот расширить этот метод для НС вряд ли выйдет.

AC130 13 июл 2017 в 10:31

Не буду высказывать свои сомнения по поводу вашего метода, выше уже отписались, и я полностью согласен что пока это просто регрессия. Надеюсь, в будущих публикациях тема раскроется.

Пока немного позанудствую по формулам:
1) В выражении для ошибки вы написали сумму от i до m, а не от 1 до m.
2) В том же выражении: если вы используете индекс i для точек выборки и пишете его при переменной x сверху, то можно и при переменной y писать его сверху.
3) В выражении для производной вы берёте производную не по \omega_j, а по \omega_k.

Спасибо! Жду следующую статью.

Zachar_5 13 июл 2017 в 11:13

Спасибо за замечания, сейчас исправлю.
1) Опечатка.
2) Тут i означает i-й вектор x. A "y" число, но лучше действительно так, тут просто цель была показать что y_i не вектор, а число.
3) В тетради, где выводил, было \omega_j, а когда начал переписывать, подумал, что индекс j занят и написал k.

Zachar_5 13 июл 2017 в 11:20

Да, понял, про что Вы. Я там писал k, потом видно, когда перепроверял изменил на j.

Zachar_5 17 июл 2017 в 00:57

https://habrahabr.ru/post/333382 — следующая статья.

Arseny_Info 13 июл 2017 в 10:41

Итеративное обучение на основе градиентного спуска позволяет обучаться на любых больших наборах данных благодаря мини-батчам. Не надо рассматривать итеративность как недостаток.

Zachar_5 13 июл 2017 в 11:02

Так тут тоже коэффициенты матрицы рассчитываются по большим наборам данных.

masai 13 июл 2017 в 11:01

Погуглите «нормальное уравнение» — это одна формула в явном виде для решения вашей задачи (линейная регрессия с наименьшими квадратами).

Zachar_5 13 июл 2017 в 11:06

Да, но там везде функция ОДНОЙ переменной, здесь же многих. Как я писал выше, если есть такое решение, то скиньте мне статью/учебник, в общем, то где она описана.

alexeykuzmin0 13 июл 2017 в 13:22

У нас такое было много лет назад на лекциях Воронцова. Вот методичка: pdf. Читайте параграфы 5.1 и 5.3.

masai 14 июл 2017 в 10:35

Неважно, сколько там переменных, формула не меняется. Вот статья с объяснением.

Zachar_5 14 июл 2017 в 12:16

Спасибо! Интересная статья, решили они по другому, но смысл тот же.

mbrdancer 13 июл 2017 в 12:49

Независимо от того, что СЛАУ решено катастрофически неоптимально (ну и пусть, можно же решение заменить потом, это техническая деталь), я все-таки принципиально не вижу потенциала для реализации безытеративного обучения.
Вот взята задача, эквивалентная линейной регрессии с квадратичной функцией потерь. Известно, что с точки зрения оптимизации она выпуклая, поэтому мы и можем применить решение СЛАУ и «обучить» такую модель в один проход.

Проблема-то в том, что принципиально подавляющее большинство современных моделей невыпуклые для оптимизации. За пределами технических подробностей, как мне кажется, не освещена главная деталь: где в описываемом методе ресурс для безытеративной оптимизации (многомерных, но это не слишком важно) невыпуклых задач? Машинное обучение тут ни при чем — это вопрос из методов оптимизации. Намек: итеративные методы существуют не от хорошей жизни…

Впрочем, если на этот вопрос у автора есть ответ, — пожалуй, я буду с нетерпением следить за его публикациями. Нобелевки по математике нет, но есть куча других не менее достойных премий.

alexeykuzmin0 13 июл 2017 в 13:23

Да, если автор сможет подобный подход применить к какой-то более гибкой модели, это будет офигеть. Будем ждать новых статей цикла!

Zachar_5 17 июл 2017 в 00:58

https://habrahabr.ru/post/333382 — новая статья.

Zachar_5 17 июл 2017 в 01:01

Я не собирался решать СЛАУ, просто показал на простом примере откуда взялся вектор B и матрица A, что будет использовано в дальнейшем. Про использование вектора B я написал тут: https://habrahabr.ru/post/333382

kadmy 13 июл 2017 в 12:58

Добрый день, статья хорошая, только надо было сначала это реализовать а потом писать. Сделаю несколько замечаний.
1 Учесть нелинейную функцию активации в данном случае очень просто, например если используете гиперболический тангенс — нужно просто взять арктангенс от выходных данных.
2 Если y= W*X то W = y*pinv(X). pinv(X) — это псевдообратная матрица она не обязательно квадратная и всегда имеет единственное решение для любого X. Если X'*X невырожденная — то pinv(X) = (X'*X)^-1*X'
3 Решение эквивалентно поиску минимума методом наименьших квадратов, но это хорошая идея для многослойных сетей, а для однослойной нет. Если вы просто сложите все данные по классам (для mnist все единички, двоечки и т.п) и используете эти данные в качестве весов то получите после нормировки лучший результат.
4 И самое интересное — расширить этот метод на многослойные сети можно. Только дляучета нелинейности без итераций не обойтись. Просто в методе градиентного спуска там где идет умножение на выходные значения слоя исользуйте pinv. Только придется одну итерацию использовать для оптимизации весов одного слоя иначе значения весов расходятся. Это хороший метод ня небольших сетей, так как очень быстро учится, но для больших вычислительная сложность становится такой что градиентный спуск лучше.

Zachar_5 13 июл 2017 в 13:00

Спасибо за дополнение! Тут проблема в другом нужно доказать, что производная равна нулю в минимуме.(это я про нелинейные ф-и)

kadmy 13 июл 2017 в 13:13

Не понял, производная всегда равна нулю в экстремуме. Другое дело что их может быть много. Для однослойной сети и наименьших квадратов минимум один. Если слоев больше тогда не факт. Сойдется не обязательно в самом низком

Zachar_5 13 июл 2017 в 14:41

Если ф-я ограничена сверху и снизу, то 0 производной будет как в минимуме, так и в максимуме.

kadmy 13 июл 2017 в 14:58

В случае такой функции конечно. Я имел в виду функции у которых обратная имеет единственное значение на всей области определения, монотонно возрастающие или убывающие например tanh или 1/(1-e^-x). relu и пороговая не подойдут, так как если попасть в точку где производная равна нулю то вообще непонятно в какую сторону веса изменять.

a_tito_v 16 июл 2017 в 11:41

Уровень современной персептронизации поражает.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Метод безытеративного обучения однослойной сети прямого распространения с линейной активационной функцией

Комментарии 38

Публикации

Истории