mephistopheies 15 окт 2012 в 15:39

Алгоритм обратного распространения ошибки с регуляризацией на c#

14 мин

84K

.NET*Data Mining*

+24

Комментарии 46

EllaVS 15 окт 2012 в 15:53

Увидела формулы, мне стало плохо и я поняла, насколько я тупая :((

mephistopheies 15 окт 2012 в 16:09

тщетно бытие -)

StrangeAttractor 16 окт 2012 в 00:48

Да, смотрится внушительно.

tac 15 окт 2012 в 16:28

Хорошо бы ссылку, чтобы скачать целиком код

mephistopheies 15 окт 2012 в 17:30

docs.google.com/open?id=0B4bl7YMqDnViVUlFSURWalZNcFk

Krofes 15 окт 2012 в 16:32

Вы — большой молодец. Разложили по полочкам.
Кстати, вам не попадались статьи со сравнением скорости работы различных алгоритмов обучения? Хотя бы применительно к какой-то конкретной задаче. Было бы интересно сравнить.

mephistopheies 15 окт 2012 в 16:35

не попадались, все хочется почитать про всякие другие крутые алгоритмы, но не доходят руки. оправдываю себя тем, что если градиентный спуск работает на задаче плохо, то замена алгоритма если и улучшит качество, то не сильно, лучше копаться в структуре сети и в других параметрах. ну это чисто интуитивное наблюдение

mephistopheies 15 окт 2012 в 16:43

ну да и обратная сторона, если градиентный спуск дал хороший результат то и более крутой алгоритм даст хороший, и может чуть лучше. проверял на задаче OCR. в сами эти модные алгоритмы не вникал, брал готовые на матлабе

masai 15 окт 2012 в 22:56

если градиентный спуск дал хороший результат то и более крутой алгоритм даст хороший

Это определение «более крутого алгоритма». :)

Krofes 15 окт 2012 в 16:46

По-идее, алгоритм обучения на качестве никак особо не может сказаться. Точнее, сеть либо будет обучена, либо не будет.
А вот на «толстых» задачах с входными векторами больших размерностей и со сложной топологией сети смена алгоритма может дать ощутимый прирост в скорости обучения.
Это если говорить про перцептроны, конечно. В других моделях свои нюансы.

mephistopheies 15 окт 2012 в 16:52

да на счет скорости мое империческое правило не распространяется -) все новые алгоритмы она как раз на ускорение заточены

Точнее, сеть либо будет обучена, либо не будет.

а это как? какой критерий обученности сети? по идее сеть с рандомными параметрами уже обучена, просто хренова -) сеть останавливает обучение как только попадает в некий локальный минимум (ну в общем случае, может есть алгоритм какой нибудь который видит «дальше» локальных), а вот уже в каком минимуме она остановится зависит в том числе и от алгоритма. но не только. начальная инициализация весов тоже крайне важна.

в общем состояние обученности это не однозначное состояние -)

Krofes 15 окт 2012 в 17:29

Ну да, я не совсем корректно выразился. Имел ввиду про локальный минимум.
Да, все весьма относительно в плане обученности сети :)

masai 15 окт 2012 в 22:55

все новые алгоритмы она как раз на ускорение заточены

Точнее, на получение хорошего ответа за приемлемое время. Акцент всё же на точности, а не на скорости.

сеть останавливает обучение как только попадает в некий локальный минимум

Или в длинный овраг с маленьким градиентом

ну в общем случае, может есть алгоритм какой нибудь который видит «дальше» локальных

Есть методы глобальной оптимизации. Но по понятным причинам, они медленные.

mephistopheies 16 окт 2012 в 00:22

Есть методы глобальной оптимизации. Но по понятным причинам, они медленные.

наверное ооооочень медленные -)

masai 16 окт 2012 в 21:31

А то! Ещё и не факт, что сойдутся. Проблема в общем не решается.

masai 15 окт 2012 в 22:59

По-идее, алгоритм обучения на качестве никак особо не может сказаться. Точнее, сеть либо будет обучена, либо не будет.

С плохим алгоритмом сеть свалится в первый попавшийся локальный минимум. Или будет обучаться годами.

StrangeAttractor 16 окт 2012 в 00:57

Кстати, вам не попадались статьи со сравнением скорости работы различных алгоритмов обучения? Хотя бы применительно к какой-то конкретной задаче.

Кстати, может кто знает. Юзал для нейросетей на Java Encog (вроде самый быстрый из NS-фрэймворков для Java, на C# он тоже есть) и пытался приметить обучение через Levenberg-Marquardt (вроде самый быстрый метод, на примитивных тестовых задачах отрабатывает на порядки быстрее, чем Resilient Propagation). Так вот какую бы реальную задачу (а это у меня всегда как минимум несколько десятков входных нейронов) я ни пытался так решать сетью с таким методом обучения, всегда отказывается тренироваться, ссылаясь на нехватку памяти (а 2 гига я ей выделяю спокойно). Так вот интересно: сколько входных нейронов ей можно подсунуть так, чтобы она не поперхнулась?

nternovoy 15 окт 2012 в 16:35

Отличное изложение!
Очень похоже на то, как объясняли в Стенфордском курсе.

mephistopheies 15 окт 2012 в 16:36

мл прошел -)

НЛО прилетело и опубликовало эту надпись здесь

mephistopheies 15 окт 2012 в 18:20

честно говоря первый раз слышу -) а что это? случаем не там где learning rate изменяется динамически?

НЛО прилетело и опубликовало эту надпись здесь

mephistopheies 15 окт 2012 в 18:36

ну как освою тогда напишу сюда -) давно хочу изучить способ динамического изменения скорости обучения. каким нибудь не тупым способом типа равномерно уменьшать при увеличении итераций

KvanTTT 15 окт 2012 в 18:47

Ну все, вы попали. Я вас заплюсовал.

wladimir90 15 окт 2012 в 20:53

Большое спасибо! Весьма мало таких статей где мат. формулы поясняются в виде кода — а это очень ценно! (Тем более c#).

mephistopheies 15 окт 2012 в 21:03

это и есть цель — показать наглядно -) графикой не умею, так что показываю кодом -)

wladimir90 15 окт 2012 в 23:31

Графикой не передать суть :)
Код. Только код. :)

masai 17 окт 2012 в 11:43

С кодом часто есть риск за деревьями не увидеть леса.

wladimir90 17 окт 2012 в 12:46

С картинками часто есть риск за водой не увидеть ничего.

tac 15 окт 2012 в 22:38

Хотел бы вам (автору) предложить прочитать одну мою статью здесь Резюме проблемы «двух и более учителей» и субъективное мнение о ИИ-сообществе. Там есть заголовок «Задача». Можете вашей реализацией решить поставленную там тестовую задачу и показать результат в аналогичном виде. Было бы интересно сравнить. (К сожалению, я сейчас занят другим и думаю руки дойдут до этого не скоро). Ниже в комментариях, есть еще один вариант реализации вроде как тоже с BackProp, но там без исходников — поэтому доверия меньше.

mephistopheies 16 окт 2012 в 00:51

попробую на днях, а так сходу отвечу что решит наверняка. еще в 1969 году… а лучще я цитату с педивикии приведу -)

В 1969 году Марвин Минский и Сеймур Паперт опубликовали книгу «Перцептроны», где математически показали, что перцептроны, подобные розенблаттовским, принципиально не в состоянии выполнять многие из тех функций, которые хотели получить от перцептронов.

так что если вы применяли именно персептрон, то вполне он мог и не решить задачу

tac 16 окт 2012 в 01:15

Про Минского вы зря :)… то о чем говорил Минский ровно также относится и к BackProp… но тут речь совсем о другом…

Вопрос не в том решит или нет (оба варианта решают задачу на раз). Вопрос как решит.

mephistopheies 16 окт 2012 в 01:17

а я и не сказал что Минский писал про бэкпроп, он писал про персептрон, и вы используете персептрон, вы даете не полные данные, он не обучается. можно предположить что это как то связанно -)

tac 16 окт 2012 в 01:34

Вы пишите не о чем. Минского вы же не читали :) он писал и о том и о другом, кстати… про перцептрон Розенблатта, конечно, больше.

Дальше вообще странная фраза «вы даете не полные данные, он не обучается», какие данные ?, почему не обучается? Я ему даю все, что надо и он замечательно обучается. Похоже Вы чего-то не поняли… но я не понимаю что.

mephistopheies 16 окт 2012 в 01:39

не читал, но то о чем он пишет можно узнать и по другому -)

да вероятно не понял задачу

Но когда всё известно нет места для прогноза. Поэтому давайте уберем каждую вторую точку

убрав каждуй вторую точку и попросив персептрон обобщить оставшиеся, это разве то? вы даете ему часть инфы, просите обобщить. и задача в том, сможет ли это обобщить другая модель, и на сколько лучше/хуже. в общем я так это понял.

tac 16 окт 2012 в 01:49

Нет, по другому узнать не возможно, по другому вы узнаете то, что он никогда не писал, а то, что ряд сказочников придумал, что он писал :)

«убрав каждуй вторую точку и попросив персептрон обобщить»

Это стандартная постановка задачи для ЛЮБОЙ нейронной сети — задача прогнозирования. Что вас смущает? Известно, что перцептрон Розенблатта и MLP+BackProp — это делает… вопрос в деталях… они мне и интересны.

mephistopheies 16 окт 2012 в 01:53

Нет, по другому узнать не возможно, по другому вы узнаете то, что он никогда не писал, а то, что ряд сказочников придумал, что он писал :)

ну если никому не верить то жизни не хватит что бы освоить даже часть того что хотелось бы, да и весь научный мир уже рухнул бы, почему вот вы пишите про математику что то? читали гильберта или минковского? а то как же верить в функциональный анализ -) или я читал пару книжек про эволюцию, докинза там всякого, но дарвина не читал, что теперь мне и в это не верить -)

ну на счет картинки я написал, что попробую на днях проверить -)

tac 16 окт 2012 в 01:56

ок, просто то, что касается Минского — будьте осторожны, там все не так просто, как кажется на первый взгляд.

Мне интересно число ошибок при этом — отдельно для обучающей выборки, отдельно для тестовой, возможность безошибочного обучения на обучающей выборке, а также распределение ошибок по квадрату.

tac 16 окт 2012 в 02:07

И да еще. Мне на самом деле важно, то как вы закодируете — там есть два способа: один в точности как я написал: «будем иметь БИНАРНЫХ 16 входов и 256 выходов в перцептроне», и то как упростил ererer «десятичные два входа и один выход».

Holms 15 окт 2012 в 23:17

Вы забыли главное, показать, имплементировать практическое применение и расказать почему именно ваша сеть лучше других, без этого смахивает на очередную лабу из политеха.

mephistopheies 16 окт 2012 в 00:24

это не моя сеть -) это просто сеть, а на ней просто алгоритм градиентного спуска, ничего особенного

GraDea 16 окт 2012 в 00:09

Насколько большим может быть размеры первого и последнего слоев? Как решается задача классификации текстов с помощью нейронных сетей? Как я понял на вход подается вес каждого слова из корпуса, а размер последнего слоя равен количеству категорий.

mephistopheies 16 окт 2012 в 00:32

это уже тема отдельных статей.

последний — это размерность выходного вектора, она задана обычно условием задачи оптимизации

первый-второй-и_т.д. — тут трудно ответить, нет точного решения, есть куча статей с эмпирическими методами, но все это просто рекомендации, а не жесткие требования. во многих книжках любят писать что это как искусство, спроектировать правильную сеть. с этим трудно согласиться, но на текущем этапе развития все темы, нету точных правил проектирования сети, и приходится экспериментировать.

про тексты. размер последнего — да, количество категорий. входной вектор — это например бинарный вектор из всего словаря, где 1 если слово есть в тексте, а 0 если нет. можно вектор фич по другому построить. количество скрытых слоев и их размер на ваш выбор.

xgraven 19 ноя 2012 в 19:45

в самой первой формуле случайно нет ошибки? может x_ i (а не x_ j)?

mephistopheies 19 ноя 2012 в 20:01

спс, поправил. прикольно что только спустя столько времени была замечена опечатка =) поздавляю! вы походу первый кто при чтении вникал =)

xgraven 20 ноя 2012 в 11:17

Давно не был на хабре, просто читал все посты подряд, а тут ваш. Приятные воспоминания, лет 15 назад тоже кодил бэкпроп. Правда ничего серьезного, просто ради развлечения, эх, молодость =)))

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Показать лучшие за всё время

Алгоритм обратного распространения ошибки с регуляризацией на c#

Комментарии 46

Публикации

Истории