tac21 окт 2025 в 03:40

Обучение скрытых слоёв S–A–R перцептрона без вычисления градиентов. Часть 2

Средний

6 мин

4.1K

Машинное обучение * Алгоритмы * Обработка изображений *

Аналитика

Recovery Mode

Комментарии 23

VDG 24 окт 2025 в 05:33

при 30к нейронах лучший результат прогнозирования 177 ошибок (98,23%).

Выше головы не прыгнешь, это было понятно ещё с первой статьи. При этом оверхед потребления нейронов.

tac 24 окт 2025 в 14:10

Да, очень хороший результат, аналогичный MLP + backprop

dimonz80 26 окт 2025 в 10:10

30к нейронов - хороший для MNIST? Вот щас прям самодельный MLP

784 x 48: Relu
48 x 128: Relu
128 x 10: Linear

бэкпропом (SGD + импульс) обучился до 98,14% на тестовой (10к) выборке (на обучающей 60к - 100%) за 350 эпох и 280 сек в один поток на CPU

tac 26 окт 2025 в 13:25

исходники выложи, тогда посмотрим (люблю я эти преувеличения, и когда сравнивают хрен с редькой), выложишь перепроверю. И даже если так, это хороший результат. Адекватно, думать надо. Хотя уверен, что что-то недоговариваете. Просто было тут много фейкометов, которые на проверку оказались несостоятельными.

dimonz80 27 окт 2025 в 04:08

https://github.com/dimonz80/go_neuro запилил на гошечке. правда без моментума но тоже обучается норм

tac 27 окт 2025 в 06:09

ну не, на это у меня нет времени ... Си, С#, Питон на крайняк ... ну или к новому году доберусь ))

dimonz80 27 окт 2025 в 07:21

Ой всё! Go - это такой С со сборщиком мусора. MPL из ссылки на Github - это второе что я сделал на Го после Хэлло волрда. Запустить это проще простого: качаем Го, распаковываем в папочку, прописываем в $PATH и в папке с проектом делаем go run .

tac 27 окт 2025 в 06:46

чтобы понимали в каких пределах у нас расхождения, у меня есть реализация бэкпропа на питоне (дал, кто-то из форумчан, который тоже вдохновился спорить:) ) , на вашей архитектуре 784-48-128-10 он дает порядка 96% точности после 370 итераций. Но это не аргмакс, а то, что выше в статье E_hard

tac 27 окт 2025 в 07:02

97,5 % по аргмаксу типичный результат бэкпропа

во всех остальных случаях, вы или использовали предобработку или вам попался хороший seed рандома, ну или поздравляю совравши

Но главного вы так и не поняли, это новый алгоритм, без вычисления градиента, поэтому даже если он пока чуть хуже (хотя это и не так сейчас, разве что CNN и WRN - вот где оверхед нейронов - чуток лучше) - он не требует вычисления производных ...

dimonz80 27 окт 2025 в 07:18

Да я не спорю, карта могла так лечь, что выдало более 98%. Меня больше стриггерили 30к нейронов) Хотя после 95% каждый следующий процент дается кратным увеличением числа нейронов. 95% запросто получаем и с одним скрытым слоем из 32 нейронов за несколько эпох.

tac 27 окт 2025 в 07:24

Во-первых, 30к это вырвано из контекста, там же видно, что 10к - 20к -30к - разница не большая. Во-вторых, нейрон перцептрона и нейрон бэкпропа это две большие разницы. Их смело можно рассматривать как 1 к 1000 (по вычислительной нагрузке).

dimonz80 27 окт 2025 в 07:41

Для меня что 30к что 10к звучит устрашающе, если речь об учебно-спортивной выборке типа NMIST)

dimonz80 27 окт 2025 в 07:50

Их смело можно рассматривать как 1 к 1000

Ну учитывая что ф-ия активации пороговая, в этом есть логика. Для MLP сложные функции активации типа синуса или вейвлета могут давать сопоставимый с Relu или сигмойдой результат при меньшем кол-ве нейронов (или ваще недостижимый) для некоторых задач.

dimonz80 27 окт 2025 в 08:00

да понимаю я, сам игрался монте-карлами и прочими эмитациями отжига) это здорово что кто-не не в мэйнстриме пытается что-то делать. Для любителей нестандартного есть еще машина Цетлина.

tac 27 окт 2025 в 14:37

что же Вы тогда не реализовали перцептрон?

dimonz80 27 окт 2025 в 21:56

Машина Цетлина интереснее

tac 28 окт 2025 в 11:47

Поправь меня, если я не прав - Машина Цетлина это тот же перцептрон Розенблатта, на пороговых элементах, но только со стахостическим обучением, если не путаю, Розенблатт это называл S-управляемой системой, что потом использовал Хопфилд .. т.е. по сути ничего нового

dimonz80 28 окт 2025 в 15:16

Не) Похоже только тем что в некоторой степени тоже пороговые (на самом деле однобитные) элементы и обучение стохастическое. Там вход приводится к бинарной (битовой) форме, а решение ищется в виде дизъюнктивной нормальной формы от входа. В процессе обучения используется автомат Ценлина - по сути счетчик с порогом срабатывания. Ссылка на архиворг https://arxiv.org/pdf/1804.01508 . Преимущества по сравнению с персептронами - типа интерпертируемость (т.к. ДНФ от входов - сомнительно при большом кол-ве входов и литералов), очень быстрый инференс и простота для аппартной реализации, т.к. при инференсе используется только простые битовые операции.

Эту тему пиарят какие-то чуваки из Норверии и вроде на FPGA и ASIC чего-то пытаются делать. И даже книжку пишут https://tsetlinmachine.org/. Интересно, кароче, хотя бы не булщит про LLM

BooBSD 9 фев в 11:32

Fuzzy-Pattern Tsetlin Machine даже пытается посимвольно текст генерировать:

ROMEO: The father's death, And then I shall be so; For I have done that was a queen, That I may be so, my lord. JULIET: I would have should be so, for the prince, And then I shall be so; For the princely father with the princess, And then I shall be the virtue of your soul, Which your son,-- ESCALUS: What, what should be particular me to death. BUCKINGHAM: God save the queen's proclaim'd: Come, come, the Duke of York. KING EDWARD IV: So do I do not know the prince, And then I shall be so, and such a part. KING RICHARD III: Shall I be some confess the state, Which way the sun the prince's dead; And then I will be so.

https://github.com/BooBSD/Tsetlin.jl

tac 29 окт 2025 в 21:44

К вопросу о переобучении перцептрона, как видим он не переобучается

tac 3 ноя 2025 в 19:34

dimonz80 5 ноя 2025 в 03:33

tac 6 ноя 2025 в 23:43

Мы просто обсуждаем в другом месте, а тут удобно делать выгружать графики. Все кому интересно могу пригласить сюда https://dxdy.ru/topic161852.html

Зарегистрируйтесь на Хабре, чтобы оставить комментарий