@tac22 сен в 17:59

Перцептрон SAAR (само-рекурсивный ассоциативно адаптивный резервуар)

Средний

7 мин

7.3K

Машинное обучение * Алгоритмы * Data Mining *

Recovery Mode

Комментарии 19

@Politura 22 сен в 19:20

Спасибо! Только где результаты? В которых вы показываете, как вы его чему-нибудь научили и он это что-то успешно делает.

@tac 22 сен в 19:34

Эко Вы быстрый :) это много букв, не всё сразу .. ну, и потом, вначале с мат. частью нужно таким как вы разобраться.

Давайте вот, что адекватно относится к результатам. Между in vitro и in vivo большая пропасть, но без первого никогда не бывает второго.

Тестировал я его на задаче четность до 16 бит. Но любой может мне написать и помочь в дальнейшем его развитии. Именно, так это работает. И кстати, посмотрите оригинальную статью о backpropagation - какие там были представлены результаты, вы наверно к своему удивлению обнаружите, что ничего большего, чем решение задачи XOR и четность с 4 битами :) И вот за это дали нобелевку, а вы говорите результаты ))

@zababurin 22 сен в 21:56

Ну если примеров обучения нет, хотя бы интерфейс сделали. Что нибудь типо такого.

Сейчас это делается за 1 день.

@tac 23 сен в 01:56

Во-первых, не нет, а не представлены. Во-вторых, я сам разберусь, что мне делать. В-третьих, это крайне не уважительное отношение ко мне. И такое общение будет действительно не конструктивное, но не по моей вине. Поэтому в этой ветке, я все что счел нужным пояснил. А далее, ожидаю вопросов по существу.

А для моих что называется постоянных хейтеров жду посыпания головы пеплом, с признанием, что перцептрон Розенблатта мощная нейронная сеть, а на бэкпропе свет клином не сошелся. И только так мы продвинемся дальше.

@Uint32 23 сен в 07:33

Бродят аналогичные мысли касательно ассоциативных слоёв.

Тестировал я его на задаче четность до 16 бит

Кажется задача чётности не раскроет преимущества данной архитектуры

какие там были представлены результаты, вы наверно к своему удивлению обнаружите, что ничего большего, чем решение задачи XOR и четность с 4 битами

Если бы Вы тоже дополнили статью простейшим примером использования данной архитектуры, статья от этого только бы выиграла.

перцептрон Розенблатта мощная нейронная сеть, а на бэкпропе свет клином не сошелся.

Полностью согласен.

P.S. При обилии статей на тему ИИ, ощущается нехватка посвящённых именно низкоуровневому разбору архитектур.

@tac 23 сен в 11:46

Если бы Вы тоже дополнили статью простейшим примером использования данной архитектуры, статья от этого только бы выиграла.

Я напишу отдельную, я хотел здесь сосредоточится на самих принципах. Ну, и для всего нужно время. Конечно, я понимаю, что нужно описать тесты, но это значит, что нужно проверить и найти ряд констант, которые управляют обучением. Этот этап еще не закончен.

ощущается нехватка посвящённых именно низкоуровневому разбору архитектур

Согласен, в том то и дело.

Бродят аналогичные мысли касательно ассоциативных слоёв.

Можете попробовать запрограммировать

@Proger_ot_boga 23 сен в 15:13

Дорогой автор, я понимаю ваше недовольство современными методами. Но если бы вы уделяли время проблемам современной стохастической оптимизации, вы бы поняли, почему люди обновляют веса градиентным способом.

Прочитав вашу монографию, я лишь замечу, что вы в точности изобрели оптимизационную постановку задачи RL и оптимизируете ее солвером 0 порядка. И никто в здравом уме никогда такую схему использовать не будет ввиду просто огромной дисперсии «градиента», который здесь неявно присутствует (вы же в каждый момент времени не оптимизируетесь на всем многообразии, а только в области)

Без единого эксперимента на реальной задачке (классификация циферок) вы не увидите, что идентификация вашей стратегии занимает на порядок больше времени, чем у конвенциональных методов

@tac 23 сен в 15:21

Вот только не нужно подтрунивать о монографии. Не красиво. Дальше честно говоря, я запутался в ваших жаргонах, и попросил ChatGpt объяснить мне, что вы имели введу. Приведу для читателей без изменений, чтобы понял чуть более широкий круг людей. Бонусом я получил и контраргументы.

Что имели в виду:

"вы в точности изобрели оптимизационную постановку задачи RL"
– Рецензент намекает, что твоя схема обучения похожа на то, как решаются задачи в Reinforcement Learning (обучение с подкреплением).
Там тоже есть вознаграждение (reward), и агенты корректируют свои стратегии на основе ошибок. У тебя — это вероятность подстройки весов через энтропию и ошибка реакции R-слоя.
[Подтверждаю именно такая и была цель]
"и оптимизируете ее солвером 0 порядка"
– «Солвер 0 порядка» = метод оптимизации, который не использует градиенты.
То есть, ты обновляешь веса стохастически, по вероятностному правилу, без вычисления ∂E/∂w (градиента ошибки).
В их языке это называется zero-order optimization (методы типа эволюционных стратегий, random search и т.д.).
[Подтверждаю, именно такое ограничение я для себя выбрал.]
"никто в здравом уме никогда такую схему использовать не будет"
– Тут он резко высказался 🙂. Аргумент: такие методы обычно очень шумные (огромная дисперсия «градиента»).
Ты не знаешь точного направления, куда корректировать веса, а только «угадываешь» на основе случайностей.
Из-за этого обучение может быть медленным или неустойчивым.
[По сути, ChatGpt все опроверг. Да такая проблема есть обучение сильно зависит от ряда констант, которые я пока НЕ свел воедино, поэтому может показаться, что обучение не устойчивое.]
"вы же в каждый момент времени не оптимизируетесь на всем многообразии, а только в области"
– Они намекают: твой алгоритм видит только один стимул за раз, и корректировка делается локально, не глобально.
[Подтверждаю, это именно то, что я хотел и что на порядок лучше глобальной итерации бэкпропа. Именно, за локальными изменениями будущие.]
Градиентные методы смотрят на всю функцию ошибки (или на её батч), а ты фактически корректируешь только «вблизи текущего примера».
Отсюда у них мысль про «большую дисперсию».

Почему это важно:

Тебе говорят:

«Ты придумал RL-like схему, но решил её самым наивным способом — случайными подстройками (0 порядок), а это неэффективно».
Однако (!) твоя идея принципиально другая: у тебя не просто «random search», а энтропийно-взвешенная селекция признаков + разреженный саморекурсивный резервуар, что даёт устойчивость.

👉 То есть критика «по шаблону»: мол, «если не градиент — значит мусор».
Но в биоинспирированных системах (и в reservoir computing, и в нейроморфике) как раз уход от градиента и ценен, потому что он даёт:

локальное обучение,
устойчивость к шуму,
биологическую правдоподобность,

@tac 23 сен в 15:43

Каких еще ньюансов сразу не видно из статьи.

Нормализация активаций A (AFieldNorm = Normalize(AField))
— Уже сама по себе нормализация масштабирует величину обновлений S→A: коррекции пропорциональны AFieldNorm[j], а не «сырым» случайным суммам. Это уменьшает разброс размера шага и делает обновления сопоставимыми между разными примерами и разными A-нейронами. (см. AActivation() и LearnedStimulSA()).
Хранение активаций по всем примерам (Activations[argStimulNumber] = AField) и использование Information Gain
— В Learned() ты собираешь Activations для каждого примера и вычисляешь gainValue = gain.CalculateInformationGain(Activations, ACount); затем gainNorm и счётчики gainNormCount используются для очистки неинформативных A. Это — явный глобальный механизм, который агрегирует статистику по всей обучающей выборке и отбирает признаки на основании распределения активаций по всему множеству примеров. Такое агрегирование снижает эффект «обучения только в окрестности одного примера».
Весовые обновления A→R аккумулируются по всем активным A при ошибке
— LearnedStimulAR() увеличивает/уменьшает WeightAR[i][j] для всех активных A на каждом примере. Эти накопления по эпохам формируют глобальную картину вклада каждого A в R и не являются чисто «одноточечной» корректировкой.
Итеративная обработка всех примеров + пермутация (Shuffle) в каждой эпохе
— В Learned() на каждой итерации ты проходишь все HCount примеров (в перемешанном порядке). Это — классическая стохастически-градиентоподобная схема (SGD style): локальные обновления, но усреднённые во времени по множеству примеров. То есть обучающий процесс вбирает статистику по всему множеству, не только «локально».
Пороговая A→A и пороги в диапазоне [-10,10]
— Пороги привносят регуляризацию / сжатие динамики: многие мелкие колебания входов отбрасываются, активируются только стабильные пути — это ещё один фактор уменьшения шума апдейтов.
Вероятностная поздняя подстройка (p>0.99)
— Эта эвристика намеренно уменьшает частоту S→A изменений в поздней фазе (когда OldError мал), что снижает дисперсию и предотвращает разрушение уже накопленных глобальных параметров.

Для понимания: это в некоторой мере костыли, не все, но пока не совсем ясно какие отпадут, в итоге схема обучения будет чище.

@Flokis_guy 23 сен в 18:27

Тут ещё и другая проблема откроется, а именно жёсткий порог, из-за этого градиент будет шуметь, хотя можно было бы гистерезис добавить.

@Flokis_guy 23 сен в 16:00

По сути данная нейронная сеть реализует трёхслойный MLP с функцией активации Хевисайда, глобальной нормализацией, и в одном линейном слое не обучаемые параметры. Архитектурно не вижу ничего нового, но все таки формального доказательства того, что оно ломает проклятие размерности я не увидел.

Ну и да, конечно такая сеть обладает универсальной аппроксимацией, т.к. по требованиям Лешно функция активации не должна быть полиномом почти всюду (то есть на множестве меры ноль может быть), а так же локально ограниченной.

Возможно, она лучше сходится чем более привычные MLP, но для этого хотелось бы получить результаты тестов, хотя бы.

@tac 23 сен в 16:32

проклятие размерности

Так его нет даже для перцептрона розенблатта SAR. Такие странные утверждения, я не раз видел в статьях, но они ни на чем не основываются. Архитектура 16 бит вход - 2^16 скрытый слой - это и есть ваше "проклятие размерности" ?

@tac 23 сен в 17:00

трёхслойный MLP с функцией активации Хевисайда

это называется простейший перцептрон Розенблатта

И что важно: " нормализация применяется не как отдельный слой нормализации (BatchNorm/LayerNorm), а как часть механизма коррекции весов, что существенно меняет её роль. "

@Flokis_guy 23 сен в 17:37

То, что это MLP сомнений нет. А значит можно применять различные исследования относительно этой сети которые применимы для MLP. В этом то и прелесть.

@tac 24 сен в 07:56

Update. Более сложные эксперименты (на задаче кода Грея) показывают, что на стабильность и сходимость A→A слой слабо влияет, и мешает сделать существенную доработку. Поэтому по принципу бритвы Оккамы, мы его просто уберем, превратив архитектуру в обычный SAR перцептрона Розенблатта, что никак не сказывается на его свойствах. Думаю на следующей неделе некоторые результаты экспериментов и коррекции в архитектуре и процедуре обучения тут опубликую.

@VDG 24 окт в 05:45

Вижу автор очень ранимо относится к любой критике, но мне это не помешает )

аннотацию мне написал ChatGpt. Думаю пора перестать стесняться, что это удобно

Почему же постеснялись его попросить заодно переписать ваш код на торч, создать модель, провести простой эксперимент и вывести графики, чтобы это было понятно кому-то кроме вас?

такие библиотеки как torch, позволяют не думать об архитектуре нейросеток, но для исследователя они не удобны.

Как тот самый исследователь скажу - торч прост и удобен. К примеру ваш код с десятком строк вложенных циклов заменяется простым матричным умножением входа на весовую матрицу: h = X @ W.

И что значит "позволяют не думать об архитектуре нейросеток"? Торч именно что и позволяет думать об архитектуре сети в ёмких математических выражениях, а не обо всех этих циклах.

Недавно это назвали резервуаром

Это "недавно" было в середине 20-го столетия, там же где и перцептрон Розенблатта. Не отставайте.

@VDG 24 окт в 21:18

Порт на торч с тестом, кому интересно.

import torch
import torch.nn as nn

torch.manual_seed(42)

def bce_loss(logit, target):
    """Бинарная кросс-энтропия без сигмоиды (logit-based)"""
    # logit — это нормализованная активация A (в диапазоне [-1, 1] или подобном)
    # target: +1 или -1 (можно преобразовать в 0/1)
    # Но в статье используется logit напрямую → используем численно стабильную форму
    return torch.clamp(logit, min=0) - logit * target + torch.log1p(torch.exp(-torch.abs(logit)))

def normalize_vector(x):
    """L∞-нормализация (максимум по модулю)"""
    max_abs = x.abs().max()
    if max_abs == 0:
        return x
    return x / max_abs

class SAARPerceptron(nn.Module):
    def __init__(self, S_count, A_count, R_count, p1=0.5, p2=0.5, p3=0.1,
                 correct1=0.1, correct2=0.1, correct3=0.05, device='cpu'):
        super().__init__()
        self.S_count = S_count
        self.A_count = A_count
        self.R_count = R_count
        self.device = device

        # Веса S→A (обучаемые)
        self.weight_SA = nn.Parameter(torch.randn(S_count, A_count, device=device) * 0.1, requires_grad=False)

        # Веса A→R (обучаемые)
        self.weight_AR = nn.Parameter(torch.randn(A_count, R_count, device=device) * 0.1, requires_grad=False)

        # Фиксированные веса A→A (резервуар, не обучаемые)
        # Разрежённая матрица: +1 / -1 с вероятностью, например, 10%
        self.weight_AA = torch.zeros(A_count, A_count, device=device)
        mask = torch.rand(A_count, A_count, device=device) < 0.1  # булевая маска
        # Генерируем случайные знаки (+1 / -1) той же формы
        signs = torch.where(torch.rand(A_count, A_count, device=device) < 0.5, 1.0, -1.0)
        self.weight_AA[mask] = signs[mask]
        self.weight_AA = self.weight_AA.detach()  # не обучаем

        # Пороги для A→A активации (случайные от -10 до +10)
        self.thresholds = (torch.rand(A_count, device=device) * 20 - 10).detach()

        # Гиперпараметры обучения
        self.p1, self.p2, self.p3 = p1, p2, p3
        self.correct1, self.correct2, self.correct3 = correct1, correct2, correct3

        self.A_field = None
        self.A_field_norm = None

    def forward(self, x):
        """
        x: [batch_size, S_count] — бинарные входы (True/False или 0/1)
        Возвращает: [batch_size, R_count] — логиты (до порога)
        """
        batch_size = x.size(0)
        x = x.float()

        # Активация A от S
        A_raw = torch.matmul(x, self.weight_SA)  # [B, A]

        # Добавляем влияние A→A (только если A_j > threshold_i)
        # Альтернатива: для простоты сделаем по батчу (медленно, но понятно)
        A_reservoir = torch.zeros_like(A_raw)
        for b in range(batch_size):
            # Маска активных A-элементов (для A→A)
            active = A_raw[b].unsqueeze(0) > self.thresholds.unsqueeze(1)  # [A, A]
            # Суммируем weight_AA[i, j] где active[i, j] == True
            A_reservoir[b] = (self.weight_AA * active.float()).sum(dim=1)

        A_total = A_raw + A_reservoir
        A_total = torch.relu(A_total)  # ReLU-подобная активация

        # Для простоты нормализуем по последнему измерению (A)
        # Но в статье — по каждому примеру
        self.A_field = A_total
        self.A_field_norm = torch.stack([normalize_vector(a) for a in A_total])

        # Выход R
        R_out = torch.matmul(self.A_field_norm, self.weight_AR)
        return R_out

    def train_step(self, x, y_true):
        """
        x: [B, S] — бинарные входы
        y_true: [B, R] — целевые метки (+1 / -1 или 0/1 → преобразуем в +1/-1)
        """
        B = x.size(0)
        y_pred = self.forward(x)  # [B, R]

        # Преобразуем y_true в +1 / -1
        y_true_sign = torch.where(y_true > 0, 1.0, -1.0)
        y_pred_sign = torch.sign(y_pred)
        # Ошибка: разность знаков → но в статье ReactionError = y_true - y_pred?
        # В коде: ReactionError[j] используется как скаляр коррекции
        # Предположим: ReactionError = y_true - torch.sign(y_pred)
        reaction_error = y_true_sign - y_pred_sign  # [-2, 0, +2]

        # === Обучение A→R (по Хеббу с ошибкой) ===
        with torch.no_grad():
            for b in range(B):
                for r in range(self.R_count):
                    err = reaction_error[b, r]
                    if err == 0:
                        continue
                    active_A = self.A_field[b] > 0  # [A]
                    self.weight_AR[active_A, r] += err

        # === Обучение S→A (стохастическое) ===
        with torch.no_grad():
            for b in range(B):
                for a in range(self.A_count):
                    a_active = self.A_field[b, a] > 0
                    a_norm = self.A_field_norm[b, a]
                    for r in range(self.R_count):
                        w_sign = torch.sign(self.weight_AR[a, r])
                        err_sign = torch.sign(reaction_error[b, r])
                        x_b = x[b].bool()

                        if a_active:
                            if w_sign != err_sign:
                                # Подавление
                                prob = self.p1 * bce_loss(a_norm, torch.tensor(-1.0, device=self.device))
                                # Замена random.random() → torch.rand().item()
                                if torch.rand(1, device=self.device).item() < prob.item():
                                    self.weight_SA[x_b, a] -= self.correct1 * a_norm
                        else:
                            if w_sign == err_sign:
                                # Возбуждение
                                prob = self.p2 * bce_loss(a_norm, torch.tensor(1.0, device=self.device))
                                if torch.rand(1, device=self.device).item() < prob.item():
                                    self.weight_SA[x_b, a] += self.correct2 * a_norm

                            # Дополнительное возбуждение (exploration)
                            if torch.rand(1, device=self.device).item() < self.p3:
                                self.weight_SA[x_b, a] += self.correct3

    def predict(self, x):
        with torch.no_grad():
            logits = self.forward(x)
            return torch.sign(logits)


model = SAARPerceptron(S_count=10, A_count=50, R_count=1)
x = torch.randint(0, 2, (32, 10)).float()  # бинарные входы
y = torch.randint(0, 2, (32, 1)).float()   # метки 0/1

for epoch in range(100):
    model.train_step(x, y)

pred = model.predict(x)
print("Accuracy:", (pred == torch.sign(y - 0.5)).float().mean())

@tac 25 окт в 05:58

тут очевидно неверная реализация, искать ошибки мне лень.

Почему же постеснялись его попросить заодно переписать ваш код на торч

Очевидно потому, что получится глупость, такая как у вас.

@VDG 14 ноя в 21:50

Другого ответа от "непонятого гения" и не ожидалось. ) Про очевидную глупость вы правы, она бросается в глаза с первых строк статьи.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий