DataSecrets 7 апр в 14:42

Исследователи из Оксфорда предложили принципиально новый способ обучения нейросетей

3 мин

7.5K

Машинное обучение*Искусственный интеллектМатематика*

+12

Комментарии 5

XYZ_T 7 апр в 18:59

Есть мнение, что обратное распространение изобрели Галушкин и Вербос.

Галушкин А.И. Синтез многослойных систем распознавания образов. — М.: «Энергия», 1974.

Werbos P. J., Beyond regression: New tools for prediction and analysis in the behavioral sciences. Ph.D. thesis, Harvard University, Cambridge, MA, 1974.

proxy3d 7 апр в 21:41

Только сегодня как раз описал методом, где изменяется метод обратного распространения ошибок, чтобы обучать блоки независимо

https://habr.com/ru/companies/bothub/news/898262/comments/#comment_28146102

Но описанный метод в статье, это конечно ещё лучше. Так как это как раз то что делает predict coding. Но все же они сделали исправление локальной ошибки. Так как именно она стремится убрать шум. Я как раз думал, как переписать метод обратного распространения внутри слоев и блоков, чтобы он учитывали локальную ошибку. И тут эта статья.

Спасибо, это отличная новость. Значит подход учёта локальной ошибки и глобальной в связке это правильное решение. По сути, ошибка это разница между выходным сигналом и входным. Где задача обучения сводиться к минимизации ошибки, то есть убирания шума, чтобы остался только важный сигнал.

Но в любом случае важно учитывать обе ошибки. Так что от глобального loss все равно не уйти.

proxy3d 7 апр в 23:23

почитал. NoProp по сути реализует коррекцию локальной ошибки через диффузные модели. Но тут есть ряд проблем:

1) подход NoProp имеет свои ограничения, особенно когда речь идет о сложных моделях с модуляцией, таких как трансформеры или модели с состоянием скрытого мира (SSM, State-Space Models). В трансформерах и других моделях с модуляцией важно, чтобы глобальная ошибка учитывалась для всех слоев сети и обновляла веса с учётом всех этих взаимодействий. Это позволяет учесть контекст и влияние всех слоев на конечный результат. В NoProp нет такой глобальной обратной связи, что приводит к отсутствию взаимодействия между слоями на более высоком уровне.

2) Модуляции, такие как внимание, требуют, чтобы изменения в сети зависели от глобальных сигналов, которые накапливаются в процессе обучения, что важно для адаптации сети к более сложным задачам.

3) Модели типа SSM (state-space models) включают динамические зависимости между состоянием системы и ошибкой, а также между различными частями сети. Это требует наличия глобальной ошибки, которая бы корректировала все эти динамические связи и учитывала все прошлые состояния. В NoProp эти зависимости не могут быть правильно учтены, так как слои обучаются независимо и не имеют явного механизма для коррекции динамических изменений. Поэтому ни каких Mamba и спайковых сетей.

В целом, они реализуют Predict Coding, но только в диффузной форме. Где локально выделяется сигнал из шума. Это подходит для простых моделей, но недостаточно для сложных. Плюс там еще надо настраивать метки слои индивидуально самостоятельно и еще ряд ограничений.

Но все равно исследование мощное в плане исправления локальной ошибки.

gafurovos 8 апр в 14:38

Странно что до сих пор не разглядели возможности PANN - технологий.
Основа PANN/PANC (Ассоциативный нейрорморфный компаратор от Компании Progress.ai), теория компаративного мышления биологического Мозга. Это 1000 -кратно обходит любые сети по экономии вычислительных мощностей, энергии и объёмов памяти, а главное в скорости ответа и умении объяснить принимаемое решение в классификации образов.
Классическим ИНС никогда не получить широкого распространения в медицине, т.к. до сих пор не решили проблему "черного ящика".
PANC - абсолютно прозрачный механизм который можно описать в небольшом учебнике и под него подвезти теорию.
Работа с ним, даже не требует углублённого знания ИИ и высшей математики.
https://omega-server.ai/ru/ekspertam/testy/
Для особо интересующихся новым, ссылочка на тесты.

gafurovos 8 апр в 14:55

Кусочек из реального КП для инвестора:

Программное обеспечение, генерирующее ответ на запрос к базе данных клиента. Запатентованное решение для генерации ответа на запрос к базе данных клиента. Алгоритм включает в себя выборку данных из базы данных, близкой к запросу. PANN обучается только на этих выборочных данных и выдает ответ. Пользователю не нужно хранить обученную ИНС на компьютере. После обработки запроса и получения решения пользователь может стереть использованную ИНС, освободив место для других задач. В результате данные могут быть обработаны и выводы могут быть сделаны за МИЛЛИСЕКУНДЫ, что значительно экономит время, аппаратное пространство и энергию.

Компаратор PANN. Альфа-версия компаратора на основе PANN преобразует набор данных в специальный формат файла, называемый базой знаний, и работает с этими отформатированными данными для обеспечения подробного анализа информации. Компаратор не требует обучения на исходных данных. Когда пользователь делает запрос, компаратор сравнивает его с данными в своей базе знаний и выдает наиболее релевантный результат, оценивая его соответствие запросу и выявляя уникальные особенности этих данных. Полученные результаты обеспечивают надежную поддержку принятия решений с непревзойденной детализацией и точностью, что делает их широко применимыми в медицинской диагностике, контроле качества безопасности и военных приложениях.

В то время как все ИТ-сообщество сосредоточено на сжатии и сокращении данных, технология Progress выигрывает от роста и расширения данных — она не требует ограничений по размеру данных или компромиссов в качестве решений в условиях неудержимого роста данных. Более того, с технологией PANN™, чем больше базы данных, тем больше экономится время, оборудование и энергия.

15.04.25 На Конференции "Революция ИИ" с Лас-Вегасе, будет презентована и опубликована статья с описанием принципов работы PANC и его "обучения" (хотя его там и нет. Как и в Мозге, создаются конфигурации библиотек распознавания и на их основе проводится распознавание с постоянным пополнением библиотек, без остановки процесса работы.

Для желающих можно за 5 мин показать как разворачивается PANC на ПК, создаётся конфигурация библиотеки и проводится распознавание даже сильно повреждённых образов.
* демонстрация проводится на базе открытого ДС Йельского Университета (15 чел. по 8 фото на создание библиотеки и по 3 фото на тесты и отдельно подготовленные файлы).

Зарегистрируйтесь на Хабре, чтобы оставить комментарий