Tapatakt May 21 2024 at 11:54

В остаточном потоке трансформеров представлена геометрия состояний их убеждений

Medium

15 min

1.4K

Machine learning * Artificial Intelligence

Analytics

Translation

Comments 6

Siddthartha May 21 2024 at 13:08

т.е. вывод -- выучивают. но, вроде бы, не только трансформеры!? разве для эффективно обученных сетей с другой архитектурой нельзя найти "срез", где будет видно выученное пространство состояний? вангую, что можно. в любой глубокой сети оно должно быть размазано по промежуточным слоям, но если есть свертки -- то в свертках (окнах фильтров) где-то должно просматриваться.. интуитивно кажется так.

Siddthartha May 21 2024 at 13:11

в смысле, везде там, где происходит отжиг, сжатие, оптимизация полной статистики в ее компактную форму.

Tapatakt May 26 2024 at 15:01

Я полагаю, да! Они эксперименты проводили на трансформерах, но основные аргументы, вроде бы, должны быть применимы для любого достаточно эффективного предсказателя.

Siddthartha May 27 2024 at 09:45

любого на основе статистики)

Siddthartha May 27 2024 at 09:50

ну, в смысле, строгая матмодель с эвристиками и формулами, по идее внутренней картины мира не имеет, точнее эта картина просто внешняя -- в голове автора(ов) матмодели. )

а любая нейросеть, да.. очередное подтверждение принципиального сходства с биологическими нс.

Tapatakt May 31 2024 at 18:12

Фрактал, который "наше предсказание" -- это как раз отложенные на треугольнике значения трёх переменных из строгой матмодели же.