Comments 6
т.е. вывод -- выучивают. но, вроде бы, не только трансформеры!? разве для эффективно обученных сетей с другой архитектурой нельзя найти "срез", где будет видно выученное пространство состояний? вангую, что можно. в любой глубокой сети оно должно быть размазано по промежуточным слоям, но если есть свертки -- то в свертках (окнах фильтров) где-то должно просматриваться.. интуитивно кажется так.
в смысле, везде там, где происходит отжиг, сжатие, оптимизация полной статистики в ее компактную форму.
Я полагаю, да! Они эксперименты проводили на трансформерах, но основные аргументы, вроде бы, должны быть применимы для любого достаточно эффективного предсказателя.
любого на основе статистики)
ну, в смысле, строгая матмодель с эвристиками и формулами, по идее внутренней картины мира не имеет, точнее эта картина просто внешняя -- в голове автора(ов) матмодели. )
а любая нейросеть, да.. очередное подтверждение принципиального сходства с биологическими нс.
В остаточном потоке трансформеров представлена геометрия состояний их убеждений