Pull to refresh

Comments 6

т.е. вывод -- выучивают. но, вроде бы, не только трансформеры!? разве для эффективно обученных сетей с другой архитектурой нельзя найти "срез", где будет видно выученное пространство состояний? вангую, что можно. в любой глубокой сети оно должно быть размазано по промежуточным слоям, но если есть свертки -- то в свертках (окнах фильтров) где-то должно просматриваться.. интуитивно кажется так.

в смысле, везде там, где происходит отжиг, сжатие, оптимизация полной статистики в ее компактную форму.

Я полагаю, да! Они эксперименты проводили на трансформерах, но основные аргументы, вроде бы, должны быть применимы для любого достаточно эффективного предсказателя.

любого на основе статистики)

ну, в смысле, строгая матмодель с эвристиками и формулами, по идее внутренней картины мира не имеет, точнее эта картина просто внешняя -- в голове автора(ов) матмодели. )

а любая нейросеть, да.. очередное подтверждение принципиального сходства с биологическими нс.

Фрактал, который "наше предсказание" -- это как раз отложенные на треугольнике значения трёх переменных из строгой матмодели же.

Sign up to leave a comment.

Articles