niktomimo Jun 5 at 12:21Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 годаLevel of difficultyHardReading time5 minReach and readers11KMachine learning * Artificial IntelligenceNatural Language Processing * Algorithms * Mathematics * AnalyticsTotal votes 15: ↑15 and ↓0+16Add to bookmarks22ShareComments2
vadimr Jun 5 at 12:35Там важная ссылка на [Zhang and Sennrich, 2019]. Примерно благодаря таким вот оптимизациям академик Чжан стал директором Института исследований искусственного интеллекта Университета Цинхуа.
Amareis Jun 6 at 08:45Все же AttnRes от кими выглядит как-то поэлегантней, да и результаты заяляются посильнее.
Самый старый кирпич трансформера наконец переизобрели. DeepSeek взял матрицу из 1967 года