YH7H2218 мая в 18:53Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обученияУровень сложностиСреднийВремя на прочтение2 минОхват и читатели8.6KМашинное обучение * Всего голосов 6: ↑6 и ↓0+7Добавить в закладки11ПоделитьсяКомментарии0
Геометрия превосходства: Почему DeepSeek-V4 и Moonshot AI убили AdamW, и как оптимизатор Muon меняет физику обучения