С прошлой статьи я внёс несколько изменений: 1. Планировщик был сломан и не изменял скорость. Починил. 2. Остаточное соединение через умножение. 3. WindowedDense для выходной проекции. 4. Добавил clipnorm 1, cutoff_rate 0.4
Как обычно это всё добавляет стабильности и 1% точности.
WindowedDense по неизвестной мне причине добавляет SMR стабильность.
В этой статье я буду анализировать и улучшать ATR, LRN, LSTM, GRU в задаче генерации текста. Обучать их я буду на классике Достоевского. Он первый под руку попался.
Я не специалист, и это не статья, а список моих идей для улучшения работы языковых моделей. К сожалению хорошо проверить это не имею возможности. Нигде не встречал таких идей. Интересно узнать мнения о них.