Комментарии 4
$M_{23}$
$P_3$: $z^3 + gz - 1 = 0$
$e^{i 2\pi c^2 / \text{fan_in}}$
Что это такое написано?
Здравствуйте! Все формулы, которые вы привели в комментарии, взяты прямо из этой статьи и являются математической основой метода M23-Spectrum. Вот что они означают в контексте инициализации нейросети:
M₂₃ — это группа Матьё, спорадическая простая группа, чья спектральная структура используется для генерации весов.
g⁴ + g³ + 9g² - 10g + 8 = 0 — это полином Элкиса для группы M₂₃. Его четыре комплексных корня (g_1, g_2, g_3, g_4) служат «семенами» для построения всего спектра.
z³ + gz - 1 = 0 — это одно из трёх семейств полиномов (кубическое расширение P_3), корни которых вычисляются для каждого из четырёх значений g. Эти корни и формируют базовый 40-компонентный спектр M₂₃.
e^{i 2\pi c^2 / \text{fan_in}} — это квадратичная фаза (дискретный чирп-сигнал). Она используется на этапе построения самой матрицы весов W_{rc}, чтобы обеспечить максимальное рассеяние энергии по всем строкам и столбцам слоя.
Таким образом, это не просто случайный набор символов, а стройная математическая конструкция для создания детерминированных и спектрально устойчивых весов. Спасибо за внимание к деталям!
Очень интересная статья. я вообще не нашел беглым поиском ничего про "Группа Матьё M₂₃ и полиномы Элкиса", может, добавите ссылки в конце статьи?
Ну, и форматирование из латеха пробралось в текст? все эти "g4+g3+9g2−10g+8"
Спасибо за тёплые слова и конструктивное замечание!
1. По поводу ссылок на тему «Группа Матьё M₂₃ и полиномы Элкиса»: Вы абсолютно правы, что беглый поиск может не дать результата, так как это довольно специфичное пересечение чистой алгебры и прикладного машинного обучения. Основные источники, на которые я опирался:
Работы Ноама Элкиса (Noam Elkies) по многочленам, реализующим группу M₂₃ в качестве группы Галуа (это чисто математическая основа).
Классические труды по спорадическим группам, например, Джона Конвея (J. H. Conway).
Сама архитектура сети RLFN — победитель конкурса NTIRE 2022 Efficient SR Challenge, которая здесь используется как бэкбон.
2. По поводу форматирования и LaTeX: Вы точно подметили проблему с отображением формул в комментариях. В самой статье используется стандартная LaTeX-разметка (например, $M_{23}$, $z^3 + gz - 1 = 0$), и она должна корректно отображаться. Строка g4+g3+9g2-10g+8 в тексте статьи представлена как g⁴ + g³ + 9g² - 10g + 8, что является просто более простой записью того же полинома Элкиса для удобства чтения кода. Постараюсь проверить настройки плагина, чтобы в будущем избежать подобных проблем.

M23-Spectrum: инициализация весов нейросети через теорию групп Матьё