Fakeonomics Jun 19 at 22:56

Тернарный KAN: не баг, а фича — почему дискретные веса работают лучше

Medium

6 min

11K

Artificial Intelligence

Case

+15

Comments 9

xolod7 Jun 19 at 23:42

Привет! Альтернатива нейросетям? Не модификацию, не лайфхак.... как на счет...

Mnist 97.14% на первой эпохе, далее до 98.35%

график обучения полигармонического каскада... без сверток.. просто тест... изображение как плоский вектор (мешок пикселей).... не нейросеть, не градиентный спуск, не бустинг и не лес... приглашаю, пожалуйста, заглянуть сюда Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения / Хабр

Fakeonomics Jun 20 at 12:57

кое что интересное попробую...

ENick Jun 20 at 05:54

Как контролируется переобучение без графика loss-test?

Fakeonomics Jun 20 at 12:55

Контроль - кросс-доменная валидация. Модель обучалась на MNIST, но проверялась на 5 доменах: Fashion-MNIST, HAR (акселерометры), FSDD (аудио), CIFAR-10. Если бы было переобучение - на доменах, отличных от MNIST, точность бы рухнула. На Fashion-MNIST ternary даже бьет float (86.68% vs 84.1%). А сам эффект ternary весов - это по сути регуляризация: три значения не дают модели запомнить шум, потому что "разрешения" веса банально не хватает.

Biga Jun 20 at 09:37

Но ведь всё равно вес хранится в 2 битах. Так где сравнение с 4 состояниями (например, +2, +1, 0, -1)?

Fakeonomics Jun 20 at 12:56

Логика простая: 3 состояния = 3 операции. Пропустить (+1), инвертировать (-1), заблокировать (0). Это конечный автомат, где каждый вес - это switch. Четвертое состояние (+2) потребовало бы уже умножение на коэффициент - а тернарность как раз в том, чтобы заменить умножение на условное сложение/вычитание/пропуск. log2(3) ≈ 1.58 бита - это уже между binary и ternary. Если нужен +2 - лучше просто добавить еще один нейрон с +1, чем вводить четвертое значение веса

kinh Jun 20 at 18:03

Можно и без switch обойтись. В моей статье Умножение троичных матриц для нейросетей я показал, как быстро перемножать троичные матрицы.

FD4A Jun 20 at 20:57

А высокий процент на MNIST это вообще валидная метрика? Я как-то разглядывал эти циферки, и если бы кто-то про некоторые из них стал бы утверждать, что это какая-то конкрентная цифра, то как будто ему надо 2 поставить и оставить после занятий заниматься чистописанием.

Fakeonomics 22 hours ago

Так MNIST в статье не как метрика "смотрите мы крутые", а как демонстрация что ternary ≥ float (94.77 → 96.15%). Весь смысл не в высоте процента, а в том что квантование не убило точность, а подняло. На Fashion-MNIST то же самое: 84.1 → 86.68%. На CNN: 91.57 → 92.02%. Эффект не на одном MNIST, а на всех архитектурах. Сам MNIST тут — это просто понятный бенчмарк, чтобы показать трюк, а не SOTA.