Комментарии / Профиль Fakeonomics / Хабр

Юрий Венедиктов@Fakeonomics

ML-разработчик

7,5

Рейтинг

Подписчики

ПрофильСтатьи4ПостыНовостиКомментарии4

Тернарный KAN: не баг, а фича — почему дискретные веса работают лучше

Fakeonomics 10 часов назад

Так MNIST в статье не как метрика "смотрите мы крутые", а как демонстрация что ternary ≥ float (94.77 → 96.15%). Весь смысл не в высоте процента, а в том что квантование не убило точность, а подняло. На Fashion-MNIST то же самое: 84.1 → 86.68%. На CNN: 91.57 → 92.02%. Эффект не на одном MNIST, а на всех архитектурах. Сам MNIST тут — это просто понятный бенчмарк, чтобы показать трюк, а не SOTA.

Тернарный KAN: не баг, а фича — почему дискретные веса работают лучше

Fakeonomics вчера в 12:57

кое что интересное попробую...

Тернарный KAN: не баг, а фича — почему дискретные веса работают лучше

Fakeonomics вчера в 12:56

Логика простая: 3 состояния = 3 операции. Пропустить (+1), инвертировать (-1), заблокировать (0). Это конечный автомат, где каждый вес - это switch. Четвертое состояние (+2) потребовало бы уже умножение на коэффициент - а тернарность как раз в том, чтобы заменить умножение на условное сложение/вычитание/пропуск. log2(3) ≈ 1.58 бита - это уже между binary и ternary. Если нужен +2 - лучше просто добавить еще один нейрон с +1, чем вводить четвертое значение веса

Тернарный KAN: не баг, а фича — почему дискретные веса работают лучше

Fakeonomics вчера в 12:55

Контроль - кросс-доменная валидация. Модель обучалась на MNIST, но проверялась на 5 доменах: Fashion-MNIST, HAR (акселерометры), FSDD (аудио), CIFAR-10. Если бы было переобучение - на доменах, отличных от MNIST, точность бы рухнула. На Fashion-MNIST ternary даже бьет float (86.68% vs 84.1%). А сам эффект ternary весов - это по сути регуляризация: три значения не дают модели запомнить шум, потому что "разрешения" веса банально не хватает.

Информация

Специализация