Обновить
16K+
5
Юрий Венедиктов@Fakeonomics

ML-разработчик

7,5
Рейтинг
1
Подписчики
Отправить сообщение

Так MNIST в статье не как метрика "смотрите мы крутые", а как демонстрация что ternary ≥ float (94.77 → 96.15%). Весь смысл не в высоте процента, а в том что квантование не убило точность, а подняло. На Fashion-MNIST то же самое: 84.1 → 86.68%. На CNN: 91.57 → 92.02%. Эффект не на одном MNIST, а на всех архитектурах. Сам MNIST тут — это просто понятный бенчмарк, чтобы показать трюк, а не SOTA.

кое что интересное попробую...

Логика простая: 3 состояния = 3 операции. Пропустить (+1), инвертировать (-1), заблокировать (0). Это конечный автомат, где каждый вес - это switch. Четвертое состояние (+2) потребовало бы уже умножение на коэффициент - а тернарность как раз в том, чтобы заменить умножение на условное сложение/вычитание/пропуск. log2(3) ≈ 1.58 бита - это уже между binary и ternary. Если нужен +2 - лучше просто добавить еще один нейрон с +1, чем вводить четвертое значение веса

Контроль - кросс-доменная валидация. Модель обучалась на MNIST, но проверялась на 5 доменах: Fashion-MNIST, HAR (акселерометры), FSDD (аудио), CIFAR-10. Если бы было переобучение - на доменах, отличных от MNIST, точность бы рухнула. На Fashion-MNIST ternary даже бьет float (86.68% vs 84.1%). А сам эффект ternary весов - это по сути регуляризация: три значения не дают модели запомнить шум, потому что "разрешения" веса банально не хватает.

Информация

В рейтинге
1 034-й
Откуда
Россия
Дата рождения
Зарегистрирован
Активность

Специализация

ML разработчик
От 150 000 ₽
Python
Git
Linux
SQL
REST
Английский язык