Comments 9
Привет! Альтернатива нейросетям? Не модификацию, не лайфхак.... как на счет...

график обучения полигармонического каскада... без сверток.. просто тест... изображение как плоский вектор (мешок пикселей).... не нейросеть, не градиентный спуск, не бустинг и не лес... приглашаю, пожалуйста, заглянуть сюда Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения / Хабр
Как контролируется переобучение без графика loss-test?
Контроль - кросс-доменная валидация. Модель обучалась на MNIST, но проверялась на 5 доменах: Fashion-MNIST, HAR (акселерометры), FSDD (аудио), CIFAR-10. Если бы было переобучение - на доменах, отличных от MNIST, точность бы рухнула. На Fashion-MNIST ternary даже бьет float (86.68% vs 84.1%). А сам эффект ternary весов - это по сути регуляризация: три значения не дают модели запомнить шум, потому что "разрешения" веса банально не хватает.
Но ведь всё равно вес хранится в 2 битах. Так где сравнение с 4 состояниями (например, +2, +1, 0, -1)?
Логика простая: 3 состояния = 3 операции. Пропустить (+1), инвертировать (-1), заблокировать (0). Это конечный автомат, где каждый вес - это switch. Четвертое состояние (+2) потребовало бы уже умножение на коэффициент - а тернарность как раз в том, чтобы заменить умножение на условное сложение/вычитание/пропуск. log2(3) ≈ 1.58 бита - это уже между binary и ternary. Если нужен +2 - лучше просто добавить еще один нейрон с +1, чем вводить четвертое значение веса
Можно и без switch обойтись. В моей статье Умножение троичных матриц для нейросетей я показал, как быстро перемножать троичные матрицы.
А высокий процент на MNIST это вообще валидная метрика? Я как-то разглядывал эти циферки, и если бы кто-то про некоторые из них стал бы утверждать, что это какая-то конкрентная цифра, то как будто ему надо 2 поставить и оставить после занятий заниматься чистописанием.
Так MNIST в статье не как метрика "смотрите мы крутые", а как демонстрация что ternary ≥ float (94.77 → 96.15%). Весь смысл не в высоте процента, а в том что квантование не убило точность, а подняло. На Fashion-MNIST то же самое: 84.1 → 86.68%. На CNN: 91.57 → 92.02%. Эффект не на одном MNIST, а на всех архитектурах. Сам MNIST тут — это просто понятный бенчмарк, чтобы показать трюк, а не SOTA.
Тернарный KAN: не баг, а фича — почему дискретные веса работают лучше