Эффективные методы сжатия данных при тренировке нейросетей. Лекция в Яндексе / Comments / Habr

polarnik Mar 11 2018 at 20:38

Очень сильно. Прямо, вау.
В том году, а может и в 2016 зимой, был в mail.ru на конференции по нейронным сетям, где представитель NVidia как раз рассказывал, что в железе и фреймворках была реализована оптимизация ускорения работы алгоритмов обучения за счёт использования целых чисел вместо плавучек. С потерей качества вычислений, но с приростом в скорости.

Проблема, что когда ты эту проблему решил, тренировке это особо не помогает. Все методы, что они предложили для inference, такие как удалять какие-то веса, использовать квантизацию, фактически это взять 32-битный floating point, плавучку, и превратит ее в 16 бит, 8 или 4. Все эти механизмы для тренировки не работают, потому что теряется качество вычислений, и обычно используется какой-то алгоритм stochastic gradient descend, он просто перестает сходиться. Мы пересмотрели эти алгоритмы, никто из них к тренировке напрямую не применим. Также они не очень хорошо ложатся на современные GPU, все эти статьи предлагают сделать новый ISAC, что-то похоже на TPU или давайте используем в лучшем случае какую-то программируемую логику типа FPGA для этого. На GPU все эти техники не очень хорошо ложились

И если ему верить, то есть группа задач, где возможна потеря точности вычислений. Не готов ввязываться в спор по этому вопросу. Помню, что тогда понял, как мало я знаю про нейронные сети. И сейчас такое же чувство.

Спасибо за статью.

Comments 7

UFO just landed and posted this here

Marui Mar 11 2018 at 18:22

Дата-процессинг это не поиск? Окей…

Vinchi Mar 16 2018 at 15:04

Вы вообще текст читали, хотя бы первые 2 абзаца про то кто там докладчик?

polarnik Mar 11 2018 at 20:49

Нашел. Максим Милаков, рассказ про TenzorRT:

it.mail.ru/video/886

Пересмотрел, да, там про Inference. В комментарии выше я был не прав.

perfect_genius Mar 20 2018 at 12:16

Раз нашли решение хранить не байты, а биты, то сильно ли замедляет доступ к единичным битам? Может ли оказаться, что в будущих аппаратных нейросетях выгоднее будет ускорить такой доступ? Или там банально AND-ится?

Очень интересная статья. Жаль, что не редактировалась (выдрали автоматические субтитры с ютюба?), поэтому читать было сложновато.