← Предыдущая глава | Следующая глава →
О чем говорит гипотеза о лотерейном билете, и чем она полезна на практике, если оказывается верной?
Гипотеза о лотерейном билете — это идея, которая появилась в 2018 году в контексте обучения нейронных сетей. Она утверждает, что в случайно инициализированной нейронной сети существует подсеть (или «выигрышный билет»), которая, если ее обучить независимо, сможет достичь такой же точности на тестовом датасете, как и полная сеть после такого же количества шагов обучения. Авторы гипотезы — Джонатан Франкл и Майкл Карбин.
В этой главе мы подробно рассмотрим гипотезу лотерейного билета. Сначала мы шаг за шагом разберемся, как она работает, а затем обсудим прунинг весов — один из ключевых методов, который позволяет создавать более компактные сети. Этот процесс является частью методологии, основанной на гипотезе лотерейного билета. В конце главы мы проанализируем практические применения и ограничения данной гипотезы.
Процедура обучения лотерейного билета
На Рисунке 1.1 показана процедура обучения для гипотезы о лотерейном билете, состоящая из четырёх шагов. Мы рассмотрим каждый из них, чтобы лучше понять концепцию.

На Рисунке 1.1 мы видим, что на шаге 2 мы приступаем к обучению большой нейронной сети. Наша цель — достичь сходимости, то есть мы стремимся к наилучшему результату на целевом датасете (например, минимизируя тренировочную функцию потерь и максимизируя точность классификации). Эта большая нейронная сеть инициализируется обычным способом, с небольшими случайными весами. Инициализация представляет собой шаг 1 в общем процессе обучения.
На следующем этапе (шаг 2), как показано на Рисунке 1.1., мы выполняем прунинг весов, удаляя их из нейронной сети. Это можно сделать путем зануления весов для создания разреженных весовых матриц. На этом этапе мы можем выбирать между двумя подходами: неструктурированным и структурированным прунингом. Неструктурированный прунинг подразумевает удаление отдельных весов, в то время как структурированный прунинг предполагает удаление целых «чанков» нейронной сети, таких как целые каналы ядер фильтров.
Первоначальный подход к гипотезе о лотерейном билете основан на концепции, известной как итеративный прунинг по величине весов. В рамках этого подхода веса с наименьшими значениями удаляются на каждой итерации. Мы подробнее обсудим этот метод в Главе 6, когда будем говорить о способах уменьшения переобучения.
После шага прунинга, на четвёртом шаге, мы восстанавливаем веса до исходных небольших значений, которые были использованы на первом шаге, как показано на Рисунке 1.1. Затем мы обучаем прореженную нейронную сеть. Важно отметить, что мы не начинаем с новых случайных весов, как это обычно делается при итеративном прунинге по величине весов, а переиспользуем веса, которые были на первом шаге.
Затем мы повторяем шаги со 2 по 4 до тех пор, пока не получим нейронную сеть желаемого размера. Так, в исходной статье о гипотезе лотерейного билета авторы успешно уменьшили размер нейронной сети до 10% от исходного без ущерба для метрики качества классификации. И как приятный бонус, прореженная нейронная сеть, которую можно назвать выигрышным билетом, даже продемонстрировала лучшую обобщаемость, чем исходная, более крупная и плотная, нейросеть.
Практические применения и ограничения
Если возможно создать подсети меньшего размера, которые будут работать так же качественно, как и их десятикратно более крупные аналоги, это может существенно повлиять на процесс как обучения, так и инференса нейронных сетей. Учитывая, что современные нейронные сети становятся всё более крупными, это может помочь снизить расходы на обучение и инфраструктуру.
Звучит слишком хорошо, чтобы быть правдой? Возможно. Если бы можно было эффективно находить выигрышные билеты, это было бы очень полезно на практике. Однако на момент написания данной статьи не существует методов, которые позволяют находить выигрышные билеты без обучения исходной нейросети. А включение шагов прунинга делает процесс обучения сети даже более дорогостоящим, чем если бы она оставалась без изменений. Кроме того, после публикации оригинальной статьи исследователи обнаружили, что исходная инициализация весов может не подходить для поиска выигрышных билетов в крупномасштабных нейронных сетях. Требуются дополнительные эксперименты с начальными весами прореженных сетей.
Хорошая новость заключается в том, что такие выигрышные билеты действительно существуют. Даже если сейчас их невозможно обнаружить без обучения их бОльших собратьев, они могут быть использованы для более эффективного инференса после обучения.