Гипотеза лотерейного билета — кому нужен Backprop Just Prune


Новое исследование предполагает, что случайная нейронная сеть может иметь такую же мощность, что и полностью обученная сеть, и обнаружение этого — всего лишь вопрос сокращения связей. Это глубоко? Это очевидно? Имеет ли это значение для реальных нейронных сетей?

Гипотеза лотерейного билета, предложенная Франклом и Карбином в 2018 году, является странной идеей. Дело в том, что внутри каждой случайной нейронной сети есть меньшая сеть, которая после обучения может работать так же хорошо, как и вся сеть. Потратив время на изучение этой идеи, теперь кажется, что это лишь небольшая часть более крупного явления. Гипотеза была расширена на:
«достаточно перенастроенная нейронная сеть со случайной инициализацией содержит подсеть, которая достигает конкурентоспособной точности (по сравнению с большой обученной сетью) без какого-либо обучения».
Это было доказано в новой статье небольшой группы из Еврейского университета и Института науки Вейцмана.
Если вы задумаетесь об этом на мгновение, это не покажется таким уж удивительным, поскольку трюк заключается в «достаточно избыточно параметризованной» части. Большая сеть может иметь миллионы параметров, и если они выбраны случайным образом, весьма вероятно, что будет подсеть, которая хорошо работает без обучения. Это не столько гипотеза лотерейного билета, сколько гипотеза миллиона игральных костей. Если вы подбросите в воздух миллион кубиков, то, скорее всего, вы найдете небольшой подмножество, которое даст вам любую желаемую короткую последовательность результатов.
С практической точки зрения это означает, что мы, возможно, зря тратим время на использование обратного пропуска или градиентного спуска для обучения наших сетей. Все, что нам нужно сделать, это обрезать достаточно большую сеть, чтобы выявить ту сеть, которую мы хотим. Конечно, проблема здесь в том, как обрезать сеть. В статье сравниваются два метода отсечения — отсечение целых нейронов и отсечение отдельных весов, то есть соединений, и доказывается, что отсечение весов строго сильнее. Это тоже не кажется слишком маловероятным, поскольку отсечение нейронов сокращает возможности, которые у нас есть для создания благоприятной сети.
Новые результаты также дают нам некоторое представление о том, насколько чрезмерно параметризованной должна быть случайная сеть. Если целевая сеть имеет глубину L, случайная сеть должна иметь глубину 2L и быть полиномиальной по ширине. По сути, это дает нам некоторое представление о том, сколько кубиков нам нужно, чтобы найти данную подпоследовательность заданной длины. Эти границы дают нам понять, что случайная сеть не должна быть недопустимо большой, чтобы содержать искомую подсеть.
Из этого можно сделать несколько приятных выводов. Самым интересным является то, что, поскольку вы можете получить любую желаемую сеть, уменьшая вес случайной сети, уменьшение веса является универсальным аппроксиматором. Мы уже знаем, что достаточно большая сеть с двумя или более слоями может аппроксимировать любую функцию, если обучена с использованием градиентного спуска. Теперь очевидно, что вы можете проделать ту же работу, отсекая более крупную случайную сеть. Может ли это быть биологически приемлемым методом тренировки? Биологические сети могут начинаться с чрезмерной параметризации и просто сокращаться до сети, которая работает на основе модифицированного обучения Хебба?
К сожалению, еще один вывод:
«Однако, как мы упоминали ранее, наши результаты подразумевают, что не существует эффективного алгоритма для сокращения веса случайной сети путем уменьшения результатов жесткости при обучении нейронных сетей. Следовательно, сокращение веса аналогично оптимизации веса в следующем смысл: в обоих методах существует хорошее решение, но найти его в худшем случае сложно с вычислительной точки зрения «.
Кажется, это не тупик, потому что, хотя это сложная задача с аналитической точки зрения, на практике могут быть хорошие эвристики. Необходимо ответить на вопрос, лучше ли эти эвристики, чем градиентный спуск?


Добавить комментарий