Исследователи искусственного интеллекта из Университета штата Северная Каролина улучшили производительность глубоких нейронных сетей, объединив модули нормализации функций и внимания к функциям в один модуль, который они называют внимательной нормализацией (AN). Гибридный модуль значительно повышает точность системы, используя при этом незначительную дополнительную вычислительную мощность.
«Нормализация функций — важный элемент обучения глубоких нейронных сетей, и внимание к функциям не менее важно, чтобы помочь сетям выделить, какие функции, извлеченные из необработанных данных, наиболее важны для выполнения данной задачи», — говорит Тианфу Ву, автор-корреспондент документ о работе и доцент кафедры электротехники и вычислительной техники в NC State. «Но в основном их лечили отдельно. Мы обнаружили, что их объединение сделало их более эффективными и действенными».
Чтобы протестировать свой модуль AN, исследователи подключили его к четырем наиболее широко используемым архитектурам нейронных сетей: ResNets, DenseNets, MobileNetsV2 и AOGNets. Затем они протестировали сети по двум отраслевым стандартным тестам: тесту классификации ImageNet-1000 и тесту обнаружения объектов и сегментации экземпляров MS-COCO 2017.
«Мы обнаружили, что AN улучшила производительность для всех четырех архитектур в обоих тестах», — говорит Ву. «Например, точность Top-1 в ImageNet-1000 улучшилась на 0,5–2,7%. А точность средней точности (AP) увеличилась до 1,8% для ограничивающего прямоугольника и 2,2% для семантической маски в MS-COCO. < / p>
«Еще одним преимуществом AN является то, что он способствует лучшему переносу обучения между разными доменами», — говорит Ву. «Например, от классификации изображений в ImageNet до обнаружения объектов и семантической сегментации в MS-COCO. Это иллюстрируется улучшением производительности в тесте MS-COCO, которое было получено путем точной настройки глубоких нейронных сетей, предварительно обученных ImageNet в MS- COCO, стандартный рабочий процесс в современном компьютерном зрении.
«Мы выпустили исходный код и надеемся, что наша AN приведет к лучшему интегративному дизайну глубоких нейронных сетей».