Исследователи из Университета Райса продемонстрировали методы как для разработки инновационного вычислительного оборудования, ориентированного на данные, так и для совместного проектирования оборудования с алгоритмами машинного обучения, которые вместе могут повысить энергоэффективность на два порядка.
Достижения в области машинного обучения — формы искусственного интеллекта, лежащей в основе самоуправляемых автомобилей и многих других высокотехнологичных приложений, — открыли новую эру вычислений — эру, ориентированную на данные, — и заставляют инженеров переосмыслить аспекты. вычислительной архитектуры, которая практически не вызывала возражений вот уже 75 лет.
«Проблема в том, что для крупномасштабных глубоких нейронных сетей, которые сегодня представляют собой новейшее оборудование для машинного обучения, более 90% электроэнергии, необходимой для работы всей системы, расходуется на перемещение данных между память и процессор «, — сказал Инъян Линь, доцент кафедры электротехники и вычислительной техники.
Лин и соавторы предложили два дополнительных метода оптимизации обработки данных, оба из которых были представлены 3 июня на Международном симпозиуме по компьютерной архитектуре (ISCA), одной из главных конференций по новым идеям и исследованиям в области компьютерной архитектуры.
/ p>
Стремление к архитектуре, ориентированной на данные, связано с проблемой, называемой узким местом фон Неймана, неэффективностью, которая проистекает из разделения памяти и обработки в вычислительной архитектуре, которая царила безраздельно с тех пор, как математик Джон фон Нейман изобрел ее в 1945 году. Благодаря отделению памяти от программ и данных архитектура фон Неймана позволяет одному компьютеру быть невероятно универсальным; в зависимости от того, какая сохраненная программа загружена из его памяти, компьютер можно использовать для видеозвонка, подготовки электронной таблицы или моделирования погоды на Марсе.
Но отделение памяти от обработки также означает, что даже простые операции, такие как сложение 2 плюс 2, требуют, чтобы процессор компьютера обращался к памяти несколько раз. Это узкое место в памяти усугубляется массовыми операциями в глубоких нейронных сетях, системах, которые учатся принимать человеческие решения, «изучая» большое количество предыдущих примеров. Чем больше сеть, тем сложнее задача, которую она может решить, и чем больше примеров показано в сети, тем лучше она работает. Для глубокого обучения нейронной сети могут потребоваться банки специализированных процессоров, которые работают круглосуточно более недели. Выполнение задач на основе изученных сетей — процесс, известный как вывод — на смартфоне может разрядить его аккумулятор менее чем за час.
«Общеизвестно, что для алгоритмов, ориентированных на данные в эпоху машинного обучения, нам нужна инновационная аппаратная архитектура, ориентированная на данные», — сказал Лин, директор лаборатории эффективных и интеллектуальных вычислений (EIC) Райса. «Но какова оптимальная аппаратная архитектура для машинного обучения?
«Не существует однозначных ответов, поскольку для разных приложений требуются алгоритмы машинного обучения, которые могут сильно отличаться по структуре и сложности алгоритмов, но при этом имеют разную точность задач и потребление ресурсов, например стоимость энергии и задержку. и пропускная способность — компромиссные требования », — сказала она. «Многие исследователи работают над этим, и у крупных компаний, таких как Intel, IBM и Google, есть свои собственные разработки».
В одной из презентаций группы Линя на ISCA 2020 были представлены результаты TIMELY, инновационной архитектуры, разработанной ею и ее учениками для «обработки в памяти» (PIM), не-фон Неймана подхода, который позволяет обрабатывать массивы памяти. Перспективной платформой PIM является «резистивная память с произвольным доступом» (ReRAM), энергонезависимая память, аналогичная флэш-памяти. В то время как были предложены другие архитектуры ускорителей ReRAM PIM, Лин сказал, что эксперименты, проведенные на более чем 10 моделях глубоких нейронных сетей, показали, что TIMELY был в 18 раз более энергоэффективным и обеспечивал более чем в 30 раз большую вычислительную плотность, чем самые конкурентоспособные современные модели. Ускоритель ReRAM PIM.
TIMELY, что означает «Time-domain, In-Memory Execution, LocalitY», достигает своей производительности за счет устранения основных факторов неэффективности, возникающих как из-за частого доступа к основной памяти для обработки промежуточного ввода и вывода, так и из-за интерфейса между местные и главные воспоминания.
В основной памяти данные хранятся в цифровом виде, но они должны быть преобразованы в аналоговые, когда они переносятся в локальную память для обработки в памяти. В предыдущих ускорителях ReRAM PIM результирующие значения преобразовывались из аналоговых в цифровые и отправлялись обратно в основную память. Если они вызываются из основной памяти в локальную память ReRAM для последующих операций, они снова преобразуются в аналоговые и так далее.
СВОЕВРЕМЕННО позволяет избежать накладных расходов как за ненужный доступ к основной памяти, так и за интерфейс преобразования данных за счет использования буферов аналогового формата в локальной памяти. Таким образом, TIMELY в основном хранит необходимые данные в массивах локальной памяти, что значительно повышает эффективность.
Второе предложение группы на ISCA 2020 касалось SmartExchange — проекта, сочетающего в себе инновационные алгоритмы и аппаратные ускорители для экономии энергии.
«Для доступа к основной памяти — DRAM — может потребоваться примерно в 200 раз больше энергии, чем для выполнения вычислений, поэтому ключевой идеей SmartExchange является обеспечение структур внутри алгоритма, которые позволяют нам торговать более дорогостоящей памятью. для гораздо более дешевых вычислений «, — сказал Линь.
«Например, допустим, у нашего алгоритма 1000 параметров», — добавила она. «При традиционном подходе мы будем хранить всю 1000 в DRAM и получать доступ по мере необходимости для вычислений. В SmartExchange мы ищем некоторую структуру в пределах этой 1000. Затем нам нужно сохранить только 10, потому что, если мы знаем взаимосвязь между ними 10 и оставшиеся 990, мы можем вычислить любое из 990, а не вызывать их из DRAM.
«Мы называем их« базовым »подмножеством, и идея состоит в том, чтобы хранить их локально, рядом с процессором, чтобы избежать или резко снизить затраты на доступ к DRAM», — сказала она.
Исследователи использовали алгоритм SmartExchange и собственный аппаратный ускоритель для экспериментов с семью тестовыми моделями глубоких нейронных сетей и тремя тестовыми наборами данных. Они обнаружили, что эта комбинация уменьшила задержку в 19 раз по сравнению с современными ускорителями глубоких нейронных сетей.
Исследование было поддержано Национальным научным фондом (937592 и 1937588) и Национальными институтами здравоохранения (R01HL144683).