Система изучения языка, которая уделяет внимание — более эффективно, чем когда-либо прежде


Человеческий язык может быть неэффективным. Некоторые слова жизненно важны. Прочие расходные материалы.

Перечитайте первое предложение этой истории. Всего два слова, «язык» и «неэффективный», передают почти весь смысл предложения. Важность ключевых слов лежит в основе популярного нового инструмента обработки естественного языка (НЛП) компьютерами: механизма внимания. Когда он закодирован в более широкий алгоритм НЛП, механизм внимания сосредотачивается на ключевых словах, а не рассматривает каждое слово с равной важностью. Это дает лучшие результаты в задачах НЛП, таких как определение положительных или отрицательных настроений или прогнозирование того, какие слова должны быть следующими в предложении.

Однако точность механизма внимания часто достигается за счет скорости и вычислительной мощности. Он медленно работает на процессорах общего назначения, таких как компьютеры потребительского уровня. Итак, исследователи Массачусетского технологического института разработали комбинированную программно-аппаратную систему, получившую название SpAtten, специализированную для запуска механизма внимания. SpAtten обеспечивает более рациональное НЛП с меньшими вычислительными мощностями.

«Наша система похожа на то, как человеческий мозг обрабатывает язык», — говорит Ханруи Ван. «Мы читаем очень быстро и просто сосредотачиваемся на ключевых словах. Это идея SpAtten».

Исследование будет представлено в этом месяце на международном симпозиуме IEEE по архитектуре высокопроизводительных компьютеров. Ван — ведущий автор статьи и аспирант кафедры электротехники и компьютерных наук. Среди соавторов — Чжэкай Чжан и их научный руководитель, доцент Сон Хан.

С момента своего появления в 2015 году механизм внимания стал благом для НЛП. Он встроен в современные модели НЛП, такие как Google BERT и OpenAI GPT-3. Ключевым нововведением механизма внимания является избирательность — он может сделать вывод, какие слова или фразы в предложении являются наиболее важными, на основе сравнения со словосочетаниями, с которыми алгоритм ранее сталкивался на этапе обучения. Несмотря на быстрое внедрение механизма внимания в модели НЛП, он обходится недешево.

Модели НЛП требуют огромной нагрузки на компьютер, отчасти благодаря высокой потребности в памяти механизма внимания. «Эта часть на самом деле является узким местом для моделей НЛП», — говорит Ван. Одна из проблем, на которую он указывает, — это отсутствие специализированного оборудования для запуска моделей НЛП с механизмом внимания. Процессоры общего назначения, такие как ЦП и ГП, имеют проблемы со сложной последовательностью перемещения данных и арифметики механизма внимания. И проблема будет усугубляться по мере усложнения моделей НЛП, особенно для длинных предложений. «Нам нужны алгоритмические оптимизации и специализированное оборудование для удовлетворения постоянно растущих потребностей в вычислениях», — говорит Ван.

Исследователи разработали систему под названием SpAtten для более эффективного управления механизмом внимания. Их конструкция включает в себя как специализированное программное обеспечение, так и оборудование. Одним из ключевых достижений программного обеспечения является использование SpAtten «каскадного сокращения» или исключения ненужных данных из расчетов. Как только механизм внимания помогает выбрать ключевые слова предложения (называемые токенами), SpAtten удаляет неважные токены и устраняет соответствующие вычисления и перемещения данных. Механизм внимания также включает несколько вычислительных ветвей (называемых головами). Как и в случае с жетонами, неважные головы идентифицируются и удаляются. После отправки посторонние токены и заголовки не учитываются в последующих вычислениях алгоритма, уменьшая как вычислительную нагрузку, так и доступ к памяти.

Чтобы еще больше сократить использование памяти, исследователи также разработали метод, называемый «прогрессивное квантование». Этот метод позволяет алгоритму обрабатывать данные меньшими фрагментами битовой ширины и извлекать из памяти как можно меньше данных. Более низкая точность данных, соответствующая меньшей разрядности, используется для простых предложений, а более высокая точность используется для сложных. Интуитивно это похоже на выборку фразы «cmptr progm» в качестве версии «компьютерной программы» с низкой точностью.

Наряду с этими достижениями в области программного обеспечения исследователи также разработали аппаратную архитектуру, специализированную для запуска SpAtten и механизма внимания при минимальном доступе к памяти. В их архитектуре используется высокая степень «параллелизма», то есть несколько операций обрабатываются одновременно на нескольких элементах обработки, что полезно, поскольку механизм внимания анализирует каждое слово предложения одновременно. Такая конструкция позволяет SpAtten оценивать важность маркеров и головок (для потенциального сокращения) в небольшом количестве тактов компьютера. В целом программные и аппаратные компоненты SpAtten объединены, чтобы исключить ненужные или неэффективные манипуляции с данными, сосредоточившись только на задачах, необходимых для достижения цели пользователя.

Философия системы отражена в ее названии. SpAtten — это портмоне «скудного внимания», и исследователи отмечают в статье, что SpAtten «гомофоничен со словом« спартанский », что означает простой и бережливый». Ван говорит: «Это похоже на нашу технику: сделать предложение более лаконичным». Эта лаконичность подтвердилась при тестировании.

Исследователи разработали симуляцию аппаратного обеспечения SpAtten — они еще не изготовили физический чип — и протестировали его на конкурирующих процессорах общего назначения. SpAtten работал более чем в 100 раз быстрее, чем следующий лучший конкурент (графический процессор TITAN Xp). Кроме того, SpAtten был более чем в 1000 раз более энергоэффективным, чем конкуренты, что указывает на то, что SpAtten может помочь сократить существенные потребности NLP в электроэнергии.

Исследователи также интегрировали SpAtten в свою предыдущую работу, чтобы подтвердить свою философию, согласно которой аппаратное и программное обеспечение лучше всего разрабатывать в тандеме. Они построили специализированную архитектуру модели НЛП для SpAtten, используя свой фреймворк Hardware-Aware Transformer (HAT), и достигли примерно в два раза ускорения по сравнению с более общей моделью.

Исследователи считают, что SpAtten может быть полезен компаниям, которые используют модели НЛП для большинства своих рабочих нагрузок в области искусственного интеллекта. «Наше видение будущего состоит в том, что новые алгоритмы и оборудование, устраняющие избыточность языков, сократят расходы и сэкономят бюджет на электроэнергию для рабочих нагрузок NLP центров обработки данных», — говорит Ван.

На противоположном конце спектра SpAtten может принести НЛП на небольшие персональные устройства. «Мы можем увеличить время автономной работы мобильных телефонов или устройств Интернета вещей», — говорит Ван, имея в виду «вещи», подключенные к Интернету — телевизоры, интеллектуальные колонки и тому подобное. «Это особенно важно, потому что в будущем многочисленные устройства Интернета вещей будут взаимодействовать с людьми с помощью голоса и естественного языка, поэтому НЛП будет первым приложением, которое мы хотим использовать».

Хан говорит, что внимание SpAtten к эффективности и устранению избыточности — это путь вперед в исследованиях НЛП. «Человеческий мозг редко активируется [ключевыми словами]. Модели НЛП, которые редко активируются, будут многообещающими в будущем», — говорит он. «Не все слова равны — обращайте внимание только на важные».


Добавить комментарий