Экспоненциальный закон для вычислений AI


OpenAI опубликовал анализ, показывающий, что с 2012 года объем вычислений, используемых в крупнейших программах обучения ИИ, вырос более чем в 300000 раз. Другими словами, компьютерные ресурсы, используемые в ИИ, удваиваются каждые 100 дней.

(щелкните график, чтобы увеличить)

Все мы знакомы с законом Мура, согласно которому количество транзисторов на единицу площади микросхемы удваивается каждый год — наблюдение, сделанное в 1965 году соучредителем Intel Гордоном Муром. Теперь Дарио Амодеи и Дэнни Эрнандес сделали аналогичное наблюдение в отношении увеличения объема вычислений в петафлопсекундах в день, затрачиваемых на обучение нейронных сетей.
Процитируем их сообщение в блоге, объясняющее их выводы:
На диаграмме показан общий объем вычислений в петафлопах / с-днях, который был использован для обучения выбранных результатов, которые относительно хорошо известны, потребовали много вычислений для своего времени и дали достаточно информации для оценки использованных вычислений. Петафлоп / с-день (pfs-day) состоит из выполнения 1015 операций нейронной сети в секунду в течение одного дня, или всего около 1020 операций. Произведение времени вычислений служит для удобства мысли, подобно киловатт-часам для энергии. Мы не измеряем теоретические пиковые значения FLOPS оборудования, а пытаемся оценить количество фактически выполненных операций. Мы считаем сложение и умножение как отдельные операции, мы считаем любое сложение или умножение как одну операцию независимо от числовой точности (что делает термин «FLOP» несколько неправильным).
Амодеи и Эрнандес объясняют, как они сгенерировали точки данных на диаграмме в Приложении. Предпочтительная методика заключалась в прямом подсчете количества FLOP (сложений и умножений) в описанной архитектуре для каждого обучающего примера и умножении на общее количество прямых и обратных проходов во время обучения. Когда было недостаточно информации для прямого подсчета FLOP, они смотрели на время обучения графического процессора и общее количество используемых графических процессоров и предполагали эффективность использования (обычно 0,33). Для большинства статей они могли использовать первый метод, но в значительном меньшинстве они полагались на второй. Они также вычисляли и то, и другое, когда это было возможно, для проверки согласованности. В приложении приведены примеры обоих методов и ссылки на многие использованные статьи.
Обрисовывая причины, побуждающие к этому анализу, Амодеи и Эрнандес утверждают, что три фактора стимулируют развитие ИИ: алгоритмические инновации, данные (которые могут быть либо контролируемыми данными, либо интерактивными средами) и объем вычислений, доступных для обучения. Хотя алгоритмические инновации и данные трудно отслеживать, они заявляют, что вычисления «необычно поддаются количественной оценке» и, следовательно, дают возможность измерить вклад в прогресс ИИ.
Для этого анализа они решили измерить объем вычислений, который используется для обучения одной модели, как:
«число, которое, скорее всего, коррелирует с тем, насколько сильны наши лучшие модели».
Как показано на приведенной выше диаграмме с логарифмической шкалой на оси Y, тренд представляет увеличение примерно в 10 раз каждый год.
Исследователи отмечают, что это увеличение было частично вызвано специальным оборудованием, которое позволяет выполнять больше операций в секунду по заданной цене (графические процессоры и TPU), но в первую очередь это было вызвано тем, что исследователи неоднократно находили способы параллельного использования большего количества микросхем. готов заплатить за это экономическую цену. Они отмечают, что:
AlphaGoZero / AlphaZero — наиболее заметный публичный пример массового алгоритмического параллелизма, но многие другие приложения в этом масштабе теперь алгоритмически возможны и, возможно, уже работают в производственном контексте.
Они указывают на четыре различные эпохи, показанные на диаграмме:

До 2012 года: использование графических процессоров для машинного обучения было редкостью, что затрудняло достижение каких-либо результатов на графике.
2012–2014 годы: инфраструктура для обучения на многих графических процессорах была необычной, поэтому в большинстве результатов использовались 1-8 графических процессоров с номиналом 1-2 терафлопс, что в сумме составляет 0,001-0,1 пфс-дня.
2014–2016 годы: в крупномасштабных результатах использовалось 10–100 графических процессоров с производительностью 5–10 терафлопс, что дает 0,1–10 пфс-дней. Уменьшение отдачи от параллелизма данных означало, что большие обучающие циклы имели ограниченную ценность.
2016–2017: подходы, обеспечивающие больший алгоритмический параллелизм, такие как огромные размеры пакетов, поиск архитектуры и экспертная итерация, а также специализированное оборудование, такое как TPU, и более быстрые межсоединения, значительно увеличили эти ограничения, по крайней мере для некоторых приложений.

Закон Мура оказался актуальным на десятилетия вперед, и два исследователя полагают, что продемонстрированная ими тенденция может иметь аналогичную предсказательную силу:
Улучшения в вычислениях были ключевым компонентом прогресса ИИ, поэтому, пока эта тенденция сохраняется, стоит подготовиться к последствиям систем, далеко выходящих за рамки сегодняшних возможностей.


Добавить комментарий