Когда вы отвечаете за многомиллионный спутник, несущийся в космосе со скоростью тысячи миль в час, вы хотите быть уверены, что он работает без сбоев. И временные ряды могут помочь.
Временной ряд — это просто запись измерений, многократно проводимых с течением времени. Он может отслеживать долгосрочные тенденции и краткосрочные всплески системы. Примеры включают печально известную кривую новых ежедневных случаев заболевания Covid-19 и кривую Килинга, которая отслеживает концентрации углекислого газа в атмосфере с 1958 года. В эпоху больших данных «временные ряды собираются повсюду, от спутников до турбин», — говорится в сообщении. Калян Верамачанени. «У всего этого оборудования есть датчики, которые собирают временные ряды о том, как они функционируют».
Но анализ этих временных рядов и отметка в них аномальных точек данных может быть непростой задачей. Данные могут быть зашумленными. Если оператор спутника видит серию показаний высокой температуры, как они узнают, является ли это безобидным колебанием или признаком того, что спутник вот-вот перегреется?
Это проблема, которую Верамачанени, возглавляющий группу Data-to-AI в Лаборатории информации и систем принятия решений Массачусетского технологического института, надеется решить. Группа разработала новый, основанный на глубоком обучении метод выявления аномалий в данных временных рядов. Их подход, названный TadGAN, превзошел конкурирующие методы и мог помочь операторам обнаружить и отреагировать на серьезные изменения в ряде важных систем, от спутника, летящего в космосе, до фермы компьютерных серверов, гудящей в подвале.
Исследование будет представлено на конференции IEEE BigData в этом месяце. В число авторов статьи входят члены группы Data-to-AI Верамачанени, постдок Дуню Лю, приглашенный исследователь Александр Гейгер и магистрант Сара Алнегхеймиш, а также Альфредо Куэста-Инфанте из испанского университета Рей Хуана Карлоса.
Высокие ставки
Для такой сложной системы, как спутник, анализ временных рядов должен быть автоматизирован. Спутниковая компания SES, которая сотрудничает с Veeramachaneni, получает поток временных рядов со своих спутников связи — около 30 000 уникальных параметров для каждого космического корабля. Люди-операторы в диспетчерской SES могут отслеживать только часть этих временных рядов, когда они мигают на экране. В остальном они полагаются на систему сигнализации, чтобы отмечать значения, выходящие за пределы допустимого диапазона. «Они сказали нам:« Можете ли вы сделать лучше? »- говорит Вирамачанени. Компания хотела, чтобы его команда использовала глубокое обучение для анализа всех этих временных рядов и выявления любого необычного поведения.
Ставки этого запроса высоки: если алгоритм глубокого обучения не обнаружит аномалию, команда может упустить возможность исправить ситуацию. Но если он бьет тревогу каждый раз, когда появляется шумная точка данных, рецензенты будут тратить свое время на постоянную проверку алгоритма, который кричал волк. «Итак, у нас есть две проблемы, — говорит Лю. «И нам нужно уравновесить их».
Вместо того, чтобы устанавливать этот баланс исключительно для спутниковых систем, команда попыталась создать более общую основу для обнаружения аномалий, которую можно было бы применять во всех отраслях. Они обратились к системам глубокого обучения, называемым генеративными состязательными сетями (GAN), которые часто используются для анализа изображений.
GAN состоит из пары нейронных сетей. Одна сеть, «генератор», создает поддельные изображения, а вторая сеть, «дискриминатор», обрабатывает изображения и пытается определить, являются ли они настоящими изображениями или поддельными, созданными генератором. В ходе многих этапов этого процесса генератор учится на обратной связи дискриминатора и становится искусным в создании гиперреалистичных подделок. Этот метод считается «обучением без учителя», поскольку он не требует предварительно помеченного набора данных, в котором изображения поставляются с тегами их предметов. (Иногда бывает трудно найти большие помеченные наборы данных.)
Команда адаптировала этот подход GAN для данных временных рядов. «По этой стратегии обучения наша модель может определить, какие точки данных являются нормальными, а какие — аномальными», — говорит Лю. Это делается путем проверки расхождений — возможных аномалий — между реальным временным рядом и поддельным временным рядом, созданным GAN. Но команда обнаружила, что одних только GAN недостаточно для обнаружения аномалий во временных рядах, потому что они не могут точно определить сегмент реального временного ряда, с которым следует сравнивать поддельные. В результате, «если вы будете использовать только GAN, вы создадите множество ложных срабатываний», — говорит Вирамачанени.
Чтобы защитить себя от ложных срабатываний, команда дополнила свою сеть GAN алгоритмом, называемым автокодировщиком, — еще одним методом неконтролируемого глубокого обучения. В отличие от GAN, склонного кричать как волк, автоэнкодеры более склонны пропускать истинные аномалии. Это потому, что автоэнкодеры имеют тенденцию фиксировать слишком много закономерностей во временных рядах, иногда интерпретируя фактическую аномалию как безвредное колебание — проблему, называемую «переобучением». Объединив GAN с автокодировщиком, исследователи создали систему обнаружения аномалий, которая достигла идеального баланса: TadGAN бдителен, но не вызывает слишком много ложных тревог.
Выдержав испытание временными рядами
Плюс к этому TadGAN превзошел конкурентов. Традиционный подход к прогнозированию временных рядов, называемый ARIMA, был разработан в 1970-х годах. «Мы хотели посмотреть, как далеко мы продвинулись и могут ли модели глубокого обучения действительно улучшить этот классический метод», — говорит Алнегхеймиш.
Команда провела тесты на обнаружение аномалий на 11 наборах данных, сравнивая ARIMA с TadGAN и семью другими методами, в том числе разработанными такими компаниями, как Amazon и Microsoft. TadGAN превзошел ARIMA в обнаружении аномалий для восьми из 11 наборов данных. Второй лучший алгоритм, разработанный Amazon, превзошел ARIMA только для шести наборов данных.
Алнегхеймиш подчеркнул, что их цель — не только разработать первоклассный алгоритм обнаружения аномалий, но и сделать его широко применимым. «Все мы знаем, что ИИ страдает от проблем с воспроизводимостью», — говорит она. Команда сделала код TadGAN бесплатно доступным, и они выпускают периодические обновления. Кроме того, они разработали систему тестирования для пользователей, чтобы сравнить производительность различных моделей обнаружения аномалий.
«Это тест с открытым исходным кодом, так что кто-то может попробовать его. Они могут добавить свою собственную модель, если захотят», — говорит Алнегхеймиш. «Мы хотим смягчить позор, связанный с невозможностью воспроизведения ИИ. Мы хотим, чтобы все было в порядке».
Веерамачанени надеется, что однажды TadGAN будет обслуживать широкий спектр отраслей, а не только спутниковые компании. Например, его можно использовать для мониторинга производительности компьютерных приложений, которые стали центральными в современной экономике. «Чтобы запустить лабораторию, у меня есть 30 приложений. Zoom, Slack, Github — вы называете это, у меня это есть», — говорит он. «И я надеюсь, что они все будут работать без сбоев и навсегда». То же самое и с миллионами пользователей по всему миру.
TadGAN может помочь таким компаниям, как Zoom, отслеживать сигналы временных рядов в их центрах обработки данных — например, использование процессора или температуру — для предотвращения перебоев в обслуживании, которые могут угрожать доле компании на рынке. В будущей работе команда планирует упаковать TadGAN в пользовательский интерфейс, чтобы помочь предоставить современный анализ временных рядов всем, кто в нем нуждается.