Google обновил свою модель прогнозирования гриппа, которая использует поисковую активность для информации о гриппе, чтобы давать точные оценки в реальном времени возникновения болезни.
С 2008 года Google отслеживает поведение пользователей в поисковых системах, связанных с гриппом. Он использует тенденции ключевых слов с Google.com для получения ежедневной оценки случаев заболевания гриппом за две недели до публикации официальных данных эпиднадзора. На его веб-сайте Flu Trends представлена карта мира, отражающая серьезность вспышек гриппа примерно в 30 странах.
В этом видео представлен обзор того, как это работает, и показано, что прогноз Google в реальном времени обычно тесно коррелирует со статистикой, собранной такими агентствами, как Центр контроля заболеваний США, статистика которого обычно имеет двухнедельный временной лаг.
Однако в прошлом году все пошло не так, см. Прогнозирование гриппа Google — Остерегайтесь эффекта СМИ, когда Google Flu Trends начала переоценивать заболеваемость гриппом в Соединенных Штатах.
Как сообщается в официальном блоге Google, этому было найдено объяснение:
Повышенное освещение в СМИ серьезности сезона гриппа привело к тому, что в течение длительного периода пользователи искали термины, которые, как мы определили, коррелируют с уровнями гриппа. В начале 2013 года мы увидели больше запросов, связанных с гриппом, в США, чем когда-либо прежде.
Другими словами, внимание СМИ побудило людей, не страдающих симптомами гриппа, искать информацию из «общего интереса», что привело к беспрецедентной ошибке в оценке Google.
На этом графике показана взаимосвязь между освещением в СМИ и количеством ошибок:
(щелкните, чтобы открыть более крупную версию)
В документе Google Disease Trends: An Update описаны шаги, предпринятые для улучшения алгоритма прогнозирования как гриппа, так и лихорадки денге. Говорится:
Мы экспериментировали с двумя областями улучшения: 1) подавление аномальных всплесков среды и 2) использование ElasticNet.
Что касается первого, Google использует независимые средства измерения гриппа в средствах массовой информации, чтобы модулировать вклад определенных запросов, связанных с гриппом, во время оценки. Вторая область исследования «направлена на отсутствие явных коэффициентов для терминов запроса в модели», и команда внесла улучшения в алгоритмы регрессии для обработки большого количества терминов запроса.
Скорректировав метод агрегирования результатов поиска, Google применил новую модель к историческим данным, предоставленным Центрами по контролю за заболеваниями США, и показывает почти идеальное совпадение, хотя все же немного завышает уровень гриппа в 2012-2013 годах.
(щелкните, чтобы открыть более крупную версию)
По сравнению со своей предшественницей новая модель показывает более низкий уровень гриппа. По состоянию на 10 ноября все штаты США, кроме одного, сообщают о низкой активности гриппа, и только Миссисипи достигла статуса умеренной. На предыдущей модели сейчас преобладал умеренный. Однако мы находимся только в начале сезона гриппа 2013–2014 годов, и только время покажет, достигнет ли активность гриппа высокого или интенсивного уровня и когда это произойдет.