Google Flu Trends запускает новую модель в США на предстоящий сезон гриппа 2014/2015 гг. Важное отличие состоит в том, что он будет включать данные CDC о гриппе, что, скорее, разрушает его первоначальную идею.
Google Flu Trends (GFT) был запущен в 2008 году для прогнозирования вероятного числа случаев заболевания гриппом на основе «совокупных поисковых данных». Предпосылка, использованная в модели, заключалась в том, что существует корреляция между количеством случаев заболевания гриппом и количеством поисковых запросов по теме гриппа. Поэтому вместо того, чтобы собирать данные о людях, проявляющих симптомы у врачей и больниц, вы можете выполнять поиск, используя термины, связанные с гриппом, такие как «кашель» или «лихорадка».
Изначально модель работала хорошо. Он не только предоставил точные оценки количества случаев гриппа, но и опередил данные Центров по контролю и профилактике заболеваний (CDC). Но со временем модель Google начала переоценивать заболеваемость гриппом из-за того, что можно было интерпретировать как эффект положительной обратной связи.
Повышенное внимание средств массовой информации к гриппу по мере роста заболеваемости приводит к тому, что все больше людей ищут в Google термины, связанные с гриппом. Для сезона гриппа 2012/2013 гг. Прогноз GFT превысил количество «реальных» случаев гриппа на 95%.
В ответ на исследование, которое выявило эту аномалию, Google скорректировал модель для сезона гриппа 2013/2014 (подробности см. В Google Updates Flu Model, но она продолжала завышать прогнозы. Поэтому были предприняты поиски более радикального решения.
По словам Кристиана Стефансена, старшего инженера-программиста, в сообщении в блоге Google Research, в котором объявляется о «совершенно новом движке» для GFT, в грядущем сезоне гриппа в США Google заменяет:
«более надежная модель, которая постоянно учится на официальных данных о гриппе».
Хотя это может улучшить точность модели, тот факт, что в ней используются фактические данные, опровергает идею о том, что грипп можно предсказать исключительно на основе поведения пользователей Интернета при поиске. Если новая модель будет работать хорошо, это не будет столь же интересным открытием, как успех старой модели.