Тринадцать терабайт анонимных данных о взаимодействии пользователей с новостями предоставлены разработчикам для использования в приложениях машинного обучения.
Это самый большой набор данных, который когда-либо был доступен для общего пользования. Он начал свою жизнь как данные о взаимодействии пользователей с новостями, собранные путем регистрации взаимодействий пользователей с новостями около 20 миллионов пользователей Yahoo с февраля 2015 года по май 2015 года. Набор данных содержит около 100 миллиардов событий. Набор данных Yahoo News Feed был взят из новостных лент нескольких ресурсов Yahoo, включая домашнюю страницу Yahoo, Yahoo News, Yahoo Sports, Yahoo Finance, Yahoo Movies и Yahoo Real Estate.
Говоря о наборе данных, Суджу Раджан из Yahoo Labs сказал:
«Наши цели — способствовать независимым исследованиям в области крупномасштабного машинного обучения и рекомендательных систем, а также помочь уравнять правила игры между промышленными и академическими исследованиями. Набор данных доступен в рамках программы обмена данными Yahoo Labs Webscope, который представляет собой справочную библиотеку научно-полезных наборов данных, содержащих анонимные данные пользователя для некоммерческого использования ».
В дополнение к данным взаимодействия Yahoo предоставляет ряд категоризированной демографической информации для подмножества анонимных пользователей. Демографическая информация включает возрастной диапазон, пол и обобщенные географические данные. На стороне элемента набор данных содержит заголовок, резюме и ключевые фразы новостной статьи. Данные взаимодействия имеют временную метку с соответствующим местным временем, а также содержат частичную информацию об устройстве, используемом для доступа к ленте новостей. Раджан говорит это:
«позволяет проводить интересную работу в области контекстных рекомендаций и анализа временных данных».
Набор данных уже привел Yahoo к работе над масштабируемой системой рекомендаций, основанной на концепции машин факторизации, и к исследовательской работе, посвященной изучению взаимодействия с пользователем на основе количества времени, которое пользователи тратят на элементы контента. Yahoo Research также использовала данные для исследования таких областей, как моделирование поведения, рекомендательные системы, крупномасштабное и распределенное машинное обучение, ранжирование, онлайн-алгоритмы, моделирование контента и анализ временных рядов.
Есть надежда, что эти данные будут использоваться исследователями, специалистами по обработке данных и энтузиастами машинного обучения в академических кругах, которым нужен обширный набор реальных данных. Исследователи считают, что этот набор данных может стать эталоном для крупномасштабных систем машинного обучения и рекомендательных систем.