Google запустил настраиваемый поиск, нацеленный на «ученых, журналистов данных и компьютерных фанатов», которым необходимо находить наборы данных независимо от того, где они размещены.
Цель поиска — дать людям возможность найти нужные данные из множества репозиториев данных в Интернете. Инструмент работает аналогично Google Scholar, который можно использовать для поиска данных в научных статьях.
Поиск по набору данных частично зависит от создателей или поставщиков набора данных, которые предоставляют метаданные для поиска, например, кто создал набор данных, когда он был опубликован, цитирование с описанием набора данных, сводные ключевые слова и пространственный охват. Эти метатеги индексируются поиском по набору данных и объединяются с данными из сети знаний Google, которая отображается в виде информационного окна рядом с результатами поиска, чтобы сделать результаты более полезными. Google собирает и связывает эту информацию, анализирует, где могут находиться разные версии одного и того же набора данных, и находит публикации, которые могут описывать или обсуждать набор данных.
Текущая версия Google Dataset Search содержит ссылки на большинство наборов данных в области экологических и социальных наук, а также данные из других дисциплин, включая правительственные данные и данные, предоставленные новостными организациями.
Разработчики говорят, что по мере того, как все больше репозиториев данных используют стандарт schema.org для описания своих наборов данных, разнообразие и охват наборов данных, которые пользователи найдут в Dataset Search, будут продолжать расти. Как признает Google, успех DataSet Search будет зависеть от организации, решившей добавить теги метаданных к своим материалам, чтобы сделать их доступными для процесса индексирования, но, учитывая возможности Google, маловероятно, что какая-либо организация, предоставляющая данные в Интернете, будет игнорируйте это требование.
Поиск по набору данных работает на нескольких языках, и «скоро» появится поддержка дополнительных языков.