Amazon анонсировала девять новых общедоступных наборов данных AWS для исследователей и разработчиков, заинтересованных в машинном обучении, науках об окружающей среде, геопространстве, астрономии, кибербезопасности и жилищном строительстве.
Программа AWS Public Dataset Program покрывает стоимость хранения общедоступных ценных наборов данных, оптимизированных для облака. Наборы данных в нем можно использовать для анализа на AWS, а также целью является разработка новых облачных методов, форматов и инструментов, снижающих стоимость работы с данными.
Набор данных машинного обучения — это массивно многоязычный набор данных изображений из Пенсильванского университета. Набор данных содержит изображения в паре со словами, которые они представляют на 100 языках, и набор данных является дважды параллельным: для каждого языка слова хранятся параллельно изображениям, которые представляют слово, а также параллельно с переводом слова на английский язык. На изображении ниже показаны пять изображений индонезийского слова «kucing», слова с высокой прогнозируемой конкретностью, а также его 4 лучших перевода с использованием функций CNN:
Есть три набора экологических данных. Первый — это набор атмосферных детерминированных и вероятностных прогнозов Метеорологического управления Великобритании. Фактически это обновление ранее доступных данных, но теперь оно обновляется ежедневно.
Второй набор экологических данных представляет собой сборник научной информации для землевладельцев от правительства Квинсленда. База данных состоит из климатических данных Австралии с 1889 года по настоящее время.
Третий сборник экологических данных — это данные о качестве воздуха и радиации от Safecast. Safecast был запущен после аварии на АЭС «Фукусима-дайити», когда добровольцы начали мониторинг уровня радиации. Позже были добавлены измерения качества воздуха, и проект распространился по всему миру.
Есть два новых набора геопространственных данных; данные о высотах USGS 3D, которые содержат данные о высоте в форме данных по обнаружению света и дальности (LiDAR) над США, Гавайями и территориями США, с данными, полученными за 8-летний период; и набор изображений, собранных китайско-бразильским спутником земных ресурсов AMS Kepler.
В астрономическом секторе есть данные со спутника Transiting Exoplanet Survey Satellite (TESS), двухлетнего обзора экзопланет на орбите вокруг ярких звезд.
Доступны также данные модели открытого города. Это инициатива по предоставлению данных cityGML для всех зданий в США. Используя другие открытые наборы данных в сочетании с собственным кодом и алгоритмами исследователей, мы намерены предоставить трехмерную геометрию для каждого здания в США.
Последним дополнением является набор наборов данных из QIIME 2. Учебные наборы данных для пользователей Microbiome Research содержат пользовательские документы и наборы данных для QIIME 2. QIIME — это расширяемый и децентрализованный пакет анализа микробиома с упором на прозрачность данных и анализа. Это позволяет исследователям начать анализ с необработанных данных о последовательности ДНК и закончить с помощью цифр качества публикации и статистических результатов.