NVidia выпустила коллекцию программных библиотек для машинного обучения и анализа данных. Система на базе графического процессора, RAPIDS, состоит из набора программных библиотек с открытым исходным кодом для конвейеров обработки данных и аналитики на графическом процессоре.
Цель RAPIDS — ускорить все элементы создания конвейера обработки данных, включая загрузку данных, ETL, обучение модели и логический вывод. Разработчики говорят, что RAPIDS до 50 раз быстрее в типичных сквозных рабочих процессах для обработки данных. Несмотря на то, что существует ряд существующих алгоритмов машинного обучения, использующих ускорение графического процессора, RAPIDS выделяется тем, что он охватывает весь процесс от загрузки данных до развертывания. Где RAPIDS получает преимущество в скорости, так это на этапах копирования и конвертации.
RAPIDS был разработан NVidia совместно с разработчиками из некоторых популярных проектов с открытым исходным кодом, в частности Apache Arrow, pandas и scikit-learn. NVidia также сотрудничает с другими компаниями с открытым исходным кодом, включая Anaconda, BlazingDB, Databricks, Quansight и scikit-learn. Программное обеспечение также интегрируется в платформу с открытым исходным кодом Apache Spark для анализа данных.
Программные библиотеки RAPIDS состоят из пакетов Python и имеют столбчатую структуру данных, называемую GPU DataFrame, которая реализует столбчатый формат данных Apache Arrow на GPU. DataFrame имеет API, похожий на pandas, что упрощает создание рабочих процессов с ускорением на GPU. RAPIDS поддерживает развертывание с несколькими узлами и несколькими графическими процессорами, что упрощает масштабирование и масштабирование. Этот API обрабатывает операции со столбцами данных, включая унарные и двоичные операции, фильтры, объединения и групповые операции. Под обложками вы найдете библиотеку Python PyGDF и реализацию C ++ / CUDA GPU DataFrames в libgdf.
Другой пакет — это набор алгоритмов машинного обучения, которые работают на графических фреймах DataFrames, и вы также получаете XGBoost, пакеты машинного обучения для обучения деревьев решений с градиентным усилением. Вы можете передавать данные напрямую в XGBoost, оставаясь в памяти графического процессора. Другие библиотеки включают библиотеку алгоритмов машинного обучения с ускорением на GPU, в том числе декомпозицию по сингулярным значениям (SVD), анализ главных компонентов (PCA), пространственную кластеризацию приложений с шумом на основе плотности (DBSCAN); и библиотека низкоуровневых математических и вычислительных примитивов.
RAPIDS выпускается под лицензией Apache. Контейнерные версии RAPIDS доступны в реестре контейнеров NVIDIA GPU Cloud.