Cloudera обновила платформу данных Cloudera, чтобы предоставить возможность развертываниям Apache HBase использовать Amazon Simple Storage Service (S3) в качестве основного уровня сохраняемости для сохранения табличных данных.
Преимущество этого предложения заключается в том, что Amazon S3 использует метод оплаты с оплатой по факту использования без каких-либо серверных компонентов для запуска или управления для S3. Платформа данных Cloudera (CDP) описывается как объединение лучших технологий Hortonworks и Cloudera для создания облака корпоративных данных, которое включает облачные сервисы для хранения данных, машинного обучения, потокового приема и операционных хранилищ данных.
Apache HBase — это распределенная нереляционная база данных с открытым исходным кодом Hadoop, созданная по образцу Google BigTable, которая предлагает произвольный доступ для чтения / записи в реальном времени к большим данным. Цель Apache в этом проекте — разместить очень большие таблицы — миллиарды строк X миллионы столбцов — на верхних кластерах стандартного оборудования.
Amazon Simple Storage Service (S3) предлагает безопасное, надежное и масштабируемое объектное хранилище по невысокой цене.
До сих пор было невозможно использовать S3 непосредственно из HBase, потому что HBase требует согласованной и атомарной файловой системы, тогда как S3 обеспечивает в конечном итоге согласованное хранилище объектов. Это означает, что HBase был ограничен использованием HDFS, вместо того, чтобы иметь возможность использовать S3 изначально. Cloudera создала решение, которое предлагается через CDP. Когда вы запускаете кластер операционной базы данных (HBase) на CDP, HBase StoreFiles (резервные файлы для таблиц HBase) сохраняются в S3, а журналы упреждающей записи (WAL) HBase хранятся в экземпляре HDFS, который запускается вместе с HBase, как обычно.
По сути, это зависит от использования адаптера файловой системы Hadoop S3A, который получает доступ к данным в S3 через стандартные API файловой системы. Hadoop S3Guard также используется для вывода списка каталогов и статуса объекта для адаптера S3A, чтобы HBase видел, когда новые StoreFiles добавляются в таблицу HBase.
Новым элементом является семантика хранилища объектов HBase (HBOSS), новый программный проект, который был добавлен в проект Apache HBase для устранения разрыва между S3Guard и HBase. HBOSS — это фасад поверх адаптера S3A и S3Guard, который использует распределенную блокировку, чтобы гарантировать, что операции HBase могут атомарно манипулировать своими файлами на S3.