Библиотека с открытым исходным кодом Kedro для машинного обучения


Выпущена новая платформа рабочего процесса разработки с открытым исходным кодом для создания кода машинного обучения. Kedro имеет интеграцию с PySpark и SDK для работы с наборами данных.

Kedro был разработан QuantumBlack, аналитической фирмой, приобретенной McKinsey в 2015 году, а название Kedro происходит от греческого слова, означающего центр или ядро. Kedro помогает структурировать конвейер данных, используя принципы разработки программного обеспечения. Он также обеспечивает стандартизированный подход к совместной работе для команд.

Причина разработки Kendro заключается в том, что специалисты по обработке данных не привыкли работать в командах, поэтому для эффективного сотрудничества необходимо согласовать общую основу. Кендро разработан, чтобы позволить командам принять беспристрастный стандарт. Он также предназначен для создания воспроизводимого, модульного, контролируемого, тестируемого и хорошо документированного кода.
Kedro был развернут Kedro внутри QuantumBlack и McKinsey для более чем 50 проектов, и разработчики говорят, что это произвело революцию в их рабочих процессах.
Программное обеспечение основано на стандартном шаблоне проекта, который можно настроить для учетных данных, ведения журнала, загрузки данных и Jupyter Notebooks. Он также имеет интеграцию с Sphinx для создания документации. Он также заботится об абстракции данных и управлении версиями.
Kedro поддерживает чистые функции (узлы) Python, позволяющие разбивать большие фрагменты кода на небольшие независимые разделы. Он имеет автоматическое разрешение зависимостей между узлами, и есть планы для инструмента визуализации, который покажет вам структуру конвейера проектов Kedro.

Kedro также включает Kedro-Airflow, инструмент, который позволяет вам прототипировать конвейер данных в Kedro перед развертыванием в Airflow. Также есть Kedro-Docker, инструмент для упаковки и доставки проектов Kedro в контейнеры Docker.
Kedro можно развернуть локально, на локальных и облачных (AWS, Azure и GCP) серверах или в кластерах (EMR, Azure HDinsight, GCP и Databricks).
Он подходит для широкого спектра приложений, от однопользовательских проектов до программного обеспечения корпоративного уровня, определяющего бизнес-решения на основе моделей машинного обучения.


Добавить комментарий