Инструмент «hands-off data wrangling» был запущен фабрикой ценности данных, дочерней компанией из Манчестерского университета. Разработчики говорят, что система подготовки данных предназначена для минимизации времени, затрачиваемого на подготовку данных для анализа.
Система подготовки данных позволяет сократить время, затрачиваемое на подготовку данных для анализа, за счет изменения способа подготовки данных. Пользователи описывают, что им нужно, и система будет использовать все имеющиеся доказательства для очистки и интеграции их данных. Затем результаты могут быть уточнены путем предоставления обратной связи и пересмотра списка приоритетов.
Соучредитель Фабрики ценности данных Проф. Норман Патон сказал:
“Акцент делается на уточнении описания того, что необходимо, а не на определении того, как это должно быть произведено.”
Для использования этого инструмента пользователи предоставляют любое количество источников данных, целевую структуру, приоритеты качества и, при необходимости, примеры данных. Целевая структура и приоритеты в области качества четко определяют требования пользователей. Пример данных предоставляет доказательства, которые используются составителем данных для очистки и интеграции данных. Затем система подготовки данных изучит, как источники данных связаны друг с другом и с целью, восстановит и переформатирует, где это необходимо, и заполнит цель из источников.
Пользователю не нужно предоставлять конвейеры обработки данных, редактировать электронные таблицы или писать сценарии или правила для работы с данными, и данные из нескольких источников могут быть автоматически восстановлены, преобразованы и объединены. После того, как целевые данные собраны, вы можете посмотреть, как были получены значения данных, чтобы можно было проверить их достоверность.
Существующие решения для подготовки данных включают в себя, без исключения, значительное количество мелкозернистых решений, которые, как правило, препятствуют подготовке данных в масштабе. Компания из Манчестера ожидает, что в отличие от других инструментов подготовки данных, где пользователю необходимо принимать несколько решений, те, кто использует средство подготовки данных, смогут получить лучшую ценность от своих данных даже в тех случаях, когда количество доступных источников данных непомерно велико для обычной ручной подготовки данных или когда источники данных не имеют полного определения схемы, например источники озера данных или результаты веб-извлечения.
Бесплатная месячная пробная версия Data Preparer доступна для загрузки в целях оценки