Инструмент, который очищает большие наборы данных от грязных данных, был разработан в Колумбийском университете и Калифорнийском университете в Беркли.
ActiveClean — это система, которая использует машинное обучение для улучшения процесса удаления грязных данных. Он анализирует модель прогнозирования пользователя, чтобы решить, какие ошибки следует отредактировать в первую очередь, при обновлении модели по мере ее работы. С каждым проходом пользователи видят, что их модель улучшается.
Проблема ошибок в наборах больших данных возникает из-за того, что они по-прежнему в основном объединяются и редактируются вручную. Задача удаления неверных или грязных данных в настоящее время решается либо с помощью программного обеспечения для очистки данных, такого как Google Refine и Trifacta, либо пользовательских скриптов, разработанных для конкретных задач очистки данных. По оценкам разработчиков ActiveClean, этот процесс занимает до 80 процентов времени аналитиков, поскольку они ищут грязные данные, очищают их, переобучивают свою модель и повторяют процесс.
Поскольку невозможно очистить все очень большие наборы данных, обычно происходит очистка случайного подмножества. Это может привести к статистическим ошибкам, которые затем искажают модели и приводят к неверным результатам.
ActiveClean позволяет избежать этих проблем, используя машинное обучение для удаления человеческого фактора на этапах поиска грязных данных и обновления модели. Он анализирует структуру модели, чтобы понять, какие типы ошибок вызывают наибольшее отклонение модели, ищет данные, которые могут вызвать эти ошибки, и очищает ровно столько данных, чтобы показать, что модель будет достаточно точной.
При тестировании базы данных корпоративных пожертвований врачам, когда данные использовались без какой-либо очистки данных, модель, обученная на этом наборе данных, могла предсказать неправильное пожертвование только в 66% случаев. ActiveClean повысил уровень обнаружения до 90 процентов, очистив всего 5000 записей. Альтернативный метод, активное обучение, требовал в 10 раз больше данных или 50 000 записей, чтобы достичь сопоставимого уровня обнаружения.
«Грязные данные широко распространены и мешают людям делать полезные вещи», — сказал Юджин Ву, профессор информатики в Columbia Engineering и член Института науки о данных, который участвовал в разработке ActiveClean в качестве постдокторанта в AMPLab в Беркли и продолжил эту работу в Колумбия. ActiveClean написан на Python и включает в себя основной алгоритм ActiveClean, тест очистки данных и (в будущем) детектор грязных данных.
Команда разработчиков представит свое исследование 7 сентября в Нью-Дели на конференции 2016 года по очень большим базам данных.