Не говоря уже о базах данных NoSQL — вероятностные базы данных — гораздо более важная тема. Они наверняка станут следующим большим достижением … или, возможно, обязательно станут …
Если ваши приложения используют данные, вы будете болезненно осознавать ограничения SQL при работе с данными, в которых вы не знаете всех значений.
Это нормально в традиционной базе данных, где запись — это запись, кто-то добавил ее вместе со значениями. Если вы пытаетесь использовать данные из таких источников, как электронные письма, каналы Twitter или блоги, для извлечения информации для систем бизнес-аналитики, вы не знаете, какие данные должны быть там, насколько они полны, а некоторые поля будут иметь неточные, неоднозначные значения. .
Вероятностные базы данных — это такие базы данных, в которых значение некоторых атрибутов или наличие некоторых записей являются неопределенными и известны только с некоторой вероятностью. Вероятностные базы данных, вероятно, будут становиться все более важными, поскольку неточные бизнес-данные из Интернета должны быть включены в системы бизнес-аналитики.
Признавая это, группа исследователей из Оксфордского университета разработала систему SPROUT, которая анализирует вероятностные данные. Кроме того, в сотрудничестве с командой Google Squared они разработали веб-систему поверх SPROUT, которая может интегрировать неопределенные, но динамические веб-данные с чистыми автономными реляционными базами данных и может отвечать на запросы SQL по ним.
Когда выполняется SQL-запрос, SPROUT возвращает набор ответов и аннотирует каждый ответ с вероятностью, представляющей степень уверенности в порядке убывания. Команда дает пример того, как можно использовать веб-систему для поиска информации о комедийных фильмах. На изображении каждая строка представляет характеристики фильма, такие как язык, режиссер и т. Д.
Для каждого поля отображается только значение с наивысшей степенью достоверности. Однако, если пользователь нажимает на это значение, отображаются альтернативные варианты. Система SPROUT будет представлена в этом месяце в Афинах на конференции SIGMOD.
Глава оксфордской команды Дэн Олтяну также является соавтором книги, в которой впервые описаны основы вероятностных баз данных.
Вероятностные базы данных (Morgan & Claypool, 2011) представляют собой первое унифицированное представление о состоянии дел в формализмах представления и методах обработки запросов для вероятностных данных. В нем также рассматривается продвинутая работа по компиляции запросов в диаграммы решений, последовательные вероятностные базы данных, индексы и базы данных Монте-Карло. Книга предназначена для исследователей, занимающихся базами данных или вероятностным выводом, или как учебник для продвинутых аспирантов.