Вероятностные базы данных — следующая большая вещь?


Не говоря уже о базах данных NoSQL — вероятностные базы данных — гораздо более важная тема. Они наверняка станут следующим большим достижением … или, возможно, обязательно станут …

Вероятностные базы данных

Если ваши приложения используют данные, вы будете болезненно осознавать ограничения SQL при работе с данными, в которых вы не знаете всех значений.

Это нормально в традиционной базе данных, где запись — это запись, кто-то добавил ее вместе со значениями. Если вы пытаетесь использовать данные из таких источников, как электронные письма, каналы Twitter или блоги, для извлечения информации для систем бизнес-аналитики, вы не знаете, какие данные должны быть там, насколько они полны, а некоторые поля будут иметь неточные, неоднозначные значения. .

Вероятностные базы данных — это такие базы данных, в которых значение некоторых атрибутов или наличие некоторых записей являются неопределенными и известны только с некоторой вероятностью. Вероятностные базы данных, вероятно, будут становиться все более важными, поскольку неточные бизнес-данные из Интернета должны быть включены в системы бизнес-аналитики.

Признавая это, группа исследователей из Оксфордского университета разработала систему SPROUT, которая анализирует вероятностные данные. Кроме того, в сотрудничестве с командой Google Squared они разработали веб-систему поверх SPROUT, которая может интегрировать неопределенные, но динамические веб-данные с чистыми автономными реляционными базами данных и может отвечать на запросы SQL по ним.

Когда выполняется SQL-запрос, SPROUT возвращает набор ответов и аннотирует каждый ответ с вероятностью, представляющей степень уверенности в порядке убывания. Команда дает пример того, как можно использовать веб-систему для поиска информации о комедийных фильмах. На изображении каждая строка представляет характеристики фильма, такие как язык, режиссер и т. Д.

Для каждого поля отображается только значение с наивысшей степенью достоверности. Однако, если пользователь нажимает на это значение, отображаются альтернативные варианты. Система SPROUT будет представлена в этом месяце в Афинах на конференции SIGMOD.

Глава оксфордской команды Дэн Олтяну также является соавтором книги, в которой впервые описаны основы вероятностных баз данных.

Вероятностные базы данных (Morgan & Claypool, 2011) представляют собой первое унифицированное представление о состоянии дел в формализмах представления и методах обработки запросов для вероятностных данных. В нем также рассматривается продвинутая работа по компиляции запросов в диаграммы решений, последовательные вероятностные базы данных, индексы и базы данных Монте-Карло. Книга предназначена для исследователей, занимающихся базами данных или вероятностным выводом, или как учебник для продвинутых аспирантов.


Добавить комментарий