Команда Microsoft Research возглавила тест сортировки данных MinuteSort с использованием специально разработанной технологии Flat DataCenter Storage.
MinuteSort — это проверка того, сколько данных можно отсортировать за минуту, и команда Джереми Элсона из Microsoft трижды отсортировала данные предыдущего рекордсмена (команда Yahoo в 2009 году).
Цифры впечатляют — 1401 гигабайт за 60 секунд при использовании 1033 диска на 250 машинах. Согласно сообщению в блоге о тесте от Microsoft, это не только в три раза больше, чем предыдущая запись, но и использует только шестую часть аппаратных ресурсов.
MinuteSort — это средство измерения скорости обработки данных, разработанное покойным Джимом Греем, известным ученым Microsoft Research. Награда за достижения команды будет вручена во время конференции SIGMOD / PODS 2012, международного форума исследователей, практиков, разработчиков и пользователей баз данных, который проходит на этой неделе в Скоттсдейле, штат Аризона.
Команда MinuteSort: (слева направо) Джон Хауэлл, Джереми Элсон, Эд Найтингейл, Ютака Судзу, Джинлян Фан, Джонсон Апасибл и Рич Дрейвс.
Что интересно в успехе, так это используемые технологии. В то время как такие решения, как Hadoop и MapReduce, традиционно используются для работы с большими наборами данных, Microsoft Research создала собственную технологию, названную «Flat Datacenter Storage», или сокращенно FDS.
Джереми Элсон, Эд Найтингейл и Джон Хауэлл из Microsoft Research придумали идею, лежащую в основе FDS, для решения проблем, с которыми традиционные решения имеют проблемы, например, когда у вас есть два больших набора данных и вы хотите объединить их. Они выяснили, что увеличение пропускной способности сети можно использовать для создания более простой модели сортировки данных, в которой каждый компьютер видит все данные.
Если в сетях с полной пропускной способностью пополам Microsoft Research провести воображаемую линию через совокупность компьютеров, соединенных сетью с полной пропускной способностью пополам, каждый компьютер на одной стороне линии мог бы отправлять данные на полной скорости на каждый компьютер на другой стороне. линии, и наоборот, независимо от того, где она нарисована. Эта технология используется FDS. Элсон использует сравнение организационной схемы, показывающей, кому подчиняются сотрудники в компании. В иерархической компании сотрудники подчиняются начальнику, затем другому начальнику и так далее. В «плоской» организации они в основном отчитываются перед всеми, и наоборот. FDS имитирует плоскую организацию, поскольку все компьютеры подчиняются друг другу.
Конечно, это не просто академические исследования. Команда Microsoft Research уже работает с командой Bing, чтобы помочь Bing ускорить результаты поиска, и есть планы использовать его в других технологиях Microsoft.