Как стать автором
Обновить

Команда Microsoft Research побила мировой рекорд по сортировке

Время на прочтение2 мин
Количество просмотров1.9K
На сайте sortbenchmark.org ежегодно проводятся конкурсы по сортировке больших наборов данных. Один из видов соревнований — minute sort, в котором необходимо за минуту прочитать с диска и сортировать как можно большее число записей и сохранить результат в файл. Конкурс проходит в двух категориях — Indy, без ограничений на используемое железо, и Daytona — должны использоваться только обычные компьютеры “из магазина”.

Команде Microsoft Research удалось многократно превысить державшийся с 2009 года рекорд Yahoo в категории Daytona. Их кластер, состоящий из 1033 дисков на 250 машинах, справился с 1401 гигабайтом данных. Это почти втрое лучше результата Yahoo (500 гигабайт), при том, что кластер Yahoo был почти в шесть раз больше (5624 диска на 1406 машинах). Более того, майкрософтовский кластер побил и прошлогодний рекорд в категории Indy (1353 гигабайта).

Таких впечатляющих результатов удалось добиться благодаря технологии Flat Datacenter Storage (FDS). Microsoft не использовала типичные для таких задач решения на базе парадигмы MapReduce. Для некоторых задач, и сортировка — одна из них, невозможно обрабатывать части данных независимо друг от друга на разных узлах, как это делается в MapReduce-решениях. От необходимости перемещать огромные объёмы данных никуда не деться.

Технология FDS использует тот факт, что с того времени, как была создана архитектура MapReduce, сети стали намного быстрее и дешевле. Это позволило построить кластер, в котором каждый компьютер способен общаться с любым другим одновременно на полной скорости своего сетевого интерфейса (такая сеть называется full bisection bandwidth network). Таким образом, вместо инфраструктуры Hadoop, которую использовала в 2009 году Yahoo, команда Microsoft Research использовала сетевую файловую систему, которая позволяет обращаться к любым данным на любом узле так, как будто они находятся на локальном диске.

Microsoft планирует применить архитектуру FDS в датацентрах, обслуживающих поисковик Bing.

Теги:
Хабы:
Всего голосов 89: ↑75 и ↓14+61
Комментарии41

Публикации

Истории

Ближайшие события