tomoto Feb 8 2013 at 12:36

Что такое 100G?

4 min

45K

Network technologies *

From sandbox

+59

Comments 68

shsmad Feb 8 2013 at 12:44

*шутка про скорость передачи грузовика с жесткими дисками*

Но в целом скорости конечно поражают, еще бы оборудование под них было доступным и понятным… А бюджетным оно явно не скоро станет.

Blandinka Feb 8 2013 at 12:50

Это у кого какие бюджеты :)

DjPhoeniX Feb 8 2013 at 14:30

В.В., перелогиньтесь.

tomoto Feb 8 2013 at 12:47

На данный момент в магистральных сетях большой дальности выявляется тенденция, что уже дешевле строить по новой технологи (другое решение в дизайне усиления, компенсаций дисперсии в сумме уменьшают суммарную стоимость проекта), а стоимость оборудования все продолжает снижаться. Так что это вопрос времени, причем не очень большого.

librarian Feb 8 2013 at 12:53

Рэндалл Монро, автор xkcd во вторник как раз сравнивал (перевод), кто круче FedEx или весь Интернет, в плане передачи данных

tomoto Feb 8 2013 at 12:58

Для передачи больших объемов данных частным лицам или небольшим коммерческим предприятиям, действительно проще отправить курьера с носителем. Когда же мы говорим о больших передачах данных, например, между дата центрами, этот вариант не пройдет :)

librarian Feb 8 2013 at 13:00

Цитата:

Эта идея не нова, ее часто называют СникерНетом, именно так Google передает большие объемы данных внутри своей компании.

spacediver Feb 8 2013 at 13:20

Питер Джексон в одном из видео рассказывал, как парень из съемочной группы однажды понес пешком по городу айпод с чуть ли не всеми отснятыми материалами LOTR, а на на полдороге напали грабители, позарившись на айпод.

Убежал, спас фильм :)

UFO landed and left these words here

jazzman Feb 8 2013 at 13:54

позарились небось на айпод, а нёс парень сумку с хардами, забитыми каким-нибудь MJPEG2000.

spacediver Feb 8 2013 at 14:04

Не-не, они текущие материалы так носили.

jazzman Feb 8 2013 at 14:13

текущие материалы — само собой! айпод классик грех было не использовать в качестве переносного винта в 2003м году. упоминались-то «чуть ли не все отснятые материалы».

UFO landed and left these words here

nick4fake Feb 8 2013 at 15:08

Так дело не в резервных копиях (я думаю), а о материалах, которым лучше не покидать студию.

spacediver Feb 8 2013 at 17:48

Конечно. Если я правильно помню прямую речь, то они как раз скинули туда что-то вроде чернового монтажа всего фильма, и несли его кому-то показывать.

FFire Feb 8 2013 at 17:24

Ну, скорее всего на айподах были все же прокси файлы, а не оригинал. И это предположение позволяет вашему К.О. задать риторический вопрос:

А шифрование их делать не учили?

spacediver Feb 8 2013 at 17:51

Ну спросите, чо :)

FFire Feb 8 2013 at 18:26

Я позанудствую, ладно?
В общем-то это не дело режиссера доскональна разбираться в технических деталях кинопроизводства. Поэтому вопрос-то адресован не Джексону, а его DP.
Ну и это был, конечно, совсем не вопрос.

track Feb 8 2013 at 15:57

Там несколько съемочных площадок, на которых одновременно шла работа, и иногда быстрее всего скинуть материал, который должен режиссер посмотреть и «дать добро» на какой-то переносной диск. Речь не шла обо всех материалах и обо всем фильме, но о какой-то значительной его части, как я помню.

UFO landed and left these words here

FFire Feb 8 2013 at 17:30

Да, но буржуйская гопота могла выложить все в интернет. А это уже не санкционированная утечка. За это можно и партбилет на стол положить.

ToSHiC Feb 8 2013 at 14:25

Когда мы говорим о передаче между дата центрами 1ПБ данных, грузовик снова врывается в тредик :)

tomoto Feb 8 2013 at 15:25

А если пару петабайт надо гонять постоянно между континентами? На керосине разоришься :)

fanex Feb 8 2013 at 16:21

Все эти грузовик-нет почему-то не учитывают скорость записи на эти самые винты/диски и скорость считывания.

ToSHiC Feb 8 2013 at 19:27

А как именно вы хотите её учитывать?

1 петабайт — это минимум 500 SATA дисков обычно в полках по 24 диска, каждая полка подключена к отдельному серверу. 4 диска легко забивают 1 гигабит при линейном чтении или записи. И когда идёт разговор о переносе 1 петабайта данных в другой ДЦ — чаще всего это означает, что надо не копию сделать, а именно перенести данные, дабы освободить место в старом ДЦ или перераспределить нагрузку.

Из моего опыта, узкое место при подобных операциях — именно сеть, гигабитный интерфейс машинки и 10-гигабитные меж-ДЦ линки. При нормальной работе сервиса этих показателей вполне достаточно, но вот если хочется БЫСТРО перетащить подобные объёмы данных — грузовик рулит. Это — практика, коллеги так делали :)

bakset Feb 9 2013 at 05:22

Растягивается сеть между ДЦ (во втором ДЦ становится видна сеть первого ДЦ, маршрутизация это или просто растягивание L2 уже не важно), и начинается миграция данных возможно даже без перерыва предоставления сервиса. Все довольны. Кроме водителя грузовика, он остался без работы.
И еще… Вы упомянули перенос, а не копию. Это какой же надо иметь мозг, что бы решится перевезти полный грузовик ЖИВЫХ данных без их копии… Один шахид на маршрутке и все… бизнес данного ДЦ можно закрывать…

phprus Feb 9 2013 at 07:29

Вопрос в другом. Сколько времени займет такая миграция по сети?
Если у нас 10G между ЦОДами в соседних комнатах, то перекачивать данные на такой скорости не проблема, но если ЦОДы в разных городах, то получить ~10G полезной скорости становится задачей нетривиальной. Вот и получается в результате, что записать диски (ленты) и перевести их на другую площадку грузовиком или самолетом может оказаться быстрее, даже в случае если это репликация.

DLag Feb 10 2013 at 14:35

На самом деле задача совсем не сложная, многополосная передача дает 95-98% полезной скоростиэ

phprus Feb 10 2013 at 15:03

Но и совсем не простая.
Во первых мало что из коробки умеет так делать, во вторых такая сегментация данных иногда нежелательна, а иногда и невозможна, но самая большая проблема в том, что неэффективность нарастает с ростом расстояния(все проблемы от скорости света) и в результате многополосная передача может перестать давать тот-же эффект из-за взаимовлияния потоков друг на друга.

По этому сейчас вполне развиваются оба направления и то, как передавать данные параллельно и то, как увеличить эффективность передачи в каждом соединении.

ToSHiC Feb 9 2013 at 13:51

Простите, но какой же надо иметь мозг, чтобы хотя бы подумать о том, чтобы хранить 1ПБ данных в одной копии? Конечно же, данные живые, и конечно же перенос, но есть ещё как минимум 1 копия (а лучше две) в других датацентрах. Писать данные сразу в 3 копиях обычно не такая большая проблема, как перенести одну из копий.

На досуге, посчитайте, сколько времени придётся переливать через 10G канал 1 петабайт данных, причём только по ночам. Через несколько лет скорость каналов увеличится на порядок, и объёмы данных увеличатся на порядок, время переноса полной копии же изменится слабо.

bakset Feb 9 2013 at 16:20

При наличии живой копии (а если и не одной) это и не проблема вовсе.
Но кто по вашему живые копии хранит в двух ДЦ? Даже амазон так не делает, только за дополнительные деньги.
Я сталкивался с переездами ДЦ на грузовике когда ОДНА копия и она живая.
Да была система бекапа (и то уже что то), но вы попробуйте тот петабайт из бекапа поднять, за месяц может поднимется )

ToSHiC Feb 9 2013 at 17:35

Вы смешной такой, типичный диванный теоретик. Свои данные Амазон хранит в разных ДЦ. Яндекс хранит свои данные в разных ДЦ. Да любая компания, которая хочет работать при потере одного ДЦ (а это случается не так уж и редко, Амазон тому пример). И процесс перевоза данных, который растягивается на месяцы — это большая проблема.

Бекап и 1 петабайт данных — уже смешно. Как вы предлагаете это осуществить? Гугл просто держит 3 копии. Амазон в своём S3 тоже три копии. Яндекс тоже старается в 3 копиях.

bakset Feb 10 2013 at 05:01

Уважаемый, мы не переходили на личности. Я не теоретик, я практик, и практика моя очень обширна в данных вопросах. А в вашей компетентности у меня большие сомнения.
Амазон в нескольких ДЦ? И именно бесплатно (без дополнительных денег)??? Пруф в студию…
S3 этого не делает.
Совет на будущее… прежде чем разбрасываться высказываниями вникните в суть проблемы… а не выдавайте ответы на основе того что вы «где то слышали».

bakset Feb 10 2013 at 05:22

Amazon S3 redundantly stores your objects on multiple devices across multiple facilities in an Amazon S3 Region.

из этого утверждения это не значит 2 дата центра разнесенных на большое расстояние друг от друга, это может значить отдельный машинный зал (возможно со своими отдельными инфраструктурными системами). Но когда ложится один ДЦ полностью, как показывает опыт у амазона данные не доступны.

phprus Feb 10 2013 at 06:22

В это сложно поверить, но Амазон — это далеко не только облачные сервис. Это в первую очередь сервисы для своих внутренних нужд и что-то мне подсказывает, что для себя они и кроссдатацентровую репликацию используют и много чего еще, что для внешних клиентов только за отдельные деньги продается.

Я не теоретик, я практик, и практика моя очень обширна в данных вопросах.

Прошу прощения за нескромный вопрос, но, например?

ToSHiC Feb 10 2013 at 11:09

Что ж, извините, если задел.

Amazon AWS — это сервисы, которые были разработаны изначально для работы самой компании, но потом стали продаваться наружу. Почти каждый из них изначально был сделан именно для внутренних нужд: понадобилась аналитика для рекламы — научились поднимать Hadoop — сделали Elastic MapReduce. Аналогично, построили несколько ДЦ, в которых есть S3 — научились записывать данные в разные ДЦ для увеличения доступности площадки amazon.com — стали продавать за деньги. Если кто-то не хочет покупать эту услугу за дополнительные деньги (а аренда каналов между ДЦ не бесплатная), то он сам себе злобный буратино. Почему это должно быть бесплатно? Почему вы считаете, что свои данные Амазон хранит в одном ДЦ?

Совет про вникание в суть неплохой, прислушайтесь к нему и сами :) В контексте тредика (напомню, 1 петабайт данных) вы делали следующие высказывания и предположения: 1 копия данных, бэкап, несколько месяцев переливки данных это не проблема, никто не хранит живые копии в нескольких ДЦ.

Чтобы развеять ваши сомнения — я, внезапно, занимаюсь разработкой хранилища данных в Яндексе, с объёмами пользовательских данных порядка петабайтов. И я, как мне кажется, несколько в курсе проблем, упомянутых в тредике.

Очень жду вашего ответа с рассказом о вашем опыте в сфере хранения больших объёмов данных. Ещё раз прошу прощения за диванного теоретика.

bakset Feb 10 2013 at 14:07

Про диванного теоретика принято )
Ну если «внезапно, занимаюсь разработкой хранилища данных в Яндексе» это интересно. Какой то определенный сервис? Ведь я подозреваю требования к стораджу явно отличаются от типа сервисов.
По моему опыту если очень кратко, то опыт проектирование и строительства нескольких ЦОД с нуля, уровнь tier3 по TIA. Система оптических колец по Москве между 4-мя ДЦ. По стораджам Метрокластер, Active/Active хранилище на базе 2-х ЦОД, синхронная и асинхронная репликация, всё это на FC и iSCSI, хотя было и еще немного на NFS. Профиль данных критический к потере и простою (не нарисованный, реальный SLA >99,9), внутренние данные разных компаний. Ну как то так если коротко )

ToSHiC Feb 11 2013 at 11:02

Мы стараемся делать более общее решение, а сервисы уже используют его слегка по-разному. Если UGC — то 3 копии в 3 разных ДЦ, сервис может полноценно работать даже при потере одного ДЦ. Большинство хочет хранить много данных, и производительность лимитируется диском. Для внутренних нужд сервисов применяются и другие конфигурации. Недавно прикидывали производительность при чтении/записи в память селких ключей (эдакий аналог memcache) — получилось больше 200 тысяч запросов в секунду обрабатывать на одной машине, 8 ядер из настоящих 16 были в sys :) Это как раз вариант, когда надо хранить мало данных, но очень быстро их в реалтайме обрабатывать, агрегировать и изредка скидывать на диск.

Из сильных отличий от всяких метрокластеров — работа с объектами, а не с блочными устройствами. Существенно упрощается синхронизация записей, можем делать какую-то работу на стороне хранилища, да хоть MapReduce организовать по данным. Ну и полностью горизонтальное масштабирование, чего совсем нет у NetApp и прочих производителей хранилищ с FC/iSCSI/AoE интерфейсами, которые предоставляют именно блочные устройства. Причём масштабирование как по объёму, так и по количеству клиентов — нет никаких ограничений, сколько машин работают с данными клиентов, каждый объект блокируется независимо от остальных. Но какой нибудь Оракл уже не запустишь, факт.

Кстати, фейсбук, оказывается, именно от NetApp и отказался, когда перешёл на самопальное хранилище haystack: www.niallkennedy.com/blog/2009/04/facebook-haystack.html

bakset Feb 11 2013 at 15:05

У NetApp коли мы о нем ) Появился режим Cluster-Mode это как раз то что может параллелится хорошо. 26 систем (по 2 контроллера каждая) на NFS, и 6 систем на блочных протоколах iSCSI и FC.
Тема хорошая как раз для BigData. Стоимость конечно не сахар… но зато «почти из коробки».
Если бы тогда это у неттапа было не в стадии глухой беты (раньше у них это называлось OoTap GX) то глядишь и facebook бы не свалил.
Но как говорится хороша ложка к обеду )

ToSHiC Feb 11 2013 at 17:37

Максимум 900 метров между нодами, на сколько я понял, маловато будет :) К тому же, 26 систем — это уже ограничение сверху, около 50 петабайт суммарно, да? Мне кажется, сейчас у фейсбука уже больше фоточек.

И это всё же не про BigData. BigData — это, прежде всего, возможность локального выполнения операций над данными. Когда это свойство теряется — Map из MapReduce становится сильно накладнее, и в итоге время обработки данных вырастет. Ну и, опять же, линейное наращивание мощностей — воткнул ещё сотню серверов с полками дисков и вперёд.

Кстати, с большим удовольствием посмотрел бы, как у NetApp сделана консолька администратора системы — наверняка же там как-то рисуется, где что поломалось, какой диск надо поменять и т.д. Если хотите — можно как нибудь встретиться, я порассказываю, как у нас хранилище устроено и как решаются основные проблемы.

bakset Feb 11 2013 at 18:53

Да, все верно ограничения такие есть. Со временем обещают убрать, тогда да будет интереснее.
Да, линейное наращивание это конечно здорово, но для блочного доступа (применительно к большим нагрузкам, преимущественно случайным) нормальных вариантов (цена, надежность, производительность, гибкость, масштабируемость) особо и нет.
А то что заявляется как таковое, если оно как программное решение (то есть может ставится на свою конфигурацию-сервер) по сути имеют кучу проблем (как например: IBM GFS, Gluster и т.д. ). Так что то же NetApp позволяет хотя бы спать спокойно )

По поводу выхода диска на нетапп вообще прикольная тема, он сам отправляет репорт производителю и автоматически заказывает новый диск, который привозят на следующий день. Вообще без человеческого участия, только расписаться при получении )

ToSHiC Feb 12 2013 at 07:44

Так в том то и дело, что для BigData в том понимании, в котором оно есть в гугле/фб/амазоне/etc, блочные устройства не нужны и даже неудобны. Хотя бы тем, что блочное устройство не прицепишь одновременно к нескольким машинкам. Не локально, опять же. Если интересно — почитайте про HDFS и Google File System и Google Bigtable, там как раз хорошо описан подход к хранению и горизонтальному масштабированию.

fanex Feb 10 2013 at 22:21

Я думаю что при переносе между дата-центрами, перетащить БЫСТРО — не такой важный критерий по сравнению с перетащить НЕ ЗАГРУЖАЯ КАНАЛЫ. Для чуваков, у которых предоставление каналов — это основная форма заработка (наряду с предоставлением вычислительных мощностей), возможность использования альтернатив — это деньги.

ToSHiC Feb 11 2013 at 10:47

Чаще всего для того, чтобы не убивать каналы, достаточно тегировать траффик, только литься будет дольше. Всё равно есть часы наименьшей нагрузки. А вот когда надо именно относительно быстро перелить данные (а такое иногда бывает) — то тут уже надо что-то придумывать. И у перевозки на грузовиках есть куча минусов, типа неизбежных потерь дисков при погрузке-разгрузке, перевозке и т.д., требуется какая-никакая логистика, да и банально полки с дисками тяжёлые, инженеры ДЦ могут и не согласится забесплатно их тягать целый день. Но зато очень быстро.

bakset Feb 11 2013 at 14:59

Тут QoS должен прийти на помощь.

tomoto Dec 6 2016 at 18:28

Забавно, но: https://aws.amazon.com/ru/snowball/
Таки это заработало

https://aws.amazon.com/ru/blogs/aws/aws-snowmobile-move-exabytes-of-data-to-the-cloud-in-weeks/

phprus Feb 8 2013 at 15:21

Когда же мы говорим о больших передачах данных, например, между дата центрами, этот вариант не пройдет :)

Но, тем не менее, это не мешает использовать данный метод и крупным компаниями для передачи данных между датацентрами :)
К сожалению, я вынужден остаться голословным, так как этот удивительный для меня факт я узнал из личной беседы с европейскими коллегами о смысле жизни в системах передачи данных.

strib Feb 8 2013 at 13:06

Хорошо что такие статьи появляются.

Только вот проблему cycle slip нормально так и не решили… Дополните?

1T уже вышел из лаборатории в январе сего года.
www.nec.com/en/press/201301/global_20130117_02.html

tomoto Feb 8 2013 at 13:27

Вообще они и ранее интересные данные выкладывали: www.oiforum.com/public/documents/Neda_AO-OFDM_WS08_Presentation_final.pdf но информации очень мало.
Пока это все тесты. Но в данном случае используется не просто увеличение сложности модуляции но и применения фильтров найквиста для формирования суперченела, фактически это агрегат из 100G каналов с минимальными межканальными интервалами, работающее как единое целое. И каждый subcarier это отдельный передатчик. И это отдельная тема для отдельной статьи. К сожалению пока данных очень мало по этой теме.

Касательно Slip, для 100G де факто проблема не имеет значения. Реальное проявление стоит ожидать в >400G системах, но они еще в стадии разработки.

strib Feb 8 2013 at 13:38

Да понятно что это суперканал )
Данных достаточно, в частности в библиотеке IEEE, но все статью по $10 за штуку…
Но узкие специалисты мне подсказывают что на 100G на магистралях slip имеет место, и является ощутимой проблемой.

tomoto Feb 8 2013 at 13:46

Если есть возможность поделиться информацией, буду рад. Вопрос интересный, я пока проблем связанных с этим на коммерческих сетях не встречал. Возможно проблема в том, что это очень сложно зафиксировать. По крайней мере на краткосрочных тестах это не фиксируется, по аналогии с вандером.

strib Feb 8 2013 at 14:11

Детали попробую уточнить, но обещать не могу.
Знаю что на магистралях он себя проявляет. И именно во время длительных тестов.

leon_ti Feb 8 2013 at 13:06

Спасибо за статью, очень познавательно!

Для сравнения ещё стоит отметить, что существующие сейчас порты 100GbE и 40GbE, например, коммутаторов Cisco, Juniper или Extreme на физическом уровне устроены как несколько (4 или 10) интерфейсов со скоростью 10 или 25 Гбит/с.

Поэтому, как правило, когерентные DWDM-транспондеры для интерфейсов 100G работают как мультиплексоры для нескольких низкоскоростных потоков.

tomoto Feb 8 2013 at 13:16

Клиентские порты действительно работают так, но там используется простейшее волновое уплотнение, просто для передачи по одному волокну. В частности там используется уплотнение с сеткой CWDM.
Для DWDM сетей 100G возможна как передача «чистого» 100G так и агрегата 10*10G.

Zagrebelion Feb 8 2013 at 14:58

В OTN сетях ODU4 тоже передаётся как агрегация 10x10? Или вы имеете в виду 10xODU2?

tomoto Feb 8 2013 at 15:09

Нет, в OTN сетях OTU4 это стандартизированый контейнер верхнего порядка со скоростью порядка 112Гбит/c. Агрегат передается в этом контейнере посредством например 10*ODU2, 2*ODU3 и т.д. В принципе ничто вам не запрещает передавать 100*1Ge, но это не очень выгодно экономически.

Zagrebelion Feb 8 2013 at 15:36

Экономическая выгода зависит от клиентов, которые в этом контейнере передаются. Мы сейчас внутриобластные линки поднимаем на одну ступень (2x1->10, 10->40), при этом на данный момент десятки хватает, так что если найдутся желающие, то можно передавать ODU2+ODU2+8xODU1, почему бы и нет? Всё равно половина контейнера свободна будет ещё долго.

leon_ti Sep 2 2013 at 09:53

Да, с небольшим уточнением: я говорил об электрической части клиентских интерфейсов.
То есть независимо от вида оптического транспорта (есть даже варианты трансиверов с оптическим шлейфом, без всяких CWDM/DWDM) электрический интерфейс максимум 25Gbit/s.

xscrew Feb 8 2013 at 15:26

А расскажите каким образом там производится балансировка? По какому алгоритму трафик раскладывается по линкам?

tomoto Feb 8 2013 at 16:09

К сожалению настолько глубоко я стандарт 802.3 не знаю, но его тех описание можно скачать тут standards.ieee.org/getieee802/download/802.3ba-2010.pdf и ознакомится. Кроме того я натыкался вот на эту статью, она достаточно интересна.

xscrew Feb 8 2013 at 16:13

Посмотрю, спасибо.

tomoto Feb 8 2013 at 16:48

Не за что. Кстати вспомнил еще был хороший пост тут: habrahabr.ru/post/102432/ как раз там немного рассказано про балансировку.

xscrew Feb 8 2013 at 16:56

Понятно, обычный round-robin и некие маркеры для синхронизации. В принципе — просто.

yurnov Feb 8 2013 at 19:47

На пороге новые сложности, в данный момент идут активные исследования передач на скоростях 400Gbit и 1000Gbit (1Tbit) в секунду и думаю, что через пару лет и эти технологии шагнут из лабораторий в мир практического использования.

Позволю себе добавить, что 400G и 1T активно показывали год назад на MWC, несколько дней назад ALU похвасталась запуском 400G на сети Orange в комерческую эксплуатацию, а Huawei показал 2T (в вариантах 400ГГц на сравнительно короткие, и 600ГГц на длинные растояния)

iSinkler Feb 9 2013 at 11:58

ну вот, весь мир пробует 100G скорости, а у нас в Норильском промышленном районе всё еще 1 Мб/с стоит 7 тыс.руб/мес. И то не понятно что там с заявленной скоростью. Когда же до нас цивилизация дойдет? =(

tomoto Feb 9 2013 at 14:12

Думаю еще лет 5 надо.

iSinkler Feb 9 2013 at 14:28

это очень-очень грустно!

Zveroloff Feb 10 2013 at 08:58

С учётом смены руководства, боюсь что про апгрейд ваших каналов хз когда ещё вспомнят.