DimaSmirnov May 13 2013 at 19:18

Миллион PPS в секунду — связанность и балансировка

7 min

28K

High performance*

From sandbox

+42

Comments 55

yuretsz May 13 2013 at 20:18

Если не трудно, можете рассказать почему решили остановиться на salt?

DimaSmirnov May 13 2013 at 20:23

Главная причина — человеческий фактор. Тяжеловесы puppet и chief более инертны, чем молодой проект salt. Плюс солт многопоточен (написан на питоне) — если паппет деплоит кластер за 50 секунд на какой-то задаче, то солт справится с аналогичной задачей секунд за 15-20, не более. Быстрая реакция вбагтреке. Думаю перечисленного достаточно. Да и все задачи, которые нам требуется решать, солт выполняет на 100%.

yuretsz May 13 2013 at 20:24

Полагаю, что прироста в скорости уже достаточно.

DmitryKoterov May 14 2013 at 02:53

Посмотрите еще ansible — тоже очень хорошая система и, главное, она простая и предсказуемая. Тоже на питоне.

logan May 13 2013 at 20:26

Анонс сети /24 может вызвать проблемы со связанностью, потому, что некоторые провайдеры фильтруют черезмерно короткие префиксы (а /24 считается коротким)

DimaSmirnov May 13 2013 at 20:29

Коротким /24 не считается — это сеть класса С, а вот менее (например /28) — да.

logan May 13 2013 at 21:00

Более-менее нормальным считается анонс от /22. Сеть /28 будет отфильтрована с почти 100% верноятностью.

nadz May 14 2013 at 01:01

Это как раз та самая граница.
/24 чаще всего проходит, но в рамках дефолтов. Всё, что меньше — фильтруется. Всё, что больше — проходит. Но зачастую, большие провайдеры и /24 фильтруют.

DimaSmirnov May 14 2013 at 01:05

/24 может не пройти, если в RIPE /23 не порубить на 2 по /24 — такое случалось. Да и не всех магистралов это качается — многие и /28 пропускают.

nadz May 14 2013 at 01:07

Как раз об этом и говорю.
Но если ваш магистрал пропускает /28, то это какой-то странный магистрал.
Очень странный.
Либо договорённость.
Но скорее всего, это просто странный магистрал =)

DimaSmirnov May 14 2013 at 01:09

Наши не пропускают)

nadz May 14 2013 at 01:17

Отчего же??
Вот кто по простой договорённости пропускает:
AS48625, AS50952, AS56336, AS43106, AS39792, AS9002, AS29076, AS8359…
Ну эт так, на вскидку.
Ещё RunNet (AS не помню) легко.
ТТК, Голды, Прометей — по письму.

DimaSmirnov May 14 2013 at 01:18

Когда я писал «наши» — я имел в виду те, с кем мы работаем напрямую, а не «Российские»

nadz May 14 2013 at 01:20

Ну, пардоньте =)
Под нашими я понимаю именно «наших».
Кстати, вот именно с операторами РФ легче всего договориться, нежели с операторами европейскими.

sheva May 13 2013 at 20:56

А какие датацетры используете в своем проекте?

DimaSmirnov May 13 2013 at 21:01

stack.net и MSK-IX М9

sevmax May 13 2013 at 21:18

Спасибо за статью, было интересно почитать.
Посмотрел на Salt — с удивлением для себя понял, что она доступна только в платной пописке, и не OpenSource.

DimaSmirnov May 13 2013 at 21:27

github.com/saltstack

navion May 14 2013 at 01:13

Уже хотел клянчить RPM, но всё оказалось намного проще :)

vmarunin May 13 2013 at 22:11

А что делает проект? Как-то цифры с буквами не сходятся.
Cisco ASR 1001 тянет 5Gbps. Один датацентр может тянуть весь траффик, то есть 5Gb = 640 MB в секунду. И это на миллион PPS (pages per second?)
получается 640 байт на страничку?
Даже если отвечать empty gif'ом, есть же ещё и входящий траффик с сотнями кук, SYN, ACK и т.д.

Тут на 30-40 тысяч запросов в секунду потребление трафика лезет в небо, а миллион…

DimaSmirnov May 13 2013 at 22:17

Ну во-первых циска не одна) Вот описание проекта — tns-counter.ru/
Вот результаты — tns-global.ru/rus/data/ratings/index/index.wbp
Контент очень специфичный — приходит GET (пример можно посмотреть на том же Яндексе в теле любой страницы), отдаётся прозрачный gif и кука.

VolCh May 13 2013 at 22:40

Если у Вас 2-3-4 сервера, конечно Вы не будете разворачивать автоматизацию

Не так уж и «конечно». Даже при наличии одной вдски для какой-нибудь джумлы на средства автоматизации деплоя как самого сервера, так и приложения, стоит посмотреть именно в целях минимизации простоев при отказах — даже для виртуалки в супер-пупер облаке может потребоваться быстро развернуть второй аналогичный инстанс. А надеясь на записи или, тем более, память, легко получить ситуацию «вроде всё то же самое, но почему-то не работает».

Пускай это даже будет самописный шелл-скрипт, в котором всё захардкожено и ничего не прокомментировано и который даже нельзя без внимания оставить, потому что будет спрашивать "?(yes/no)" постоянно, но немало нервов и/или денег он может спасти. Главное поддерживать его в актуальном состоянии, для чего есть разные методики, но самая простая — ничего не делать на сервере ручками.

Только не следует забывать, что инструменты деплоя и бэкапа служат для разных целей и не стоит на один накладывать функции второго, использовать их следует совместно, но совсем необязательно в рамках одной «сессии», хотя лично у меня типичный сценарий восстановления: задеплоили среду (установили весь софт из публичных репов, условно, репов ОС), задеплоили приложение (из своего приватного репа), накатили бэкап данных приложения (база и пользовательские файлы типа аватарок, фоток или документов).

T0R May 13 2013 at 23:04

Единственный нюанс с которым мы столкнулись — по-умолчанию IPVS готов принимать 4096 одновременных соединений — это 2 бита.
Чтобы балансировщик был готов принимать миллион соединений этот параметр нужно увеличить до 12 битов.

Кол-во соединений ограничено доступной памятью, а 4096 — это размер хеш таблицы для соединений. Не понятно что такое 2 бита. Если вы имеете ввиду этот параметр
CONFIG_IP_VS_TAB_BITS
, который задает размер хеш-таблицы размером 2^CONFIG_IP_VS_TAB_BITS, то он и так 12 бит.
Хотя для систем, обрабатывающих большое кол-во соединений, я бы его увеличил. С одной стороны у нас чуть больше будет вымываться кеш, но с другой стороны мы получим сильный прирост в производительности, так как для лукапа соединения в среднем придется итерировать по более коротким связным спискам.

DimaSmirnov May 13 2013 at 23:23

Да, tab_bits. По-умолчанию значение этого параметра = 2.

T0R May 13 2013 at 23:31

Хм, странно, посмотрел вплоть до 2.6.32, везде 12 бит, у вас на картинке вроде тоже (log 4096), ну да не суть. =)

DimaSmirnov May 13 2013 at 23:36

да, 4096 — это и есть 2 бита. 12 бит — это помоему 1048576.

kay May 14 2013 at 11:27

Выходит наложение патча не влияет на ограничение по количеству соединений?

T0R May 14 2013 at 15:50

Если речь идет об изменении CONFIG_IP_VS_TAB_BITS, то оно не влияет на максимальное кол-во соединений, на это влияет только кол-во доступной ядру памяти.

DimaSmirnov May 14 2013 at 16:41

IP_VS_TAB_BITS — IPVS connection table size (the Nth power of 2).

T0R May 14 2013 at 18:17

Вы пропустили ключевое слово hash. Это размер для хеш таблицы коннектов, сами коннекты аллоцируются динамически и добавляются в связные списки, по одному (списку) в каждый бакет хеш таблицы.
Вы бы лучше открыли код, я ж давал выше ссылку в нужное место.
Таблица аллоцируется тут
ip_vs_conn_tab = vmalloc(ip_vs_conn_tab_size * sizeof(*ip_vs_conn_tab));
внутри функции с говорящим названием ip_vs_conn_init
где ip_vs_conn_tab_size это размер хеш таблицы
static int ip_vs_conn_tab_bits = CONFIG_IP_VS_TAB_BITS;
ip_vs_conn_tab_size = 1 << ip_vs_conn_tab_bits;
А ip_vs_conn_tab — указатель но голову списка
static struct hlist_head *ip_vs_conn_tab __read_mostly;
Убедил? =)

DimaSmirnov May 15 2013 at 10:31

Да.

Rel1cto May 13 2013 at 23:16

А зачем, имея /23, заморачиваться с EXIST_MAP?
Ведь можно с каждой площадки отдавать /23 и свою /24. Тогда если вторая площадка отвалится, пропадёт её /24 и клиенты потекут на первую через /23 маршрут.

DimaSmirnov May 13 2013 at 23:22

Я же писал, что на кваге и так можно реализовать с разнымы весами на /24 и /23, но у нас вот так.

Rel1cto May 13 2013 at 23:25

Под весами подразумевалась длина префиксов? Тогда пардон, не понял. У меня вес как-то проассоциировался с параметром weight.
И уточните, пожалуйста, что за параметр у Juniper при меньше 20 секунд считается фладом? Время, которое проходит между потерей маршрута и анонсом этой потери соседу по BGP, или что?

DimaSmirnov May 13 2013 at 23:28

Да да, описался. Про параметр Juniper-а не отвечу, так как он у нас в одном из ДЦ аплинком и не принадлежит нам -естественно доступа на него нет. У нас в хозяйстве только Cisco.

T0R May 13 2013 at 23:47

Скорее всего имелось ввиду это BGP Flap Damping

Rel1cto May 13 2013 at 23:50

Да, я тоже так предположил, потому и удивился. Эта функция ведь отключается. И выключена по умолчанию.

T0R May 13 2013 at 23:52

Да, по умолчанию выключена, но на EBGP пирах ее все же рекомендуют включать.

DimaSmirnov May 13 2013 at 23:53

У нас этим занимается отдельный сотрудник — сетевой инженер, но термин «зафлапали» я слышал.

pavelsh May 14 2013 at 01:33

А какие коммутаторы в ДЦ используете?

DimaSmirnov May 14 2013 at 01:37

Cisco Catalyst 3750-X

pavelsh May 14 2013 at 02:17

А почему выбран именно этот коммутатор?

И еще вопрос
«Как только мы видим из второго ДЦ, что связанность нарушена, мы начинаем с помощью NON-EXIST-MAP анонсировать вторую сеть /24 из первого ДЦ.»

А возможна у вас ситуация split-brains, то есть первый ДЦ думает что второй лежит и наборот? Если да, каким образом планируется из нее выходить?

И еще вопрос — чем вы все это мониторите?

DimaSmirnov May 14 2013 at 02:23

А почему выбран именно этот коммутатор?

Даже не задумывались. Как бы я не ответил на этот вопрос — будет воспринято неоднозначно.

А возможна у вас ситуация split-brains

Очень маленький процент, включающий в себя отказ сразу одновременно нескольких точек мониторинга. Для этого существует многоступенчатый мониторинг, включающий не только опросы по сети, а и GSM модемы и пр.

чем вы все это мониторите?

Ничего удивительного — snmp, zabbix, графики — cacti

differentlocal May 14 2013 at 09:04

Фраза «PPS в секунду» звучит примерно как «км/ч в час».

DmitryKoterov May 14 2013 at 18:41

Может, автор об ускорении говорит. Трафик растет типа.

deniszh May 14 2013 at 19:12

1000000 pps/s — это, простите, пипец…

home_user May 14 2013 at 13:44

Дмирий, спасибо за упоминание Salt. Очень понравилась эта система.
Я бы сказал больше, но это уже будет глубоко ненормативная лексика — настолько велик мой восторг :)

DimaSmirnov May 14 2013 at 15:18

Разработчики позиционируют ее как remote execute систему кстати, а не deploy. Я уже давно не захожу на машины — все делаю с сервера деплоя из строки salt.

home_user May 14 2013 at 15:21

В моем случае я смотрю на эту систему, как на альтернативу связке Puppet+MCollective. Так что как раз попадаю в ЦА авторов :)

deniszh May 14 2013 at 16:18

Для Puppet remote execute как альтернативу Mcollective можно использовать например fabric + puppetdb — довольно удобно.

DmitryKoterov May 14 2013 at 18:41

А по сравнению с ansible она (Salt) как?

deniszh May 14 2013 at 19:10

Наверно вопрос не ко мне, но имхо salt симпатичнее, но сильно молодой. Для уровня проекта пойдет, но не enterprise wide. Хотя смотря какой enterprise конечно…

MadCat May 14 2013 at 20:08

Крайне интересно было бы услышать про тестирование такой системы.

DimaSmirnov May 23 2013 at 00:43

В процессе. Готово процентов на 60%. Рвусь между сравнительной статьёй и статьёй про SALT.

DimaSmirnov Apr 29 2014 at 09:45

Ну что, господа, начинаем бузить) Мы сделали свой прототип DCaaS.