itNews May 15 2020 at 14:59

Масштабирование высоконагруженной сети при помощи Nutanix: возможности и проблемы на примере личного кейса

8 min

3.1K

Из-за того, что миллионы человек сидят по домам, интернет-трафик возрос до небес. Уже не раз озвучивались опасения, что чрезмерная нагрузка на сети может привести к блекауту — национальному, в пределах какой-то страны, или даже глобальному. К счастью, с этой проблемой пока справляются, но есть и другие, менее явные сложности.

Какие? Сейчас многие компании онлайн-торговли или доставки не успевают обрабатывать резко взлетевшее количество заказов, теряют клиентов, деньги и репутацию, в том числе по тому, что их IT-инфраструктура не была готова к кратному росту объемов обработки данных. Этого можно было бы избежать при помощи быстрого масштабирования IT-инфраструктуры. Это можно сделать при помощи гиперконвергентной инфраструктуры (Hyper-converged infrastructure, HCI). Именно ей и посвящена эта статья.

Почему мы вообще озаботились вопросом масштабирования?

Мы, компания Platbox, занимаемся обработкой платежей клиентов (банки, платежные системы) около семи лет. В год обрабатываем около 100 млн транзакций. Это эквайринг, платежи через смс, акции разных компаний и т.п.
С течением времени количество мерчантов, чьи платежи мы процессим, растет, а нагрузка на сеть — увеличивается.

Проблема масштабирования встала с первого дня существования компании. Нагрузка растет — мы докупаем сервера, масштабируем сеть, решая проблему. Затем количество транзакций снова растет, ресурсы постепенно исчерпываются, цикл повторяется. Сейчас сеть состоит из целого зоопарка оборудования, начиная серверами от SuperMicro и заканчивая Dell. Такое разнообразие усложняет обслуживание сети и увеличивает количество рутинных операций в ходе технического обслуживания.

Рост количества оборудования — это еще и затраты. У нас есть арендуемые стойки в ЦОДах. Мы платим за аренду физического пространства, за потребляемое серверами электричество и т.п. Чем больше серверов, тем больше приходится платить, все просто. Кроме того, мы решили расширять место на СДХ, а также увеличивать вычислительные мощности серверов. Возник вопрос — продолжать масштабировать то, что уже есть, действуя в условиях классической трехуровневой архитектуры или же внедрить что-то новое.

Около полугода назад решили поискать иное решение, которое позволит решить проблемы, описанные выше. Было несколько вариантов, выбрали оптимальный — использовать гиперконвергентную инфраструктуру вместо традиционной.

Что такое гиперконвергентная инфраструктура (HCI)?

Тут нужен небольшой экскурс в историю IT. Когда-то данные обрабатывались на mainframes – больших мощных компьютерах, потом их вытеснили более дешевые и гибкие в использовании «серверы стандартной архитектуры», возникла концепция 3-Tier architecture, и, как следствие, деления дата-центра на отдельную подсистему хранения (SAN), подсистему обработки (серверы) и подсистему передачи данных (сетевая часть дата-центра). По мере того, как IT развивался, возникали новые способы хранить и обрабатывать данные, решать задачи пользователя. HCI – это «инфрастуктура для «облачной» эры» в IT, отказа от 3-Tier архитектуры в пользу, например, микросервисной.

С точки зрения практики, в классической конвергентной инфраструктуре сервер, система хранения данных, сетевое оборудование и средство виртуализации – отдельные элементы. Гиперконвергентная инфраструктура объединяет их, а также все компоненты привычного нам дата-центра в единую систему. Иногда в HCI входят дополнительные компоненты, например, ПО для резервного копирования, возможности мгновенных снимков, функционал дедупликации данных, промежуточное сжатие, оптимизация работы вычислительной сети.

Если конвергентная инфраструктура в первую очередь опирается на аппаратные средства, а программно-определяемый дата-центр зачастую адаптируется под любое аппаратное обеспечение, в гиперконвергентной инфраструктуре эти две возможности объединены. Она также повышает надежность эксплуатации, производительность и безопасность данных. В целом, HCI стоит рассматривать как виток эволюции IT-инфраструктуры.

Оценив все за и против, мы решили опробовать гиперконвергенцию, связались с Nutanix, получили платформу на тест, который прошел успешно. На тест мы получили гиперконвернгентную платформу, состоящая из шести нод, но двухюнитовая. Мы экономим электричество, место в стойке, не нужно докупать бесконечно сервера.

5 преимуществ гиперконвергентной инфраструктуры

Простота и гибкость масштабирования IT-решения – оставаясь в рамках единожды развернутого решения HCI, компания по мере роста может продолжать наращивать IT-«мускулы», не боясь упереться в потолок производительности или возможностей.
Повышается производительность приложений;
Увеличивается надежность эксплуатации. Это происходит за счет снижения темпов роста физической инфраструктуры. Серверов меньше, появляется единый интерфейс управления всем кластером. Админпанель простая, она показывает статус кластера и сообщения о состоянии отдельных элементов. У Nutanix есть еще и центр знаний, где можно быстро получить дополнительную информацию.
Снижается риск недоступности сервисов при выходе из строя одного или нескольких из компонент за счет унификации, резервирования данных и аппаратного обеспечения. Если вдруг “падает” оборудование в одном дата-центре, тут же запускается резерв в другом.
Открытый исходный код продукта – облегчает аудит безопасности, а встроенные средства STIG (Security Technical Implementation Guide или свод рекомендаций по защите IT-систем) обеспечивают высокую безопасность исполнения кода и устойчивость к воздействию злоумышленников на IT систему.

Как мы выбирали вендора

Мы рассматривали несколько поставщиков гиперконвергентных систем. Среди них — Cisco Hyperflex, SimpliVity, HPE Hyper Converged, Fujitsu PRIMERGY CX и Nutanix. Затем сформулировали следующие критерии отбора:

Надежность и сохранность данных внутри;
Соответствие требованиям безопасности PCI DSS 3.2.1;
Скорость работы;
Техобслуживание и техподдержка;
Гибкие возможности масштабировать инфраструктуру с той скоростью, которая необходима компании.

В итоге остановились на Nutanix, поскольку именно с этой компании, фактически, начался рынок HCI в 2012 году. Она предлагает самый стабильный продукт с гибкостью применения и наибольшими возможностями, например:

Широкий выбор платформ (HPE, Dell, Fujitsu, Cisco);
Наличие бесплатной версии Community Edition;
Свобода выбора гипервизора (в том числе бесплатного – AHV).
Маленький «квант роста» (фактически это один сервер), который уже дает бизнесу все, что умеет и дает самый большой: надежность, безопасность и новые технологии. Вся функциональность Nutanix, которой сегодня пользуется бизнес уровня, например, ВТБ или Societe Generale group доступна и для самых начальных по уровню решений.

Кроме того, в нашей технической команде появились специалисты с опытом работы с платформой Nutanix. Благодаря им мы знали, как поведет себя система в критических ситуациях, что невероятно важно для нас, как для финтех-компании.

Еще один фактор, повлиявший на выбор в пользу Nutanix — наличие такого инструмента перехода, как Nutanix Move. Он позволяет переводить машины с минимальным даунтаймом. Так, например, если есть машины VMware и Nutanix, то Move выступает неким мостом. Он берет машину из VMWare, клонирует ее, разворачивает в Nutanix на основе снапшотов, гасит ее в VMWare и запускает в нутаниксе. Все это буквально за секунды.

Процесс перехода на Nutanix

Основным требованием при переезде было не нарушать стабильность системы, так что переходить на новую платформу нужно было очень осторожно.

Поэтому все началось с тестирования пробной платформы Nutanix, о которой уже говорилось выше. Начали серию тестов, развернув тестовое окружение. Использовали процессинг, который стоит не на продакшене, и, так сказать “постреляли” в него из “Яндекс-пушки”. Мы проверили нагрузку, утилизировали достаточное для наших целей количество ресурсов, поняли что работает отлично, а где нужна оптимизация.

HCI обычно сосуществует с классической инфраструктурой, не требуя немедленно отказаться от привычного дата-центра. Миграция в HCI может быть постепенной, растянутой и плавной настолько, насколько это нужно компании. Например, если в дата-центре компании уже используется виртуализация и гипервизор, переход в среду HCI – это постепенная миграция виртуальных машин со старых серверов на новые: с «классических» серверов на сервера HCI. Это как раз наш случай. Нам потребуется перенос виртуальных машин в другую виртуальную среду. Где это возможно, будет задействована автоматическая миграция с использованием Nutanix Move, какие-то сервисы описаны как инфраструктура как код (IaC).

Все это можно разбить на несколько этапов:

Написание RoadMap.
Запуск новой инфраструктуры.
Перевод сервисов согласно RoadMap.

Реализация этих этапов занимает около 2 месяцев.

Сложности и проблемы перехода

Проблемы, конечно же, были. Главная сложность заключается в том, что процессинг в момент миграции сервисов все же придется приостановить. Но мы проработали этот момент, когда брали Nutanix-платформу на тест. Выстроили план закупки оборудования и миграции сервисов еще на этапе тестирования. Четкое исполнение утвержденного плана – залог успеха миграции сервисов.

В некоторых компаниях, по нашему опыту, сложности перехода на гиперконвергентную инфраструктуру скорее не технического порядка, а организационного или «бюджетного». Например, если дата-центр работает, и новых задач для него нет, если в дата-центр относительно недавно куплено много дорогостоящего оборудования для развития «классической» инфраструктуры, будет очень сложно прийти к мысли (и аргументировать ее руководству или инвесторам), что от этого надо отказаться и заново потратить деньги – уже на HCI.

Положительные результаты перехода на HCI

Качество сна специалистов эксплуатации значительно повысилось. Почему? Все просто — распределенное хранилище повышает надежность хранения и доступность данных.

Оптимизировали бизнес-процессы и работу сотрудников:

один админ вместо 3-х;
экономия рабочего времени IT-отдела, что позволило потратить освободившееся время технических сотрудников на реализацию проекта перехода на новый язык для написания внутренних программ;
возможность тратить освободившиеся ресурсы на разработку новых продуктов с изменившимися потребностями рынка.
новые возможности в подборе кадров.

Снизили расходы на железо. О том, как и почему, говорилось выше. Упростили масштабирования затрат на дата-центр. В классическом подходе бывает очень сложно разработать инфраструктуру, готовую вырасти в десятки раз без необходимости поменять ее целиком или частично. В случае с HCI можно начать с совсем небольшого решения, постепенно инвестируя в инфраструктуру все больше.

Появилась возможность перераспределения затрат из капитальных затрат в операционные, к чему сейчас идут в IT во всем мире. Это требует по-иному планировать затраты, иначе смотреть на привычные вещи, учится новому, но это то, куда идет индустрия сегодня.

Для понимания того, насколько все стало просто, приведем один кейс. Так, во время проведения благотворительного марафона у нас возникла очень сильная загрузка сети — гораздо выше расчетной. Просчет возник потому, что нагрузка рассчитывалась по статистике предыдущих марафонов. Мы не учли, что в новом участие примет больше людей, причина — карантин и самоизоляция. Если бы проблема возникла с имеющейся раньше инфраструктурой, последствия были бы очень негативными, вплоть до отключения сервисов. Сейчас же мы взяли Nutanix, благодаря чему смогли увеличить кластер ровно в два раза. Система нагрузку “переварила”. И все это удалось сделать буквально за 15 минут и несколько кликов мышью.

Немного о перспективах технологии и выборе HCI

Стоит ли всем переходить на HCI? Нет, конечно же, нет. В основном, гиперконвергентная инфраструктура подходит тем компаниям, у кого масштабные сети, высокая нагрузка на них и достаточно средств для перехода. Если у стартапа несколько серверов, то можно ничего не менять.

А вот если у компании целый зоопарк серверного железа, плохо оптимизированная сеть и высокий уровень затрат на железо и его обслуживание, то HCI однозначно — быть.

Ну а о будущем HCI можно сказать следующее. Во-первых, HCI распространяется в мире и в России в той мере, в которой IT готов принимать и использовать новые идеи. Многие развивающиеся компании ищут новые возможности для развития и роста, особенно в условиях сокращающихся IT-бюджетов. Компании традиционных и консервативных бизнесов вероятно придут к HCI позднее, активные, молодые, развивающиеся и использующие новые технологии – раньше.

Во-вторых, все больше компаний будут выходить на рынок HCI, технология будет становиться все более массовой и доступной. Уже сейчас у всех топовых производителей серверов и систем хранения есть предложения в области HCI, и это произошло буквально в последние год-два.

В-третьих, будет все дальше развиваться идея «облачности», в том числе и в форме «гибридного облака», когда часть инфраструктуры будет располагаться в «своем» дата-центре, а часть – арендоваться по мере появления потребностей.

Пример – те же онлайн-магазины и службы доставки. В случае многократного скачка трафика они могли бы в несколько минут масштабироваться, арендовав мощности у облачного оператора, а не «висеть» целый день, теряя покупателей и их деньги. А затем, после снижения спроса и успокоения рынка – смасштабировать инфраструктуру обратно, не жертвуя безопасностью, производительностью и не тратя деньги на покупку своего оборудования. Возможно, в будущем, «облако» и «свой дата-центр» будут сопряжены «бесшовно». По крайней мере, все технологии для этого уже есть.

В-четвертых, начнут активно развиваться системы автоматизации управления IT-инфраструктуры, в том числе, и с использованием AI, виртуализация сетевой инфраструктуры дата-центра.

Tags:

Hubs:

Self Promo