osminog 17 июл 2019 в 11:20

Как переехать с ESXi на KVM/LXD и не сойти с ума

14 мин

31K

Блог компании Конференции Олега Бунина (Онтико)IT-инфраструктура*Виртуализация*Серверное администрирование*DevOps*

В компании «Макснет Системы» в качестве гипервизора долгое время использовалась бесплатная версия VMware — ESXi, начиная с версии 5.0. Платная версия vSphere отпугивала моделью лицензирования, а у бесплатной был ряд недостатков, которые отсутствовали в платной, но с ними можно было смириться. Но когда в новых версиях ESXi новый веб-интерфейс отказался работать со старым, а мониторинг RAID-массивов перестал подавать признаки жизни, компания решила искать более универсальное и открытое решение. В компании уже был неплохой опыт и приятное впечатление от LXC — Linux Containers. Поэтому стало очевидно, что гипервизор мечты будет гибридным и сочетать для разных нагрузок KVM и LXD — эволюционное продолжение LXC. В поисках информации относительно KVM, компания сталкивалась с заблуждениями, граблями и вредными практиками, но тесты и время расставили все по местам.

О том, как справиться с переездом с ESXi на KVM и не проколоть колеса на граблях, расскажет Лев Николаев (maniaque) — администратор и разработчик высоконагруженных систем, тренер по информационным технологиям. Поговорим о Сети, хранилищах, контейнерах, KVM, LXD, LXC, provisioning и удобных виртуалках.

Пролог

Сразу обозначим ключевые мысли, а дальше разберем их подробнее.

Сеть. Пока скорости ваших интерфейсов не превышают 1 Гбит/с, вам хватит bridge. Как только захотите выжать больше — он будет вас ограничивать.

Хранилище. Создайте общее сетевое хранилище. Даже если вы не готовы внутри сети использовать 10 Гбит/с, то даже 1 Гбит/с даст вам 125 МБ/с хранилища. Для целого ряда нагрузок этого будет достаточно с запасом, а миграция виртуальных машин будет элементарным делом.

Контейнер или KVM? Плюсы, минусы, подводные камни. Какие виды нагрузки лучше положить в контейнер, а какие лучше оставить в KVM?

LXD или LXC. LXD — это LXC? Или другая версия? Или надстройка? Что это вообще? Развеем мифы и поймем, в чем отличия между LXD и LXC.

Удобный provisioning. Что удобнее: брать одинаковый образ или инсталлировать систему с нуля каждый раз? Как это делать быстро и аккуратно каждый раз?

Удобная виртуальная машина. Здесь будут страшные рассказы о загрузчиках, разделах, LVM.

Разное. Много мелких вопросов: как быстро перетащить виртуальную машину c ESXi на KVM, как хорошо мигрировать, как правильно виртуализировать диски?

Причина переезда

Откуда у нас появилась безумная идея переезда с ESXi на KVM/LXD? ESXi популярно среди малого и среднего бизнеса. Это хороший и дешевый гипервизор. Но есть нюансы.

Мы начинали с версии 5.0 — удобно, все работает! Следующая версия 5.5 — тоже.

С версии 6.0 — уже сложнее. На ESXi Web-интерфейс не сразу стал бесплатным, только с версии 6.5, до этого требовалась утилита под Windows. Мы с этим смирились. Кто работает на OS X покупает Parallels и ставит эту утилиту. Это всем известная боль.

Периодически слетал мониторинг. Приходилось в консоли сервера перезапускать службы менеджмента — тогда снова появлялся CIM Heartbeat. Мы терпели, так как он не всегда отваливался.

Версия ESXi 6.5 — треш, угар и бесчинства. Ужасный гипервизор. И вот почему.

Angular вываливается с исключением еще на входе в Web-интерфейс. Как только вы вводите логин и пароль — сразу исключение!
Не работает возможность удаленно мониторить статус RAID-массива так, как удобно нам. Раньше было удобно, а в версии 6.5 — все плохо.
Слабая поддержка современных сетевых карт от Intel. Сетевые карты от Intel и ESXi порождают боль. На форуме поддержки ESXi есть ветка агонии по этому поводу. VMware и Intel не дружат и в ближайшее время отношения не улучшатся. Печально то, что проблемы испытывают даже клиенты платных решений.
Нет миграции в рамках ESXi. Если только не считать миграцией процедуру с паузой, копированием и запуском. Ставим машину на паузу, быстро ее копируем и запускаем в другом месте. Но назвать это миграцией нельзя — все-таки есть простой.

Посмотрев на это все, у нас и появилась безумная идея переезда с ESXi 6.5.

Список пожеланий

Для начала мы написали список пожеланий идеального будущего, в которое мы уходим.

Управление из-под SSH, а Web и прочее опционально. Web-интерфейс — это здорово, но в командировке с iPhone зайти в Web-интерфейс ESXi и что-то там сделать неудобно и тяжело. Поэтому, единственный способ управлять всем — это SSH, другого не будет.

Виртуализация Windows. Иногда клиенты просят странные вещи, а наша миссия — им помогать.

Всегда свежие драйвера и возможность настраивать сетевую карту. Адекватное желание, но нереализуемое под чистым ESXi.

Живая миграция, а не кластеризация. Мы хотим возможность перетаскивать машины с одного гипервизора на другой, не ощущая никаких задержек, простоев и неудобств.

Список желаний готов, дальше начался тяжелый поиск.

Муки выбора

Рынок крутится вокруг KVM или LXC под разными соусами. Иногда кажется, что Kubernetes где-то сверху, где все хорошо, солнце и рай, а на уровне ниже сидят морлоки — KVM, Xen или что-то подобное…

Например, Proxmox VE — это Debian, на который натянули ядро от Ubuntu. Это выглядит странно, но приносить ли это в продакшн?

Наши соседи этажом ниже — Alt Linux. Они придумали красивое решение: собрали Proxmox VE в виде пакета. Они просто ставят пакет одной командой. Это удобно, но мы не катаем Alt Linux в продакшн, поэтому нам не подошло.

Берем KVM

В итоге мы выбрали KVM. Не взяли, Xen, например, из-за сообщества — оно у KVM сильно больше. Казалось, что мы всегда найдем ответ на свой вопрос. Позже мы выяснили, что размер сообщества не влияет на его качество.

Изначально мы рассчитывали, что возьмем Bare Metal машину, добавим Ubuntu, с которой работаем, а сверху будем катать KVM/LXD. Мы рассчитывали на возможность запускать контейнеры. Ubuntu хорошо знакомая система и никаких сюрпризов в плане решения проблем загрузки/восстановления для нас нет. Мы знаем куда пинать, если гипервизор не заводится. Нам все понятно и удобно.

Ускоренный курс по KVM

Если вы из мира ESXi, то вас ждет много интересного. Выучите три слова: QEMU, KVM и libvirt.

QEMU транслирует желания виртуализируемых ОС в вызовы обычного процесса. Отлично работает практически везде, но медленно. Сам по себе QEMU — это отдельный продукт, который виртуализирует кучу других устройств.

Дальше на сцену выходит связка QEMU-KVM. Это модуль ядра Linux для QEMU. Все инструкции виртуализировать дорого, поэтому у нас есть модуль ядра KVM, который транслирует только некоторые инструкции. Как результат — это ощутимо быстрее, потому что обрабатывается всего несколько процентов инструкций от общего набора. Это и есть все издержки на виртуализацию.

Если у вас просто QEMU, запуск виртуальной машины без обвязки выглядит так:

$ qemu <миллион параметров>

В параметрах описываете сеть, блочные устройства. Все замечательно, но неудобно. Поэтому есть libvirt.

Задача libvirt — быть единым инструментом для всех гипервизоров. Он может работать с чем угодно: с KVM, с LXD. Кажется, что остается только учить синтаксис libvirt, но на деле он работает хуже, чем в теории.

Эти три слова — все, что нужно, чтобы поднять первую виртуалку в KVM. Но опять-таки есть нюансы…

У libvirt есть конфиг, где хранятся виртуалки и прочие настройки. Он хранит конфигурацию в xml-файлах — стильно, модно и прямо из 90-х. При желании их можно редактировать руками, но зачем, если есть удобные команды. Также удобно то, что изменения xml-файлов чудесно версионируются. Мы используем etckeeper — версинонируем директорию etc. Использовать etckeeper уже можно и давно пора.

Ускоренный курс по LXC

По поводу LXC и LXD существует множество заблуждений.

LXC — это возможность современного ядра использовать namespaces — делать вид, что оно совсем не то ядро, что было изначально.

Этих namespaces можно создавать сколько угодно под каждый контейнер. Формально ядро одно, но ведет себя как много одинаковых ядер. LXC позволяет запускать контейнеры, но предоставляет только базовые инструменты.

Компания Canonical, которая стоит за Ubuntu и агрессивно двигает контейнеры вперед, выпустила LXD — аналог libvirt. Это обвязка, которая позволяет удобнее запускать контейнеры, но внутри это все равно LXС.

LXD — это гипервизор контейнеров, который базируется на LXС.

В LXD царствует энтерпрайз. LXD хранит конфиг в своей базе — в директории /var/lib/lxd. Там LXD ведет свой конфиг в конфиг в SQlite. Копировать его не имеет смысла, но можно записывать те команды, которые вы использовали для создания конфигурации контейнера.

Выгрузки как таковой нет, но большая часть изменений автоматизируется командами. Это аналог Docker-файла, только с ручным управлением.

Продакшн

С чем мы столкнулись, когда на этом всем поплыли в эксплуатацию.

Сеть

Сколько же адского треша и угара в интернете о сети в KVM! 90% материалов говорят использовать bridge.

Перестаньте использовать bridge!

Что с ним не так? В последнее время у меня ощущение, что с контейнерами творится безумие: поставим Docker поверх Docker, чтобы можно было запускать Docker в Docker смотря Docker. Большинство не понимает, что делает bridge.

Он помещает ваш сетевой контроллер в promiscuous mode и принимает весь трафик, потому что не знает, какой его, а какой нет. В результате весь трафик bridge идет через замечательный, быстрый сетевой Linux-стек, а там много копирования. В итоге все медленно и плохо. Поэтому не используйте bridge в продакшн.

SR-IOV

SR-IOV — это возможность виртуализироваться в пределах сетевой карты. Сама сетевая карта умеет выделять часть себя для виртуальных машин, что требует определенной поддержки железом. Именно это и будет мешать мигрировать. Миграция виртуальной машины туда, где отсутствует SR-IOV, болезненна.

SR-IOV надо использовать там, где оно поддерживается всеми гипервизорами, в рамках миграции. Если же нет, то для вас есть macvtap.

macvtap

Это для тех, у кого сетевая карта не поддерживает SR-IOV. Это light-версия bridge: на одну сетевую карту навешиваются разные MAC-адреса, и используется unicast filtering: сетевая карта принимает не все подряд, а строго по списку MAC-адресов.

Больше кровавых подробностей можно прочитать в замечательном докладе Toshiaki Makita «Virtual switching technologies and Linux bridge». Он полон боли и страдания.

90% материалов о том, как строить сеть в KVM, бесполезны.

Если кто-то говорит, что bridge это классно — не разговаривайте больше с этим человеком.

С macvtap CPU экономит около 30% за счет меньшего числа копирований. Но с promiscuous mode есть свои нюансы. Нельзя с самого гипервизора — с хоста, — соединиться с сетевым интерфейсом гостевой машины. В докладе Toshiaki подробно описано об этом. Но если кратко — не получится.

С самого гипервизора редко ходят по SSH. Там удобнее стартовать консоль, например, Win-консоль. «Смотреть» трафик на интерфейсе возможно — нельзя по TCP соединиться, но трафик на гипервизоре видно.

Если ваши скорости выше 1 Гигабита — выбирайте macvtap.

При скоростях интерфейса до или около 1 Гигабита в секунду можно использовать и bridge. Но если у вас сетевая карта на 10 Gb и вы хотите как-то ее утилизировать, то остается только macvtap. Никаких других вариантов нет. Кроме SR-IOV.

systemd-networkd

Это отличный способ хранить сетевую конфигурацию на самом гипервизоре. В нашем случае это Ubuntu, но и для других систем systemd работает.

Раньше у нас был файл /etc/network/interfaces, в котором мы все держали. Один файл неудобно редактировать каждый раз — systemd-networkd позволяет разбить конфигурацию на россыпь маленьких файлов. Это удобно, потому что работает с любой системой версионирования: отправили в Git и видите, когда и какое изменение произошло.

Есть недостаток, который обнаружили наши сетевики. Когда нужно добавить новый VLAN в гипервизоре, я иду и конфигурирую. Потом говорю: «systemctl restart systemd-networkd». В этот момент у меня все хорошо, но если подняты BGP-сессии с этой машины — они рвутся. Наши сетевики это не одобряют.

Для гипервизора ничего страшного не происходит. Systemd-networkd непригодно для пограничных бордеров, серверов с поднятым BGP, а для гипервизоров — отлично.

Systemd-networkd далек от финала и не будет закончен никогда. Но это удобнее, чем редактировать один огромный файл. Альтернатива systemd-networkd в Ubuntu 18.04 — Netplan. Это «классный» способ конфигурировать сеть и наступать на грабли.

Устройство сети

После установки KVM и LXD на гипервизор, первое, что вы увидите, — два bridge. Один себе сделал KVM, а второй — LXD.

LXD и KVM пытаются развернуть свою сеть.

Если вам все-таки нужен bridge — для тестовых машин или поиграться, убейте bridge, который включается по умолчанию и создайте свой — такой, какой хотите. KVM или LXD это делают ужасно — подсовывают dnsmasq, и начинается ужас.

Хранилище

Не важно, какие реализации вам нравятся — используйте общее хранилище.

Например, по iSCSI для виртуальных машин. Вы не избавитесь от «точки отказа», но сможете консолидировать хранение в одной точке. Это открывает новые интересные возможности.

Для этого надо внутри дата-центра иметь интерфейсы хотя бы 10 Гбит/с. Но даже если у вас только 1 Гбит/с — не огорчайтесь. Это примерно 125 Мбайт/с — вполне хорошо, для гипервизоров, которые не требуют высокой дисковой нагрузки.

KVM умеет мигрировать и перетаскивать хранилища. Но, например, в режиме рабочей нагрузки перенос виртуальной машины на пару Терабайт — это боль. Для миграции с общим хранилищем хватает передачи только оперативной памяти, что элементарно. Это сокращает время миграции.

В итоге LXD или KVM?

Первоначально мы полагали, что для всех виртуалок, где ядро совпадает с хостовой системой, мы возьмем LXD. А там, где нам нужно брать другое ядро — возьмем KVM.

В реальности планы не взлетели. Чтобы понять почему, посмотрим внимательнее на LXD.

LXD

Главный плюс — экономия памяти на ядре. Ядро одно и когда запускаем новые контейнеры ядро все то же. На этом плюсы кончились и начались минусы.

Блочное устройство c rootfs надо монтировать. Это тяжелее, чем кажется.

Миграции толком нет. Она есть, и базируется на чудесном сумрачном инструменте criu, который пилят наши соотечественники. Я горжусь ими, но в простых случаях criu не работает.

zabbix-agent странно ведет себя в контейнере. Если его запустить внутри контейнера, то ряд данных вы увидите с хостовой системы, а не из контейнера. Пока с этим ничего сделать нельзя.

При взгляде на список процессов на гипервизоре, невозможно быстро понять, из какого контейнера растет конкретный процесс. Требуется время, чтобы выяснить, какой там namespace, что и куда. Если нагрузка где-то подскочила больше, чем обычно, то быстро это не понять. Это главная проблема — ограничение в возможностях реагирования. Для каждого случая проводится мини-расследование.

Единственный плюс LXD — экономия памяти на ядре и сокращение overhead.

Но Kernel Shared Memory в KVM и так экономит память.

Пока не вижу причин знакомить серьезный продакшн и LXD. Несмотря на все усилия Canonical в этой области, LXD в продакшн приносит больше проблем, чем решений. В ближайшее время ситуация не изменится.

Но, нельзя сказать, что LXD это зло. Он хорош, но в ограниченных случаях, о которых расскажу чуть позже.

Criu

Criu — это сумрачная утилита.

Создайте пустой контейнер, он приедет с DHCP-клиентом и скажите ему: «Suspend!» Получите ошибку, потому что там DHCP-клиент: «Ужас-ужас! Он сокет открывает с признаком «raw» — какой кошмар!» Хуже некуда.

Впечатления от контейнеров: миграции нет, Criu работает через раз.

Мне «нравится» рекомендация от команды LXD, что делать с Criu, чтобы не было проблем:

— Возьмите из репозитория версию посвежее!

А можно ее как-то из пакета поставить, чтобы не бегать в репозиторий?

Выводы

LXD чудесен, если хочется создать CI/CD инфраструктуру. Мы берем LVM — Logical Volume Manager, делаем с него снапшот, и на нем стартуем контейнер. Все отлично работает! За секунду создается новый чистый контейнер, который настроен для тестирования и прокатки chef — мы это активно используем.

LXD слаб для серьезного продакшн. Мы не можем понять, что делать с LXD в продакшн, если он плохо работает.

Выбираем KVM и только KVM!

Миграция

Скажу об этом кратко. Для нас миграция оказалась чудесным новым миром, который нам нравится. Там все просто — есть команда для миграции и две важные опции:

virsh migrate <vm> qemu+ssh://<hypervisor>/system --undefinesource -persistent

Если наберете в Google «KVM migration» и откроете первый же материал, то увидите команду для миграции, но без двух последних ключей. Вы не увидите упоминания, что они важны: «Просто выполните эту команду!» Выполните команду — а оно действительно мигрирует, но только как?

Важные опции миграции.

undefinesource — удалить виртуальную машину из гипервизора, с которого мигрируем. Если после такой миграции ребутнетесь, то гипервизор, с которого вы ушли, заново запустит эту машину. Вы удивитесь, но это нормально.

Без второго параметра — persistent — гипервизор, куда вы переехали, вообще не считает, что это постоянная миграция. После ребута гипервизор ничего не вспомнит.

- virsh dominfo <vm> | grep persistent

Без этого параметра виртуальная машина — круги на воде. Если первый параметр указан без второго, то догадайтесь, что будет.

С KVM таких моментов много.

Сеть: вам все время рассказывают про bridge — это кошмар! Читаешь и думаешь — как так?!
Миграция: про нее тоже ничего внятного не скажут, пока сами головой не побьетесь об эту стенку.

С чего начать?

Поздно начинать — я про другое.

Provisioning: как это разворачивать

Если вас устраивают стандартные опции установки, то механизм preseed прекрасен.

Под ESXi мы использовали virt-install. Это штатный способ разворачивать виртуальную машину. Он удобен тем, что вы создаете preseed-файл, в котором описываете образ вашего Debian/Ubuntu. Запускаете новую машину, скормив ей ISO дистрибутива и preseed-файл. Дальше машина сама раскатывается. Вы подсоединяетесь к ней по SSH, цепляете ее в chef, прокатываете кукбуки — все, понеслись в прод!

Но если вам хватает virt-install, у меня плохие новости. Это значит, что вы еще не дошли до стадии, когда хочется что-то сделать иначе. Мы дошли и поняли, что virt-install недостаточно. Мы пришли к некоторому «золотому образу», который мы клонируем и потом запускаем виртуалки.

А как правильно устроить виртуальную машину?

Почему мы пришли к этому образу, и почему вообще provisioning важен? Потому что до сих пор в community слабое понимание, что между виртуальной машиной и обычной машиной большие отличия.

Виртуальной машине не нужен сложный процесс загрузки и умный загрузчик. Гораздо проще прицепить диски виртуальной машины к машине, у которой есть полный набор инструментов, чем в recovery mode пытаться куда-то вылезти.

Виртуальной машине нужна простота устройства. Зачем нужны разделы на виртуальном диске? Зачем люди берут виртуальный диск, и ставят туда разделы, а не LVM?

Виртуальной машине нужна максимальная расширяемость. Обычно виртуалки растут. Это «классный» процесс — увеличение раздела в MBR. Вы его удаляете, в этот момент вытирая пот со лба и думаете: «Только не записать бы сейчас, только бы не записать!» — и создаете заново с новыми параметрами.

LVM @ lilo

В итоге мы пришли к LVM @ lilo. Это загрузчик, который позволяет настраиваться из одного файла. Если для настройки конфига GRUB вы редактируете специальный файл, который управляет шаблонизатором и строит монструозный boot.cfg, то с Lilo — один файл, и больше ничего.

LVM без разделов позволяет сделать систему идеальной легко и просто. Проблема в том, что GRUB без MBR или GPT жить не может и идет на мороз. Мы ему говорим: «GRUB установись сюда», а он не может, потому что разделов нет.

LVM позволяет быстро расширяться и делать резервные копии. Стандартный диалог:

— Ребята, а как вы делаете виртуалке бэкап?

— … мы берем block device и копируем.

— Развертывать обратно пробовали?

— Ну нет, у нас же все работает!

Можно block device в виртуальной машине слизать в любой момент, но если там файловая система, то любая запись в нее требует трех телодвижений — эта процедура не атомарна.

Если вы изнутри делаете снапшот виртуальной машины, то она умеет говорить с файловой системой, чтобы та пришла в нужное консистентное состояние. Но это не для всего подходит.

Как строить контейнер?

Для запуска и создания контейнера есть штатные средства из шаблонов. LXD предлагает шаблон Ubuntu 16.04 или 18.04. Но если вы продвинутый боец и хотите не штатный шаблон, а свой кастомный rootfs, который настроите под себя, то возникает вопрос: а как в LXD создавать контейнер с нуля?

Контейнер с нуля

Подготавливаем rootfs. В этом поможет debootstrap: объясняем, какие пакеты нужны, какие нет — и ставим.

Объяснить LXD, что мы хотим создать контейнер из конкретного rootfs. Но сначала создаем пустой контейнер короткой командой:

curl --unix-socket /var/lib/lxd/unix.socket -X POST -d '{"name": "my-container", "source": {"type": "none"}}' lxd/1.0/containers

Это даже можно автоматизировать.

Вдумчивый читатель скажет — а где rootfs my-container? Где указано, в каком месте он лежит? Но я же не сказал, что это все!

Монтируем rootfs контейнера туда, где он будет жить. Потом указываем, что у контейнера rootfs будет жить вот там:

lxc config set my-container raw.lxc "lxc.rootfs=/containers/my-container/rootfs"

Опять же это автоматизируется.

Жизнь контейнеров

У контейнера нет своего ядра, поэтому загрузка у него проще: systemd, init и полетели!

Если вы не используете штатные средства для работы с LVM, то в большинстве случаев для запуска контейнера понадобится монтировать rootfs контейнера в гипервизоре.

Я иногда нахожу статьи, в которых советуют «autofs». Не делайте так. У systemd есть automount-юниты, которые работают, а autofs — нет. Поэтому systemd automount-юниты можно и нужно использовать, а autofs — не стоит.

Выводы

Нам по вкусу KVM с миграцией. С LXD пока не по пути, хотя для тестов и построения инфраструктуры мы ее используем — там, где нет продакшн-нагрузки.

Нам нравится производительность KVM. Привычнее смотреть в top, видеть там процесс, который имеет отношение к этой виртуальной машине, и понимать, кто и чем у нас занимается. Это лучше, чем при помощи набора странных утилит с контейнерами выяснять, что там за подводные стуки.

Мы в восторге от миграции. Во многом это благодаря общему хранилищу. Если бы мы мигрировали, перетаскивая диски, то были бы не так счастливы.

Если вы так же, как и Лев, готовы рассказать о преодолении сложностей эксплуатации, интеграции или поддержки, то сейчас самое время подать доклад на осеннюю конференцию DevOpsConf. А мы в программном комитете поможем подготовить такое же воодушевляющие и полезное выступление, как это.

Мы не дожидаемся дедлайна Call for Papers и уже приняли несколько докладов в программу конференции. Подпишитесь на рассылку и telegram-канал и будете в курсе новостей о подготовке к DevOpsConf 2019 и не пропустите новые статьи и видео.

Теги:

Хабы:

Как переехать с ESXi на KVM/LXD и не сойти с ума

Пролог

Причина переезда

Список пожеланий

Муки выбора

Берем KVM

Ускоренный курс по KVM

Ускоренный курс по LXC

Продакшн

Сеть

SR-IOV

macvtap

systemd-networkd

Устройство сети

Хранилище

В итоге LXD или KVM?

LXD

Criu

Выводы

Миграция

С чего начать?

Provisioning: как это разворачивать

А как правильно устроить виртуальную машину?

LVM @ lilo

Как строить контейнер?

Контейнер с нуля

Жизнь контейнеров

Выводы

Публикации

Информация