Cassandra глазами Operations

    Основной проект компании, в которой я работаю, посвящен оптимизации показов рекламы в приложениях на фейсбуке и на мобильных устройствах. На сегодняшний день проект обслуживает до 400 миллионов уникальных посетителей в месяц, работает на тысяче с лишним виртуальных серверов. Количество серверов и обьемы данных, которые должны обрабатываться двадцать четыре часа в сутки, ставит перед разработчиками ряд интересных проблем, связанных с масштабируемостью и устойчивостью системы.

    Оптимизация показов — большой процесс, одной из частей которого является сохранение и анализ цепочки событий, связанных с жизненным циклом баннера — показ, клик, конверсия, … всё это начинается с сохранения записей о событиях. Каждое из событий происходит на одном из множества серверов, причем, по понятной причине мы стараемся обслужить всю цепочку в одном месте — в этом случае не нужно заботиться о том как собрать в целое разбросанные части. Но в реальной жизни случается что угодно — сервера падают, сеть не работает, софт апгрейдится или перегружен — в общем, по многим причинам обслуживание последовательных событий иногда происходит на разных серверах и даже в разных датацентрах и к этому нужно быть готовым.

    Задача которую нужно было решать — каким образом хранить, искать, модифицировать информацию о последовательности событий при следующих условиях:


    • события могут происходить на разных серверах и в разных датацентрах (восточный и западный берег США, Европа)
    • интервал между событиями — от долей секунды до нескольких дней
    • к моменту получения завершающего события (например конверсия) информация обо всей цепочке должна быть на руках
    • время жизни информации — примерно десять дней, после чего она должна быть удалена, желательно автоматически, через TTL
    • темп чтения/записи событий — сотни или тысячи в секунду
    • Время ответа: желательное — до 10мс, допустимое — в пределах 50мс, максимальное — до 100мс
    • информация должна быть доступна «всегда» — независимо от аварий железа, сети, апгрейдов
    • система должна легко масштабироваться: добавление новых серверов, датацентров должно происходить прозрачно для остальных сервисов (допустима деградация времени ответа в заданных пределах).

    Последние два пункта очень важны для бизнеса и просто жизненно важны для опс инженеров если они хотят спокойно выполнять свои обязанности днём, и спокойно спать ночью.


    К моменту получения какой-то определённости с задачей у нас был небольшой собственный опыт чисто исcледовательской эксплуатации кассандры. Опыт был вполне положительный, кроме того, было видно что она правильно проектируется, имеет активное коммьюнити, серьезные компании и разработчиков за плечами. Всё это вместе взятое, плюс то, что она идеально ложилась на задачу, определило решение пропробовать её в реальном бою.


    Выбор железа


    Самое большое опасение вызывало требование к рамкам времени ответа — на уровне 10мс. Второй параметр который нужно было соблюдать обязательно — наличие свободного места на диске для всяческих внутренних задач кассандры (compaction, repair,...). Третье — железо должно быть «простым» для того что-бы его можно было легко заменять при авариях и добавлять при расширении.


    Времена ответа

    Cassandra супер-быстра на запись. Обеспечивается это тем что данные попадают в таблицу в памяти, и в commit log, что означает: запись на диск всегда идёт последовательно, какие-либо существенные перемещения по диску отсутствуют ( поэтому commit log и таблицы, к которым происходит случайный доступ, рекомендуется держать на разных дисках).

    Скорость чтения зависит от многих параметров и в конечном счете упирается в скорость случайного доступа к диску, если данные не умещаются целиком в памяти, и в скорость сети, если данные, необходимые для ответа на запрос, находятся на разных серверах. Среди методов борьбы с задержками ответа на чтение — увеличение RAM, использование компрессированных таблиц (появилось в версиях кассандры 1.0.х), тщательное планирование расположения и схемы данных, запросов к базе. Как видим — не всё здесь в руках operations, поэтому приходится планировать с некоторым запасом.

    В результате прикидок и тестов решили остановиться на варианте 8 гиг RAM, 15000rpm SAS диск для хранения таблиц, и обычный 7200rpm SATA для commit log (на этом-же диске установлена операционка и сама Cassandra)

    Выбор модели процессора не так важен, мы используем интеловские процессоры Q9400 @2.66GHz, X3470 @2.93GHz.

    Выбор обьема памяти в 8 гиг и дефолтных параметров кассандры для памяти JVM потребовал впоследствии подстроек, поскольку в некоторых ситуациях мы столкнулись с большими затратами на garbage collection в JVM.

    На сегодняшний день времена ответа кассандры лежат почти всегда в пределах 5мс, увеличиваясь во время compaction до 30мс, и вылетая ненадолго до уровеня 100мс в случае сетевых проблем.

    Свободное место на диске

    Наличие запаса свободного места на диске с таблицами очень важно. Нет, оно просто критически важно. Если вы слабо следите за этим то можете обнаружить что одна или несколько нод неожиданно оказались в нерабочем состоянии. Обьем данных на диске мы посчитали умножив размер записи о событии на ожидаемое число одновременно хранимых записей и на фактор репликации, и затем поделив результат на число узлов в кольце.

    Кассандре в обычном режиме работы (отсутствие compaction, добавление нового узла) нужно иметь запас как минимум 50% диска, потому что ближайший compaction может временно удвоить, а процесс repair в неудачных случаях и утроить потребляемое место. Поэтому мы взяли обьем диска с тройным запасом (у нас получились 300G) и установили уровни для disk usage в Nagios: warning — 30%, critical — 50%. До сегодняшнего дня практика подтверждает правильность расчетов, в обычной ситуации мы изредка вылетаем в warning и никогда — в critical. Во время repair занятое место возрастает до 50-60%, изредка до 70%.


    Запуск в эксплуатацию


    Пакеты

    Перед запуском в эксплуатацию мы приготовили дебиановские пакеты, включающие в себя как саму кассандру, так и все необходимые локальные настройки, муниновские плагины, нагиосовские чеки. Ручная работа при запуске нового узла сведена к минимуму: мы вручную разбиваем диск на разделы и вручную назначаем initial token.

    Кластер начинался с двух узлов в одном датацентре в на восточном берегу Америки, к которым постепенно добавлялись пары узлов в других датацентрах в единое кольцо. Решение добавлять узлы в кольцо без учёта географии было ошибочным, потому что как только пришлось подключить датацентр в Европе, стало видно что кросс-датацентровые задержки между США и Европой на уровне 100мс не позволят выдержать нужные времена ответа. К счастью Cassandra имеет механизм позволяющий управлять локализацией реплик по датацентрам — NetworkTopologyStrategy, на которую нам предстояло переключиться прямо под нагрузкой. После эксперимента на тестовом кольце стало понятно как сделать это безболезненно и с минимальным влиянием на работу системы. В течение нескольких минут непосредственно после переключения часть данных была недоступна для чтения, что на самом деле никто не заметил.

    Датацентры

    Сейчас наш кластер состоит из двенадцати узлов в шести датацентрах. Запуск нового датацентра состоит в заказе серверов нужной конфигурации, разметке диска, выборе нужных initial token для новых узлов и установке пакетов. Вся процедура запуска на новом сервере занимает до часа, с учетом времени начальной загрузки реплик данных (до 60G).

    Мониторинг и документация

    Еще на этапе экспериментирования с кассандрой были написаны муниновские плагины, которые давали нам всю необходимую информацию о узлах — времена ответа для каждого keyspace/columnfamily, количество операций чтения, записи, сжатия и т.д. стоящих в очереди, обьем данных на каждом узле и число таблиц на диске и т.д. и т.п. Наличие этих графиков очень важно для понимания того, что происходит в долгосрочном плане или что происходит во время каких-либо внутренних процедур типа repair, compaction.

    Выяснение корреляции между разными параметрами позволяет понять как избежать увеличения времени ответа базы в трудные минуты жизни кластера.

    Мы пробовали использовать OpsCenter от Datastax (даёт возможность видеть состояние не только в долгосрочном плане, но и в режиме realtime и управлять узлами из единого центра), но в силу определённых проблем с конфигурацией софта мы не смогли его использовать — пришлось написать собственный монитор сводящий текущие значения важнейших метрик в одно окно браузера. Пример вывода по двум серверам в обычном режиме работы в «ночное время»:


    Node name Read lat,ms Write lat,ms Read, ops/s Write, ops/s Disk, % Java, % Data, G Streams, send G Streams, send % Streams, recv G Streams, recv %
    Comp,
    G
    Comp,
    %
    node1 0.7 0.6 66.7 10.8 15.0 60.1 39.4 0.0 0.0 0.0 0.0 0.0 0.0
    node2 0.7 0.6 66.5 10.3 15.0 20.7 39.7 0.0 0.0 0.0 0.0 0.0 0.0

    те-же два сервера, но на втором идёт repair:
    Node name Read lat,ms Write lat,ms Read, ops/s Write, ops/s Disk, % Java, % Data, G Streams, send G Streams, send % Streams, recv G Streams, recv %
    Comp,
    G
    Comp,
    %
    node1 4.1 0.6 54.3 9.5 17.1 60.1 44.9 0.0 0.0 0.0 0.0 0.0 0.0
    node2 2.6 0.5 54.5 9.5 18.5 55.2 48.9 1.9 22.3 0.0 0.0 2.5 1.2


    Кроме того, мы задокументировали для себя основные процедуры либо в корпоративном wiki, либо в виде подробных комментариев по всем issue, связанным с кассандрой.

    Набитые шишки


    NTS

    Ошибка, которая была допущена с самого начала — использование Simple Strategy вместо Network Topology Strategy, что привело к проблемам как только запустили узлы в удалённом датацентре. Исправлять ошибку пришлось на ходу, хотя ничего не мешало использовать NTS сразу. Теперь у нас репликация устроена так что мы держим по одной реплике данных в каждом датацентре. NetworkTopologyStrategy позволяет описать топологию кластера — в каком датацентре, в какой стойке находится тот или иной узел, после чего Cassandra оптимизирует доступ к данным. Любая запись или чтение обслуживаются локально и только в случае если нужный узел в данном датацентре недоступен, клиент ожидает данных из другого.

    клиент, файловер

    Наше приложение написано на java и мы используем библиотеку Hector для работы с базой. Hector устроен достаточно умно и предлагает клиенту разные политики выбора узла кластера для подключения. Первый вариант, на котором мы остановились — каждый клиент работал с тем узлом, от которого он получал самый быстрый ответ, казался интуитивно правильным, но реальность оказалась жестокой — получилось так, что если один из узлов отвечал заметно быстрее других, все клиенты бросались на него и фактически устраивали ему DDoS. Как только узел начинал отвечать медленне из-за повысившейся нагрузки все бросались на другого. Пришлось срочно переписать логику — сейчас клиенты ходят по всем «живым» узлам в своём датацентре по кругу — так что в пределах датацентра нагрузка на ноды распределена равномерно. Если узел не отвечает в течение 100мс, клиент отмечает его для себя как «мёртвый» и обращается к нему изредка для проверки его состояния. Это полностью решило нашу проблему.

    Compactions, repair

    Cassandra хранит данные на диске в виде отсортированных по ключу таблиц SSTable (вместе с несколькими вспомогательными файлами для каждой таблицы). Каждая новая SSTable образуется при сбросе на диск таблицы MemTable из памяти. Будучи раз записанной, SSTable никогда не изменяется. Единственный способ избавиться от старых SSTable и данных — процедура compaction, которая собирает несколько (или все) SSTable в одну. При этой сборке выполняется много важной работы — удаляются устаревшие tombstones(маркер удаленных данных), устаревшие по TTL данные помечаются удалёнными и tombstone для них помещается в новую SSTable. Некоторые виды compaction выполняются автоматически в фоне, некоторые могут инициироваться вручную. В результате такого сжатия появляются новые таблицы (как правило меньшим числом и обьемом), состоящие из смеси еще не устаревших tombstones и данных.

    Уменьшение влияния тяжелой операции сжатия/слияния таблиц состоит в оптимальном подборе частоты слияний (соответственно размера таблиц в нём участвующем), степени параллельности (уменьшение числа параллельных слияний увеличивает время операции но снижает нагрузку на диск) и разрешенного дискового траффика для операции сжатия.

    Операция repair выполняет синхронизацию данных и tombstones между репликами. Хотя Cassandra имеет средства синхронизации «на ходу» для случая если запись на одну из реплик не удалась с первого раза, все эти средства не дают стопроцентную гарантию. Поэтому для некоторых сценариев работы с данными периодически запускать repair — рекомендуется, а для некоторых — требуется. Поскольку в этот процесс может быть вовлечена передача довольно больших обьемов данных между узлами (и между датацентрами) важно минимизировать расхождения в данных непосредственно перед repair. Подбор оптимальной процедуры repair и подготовки к ней занял довольно много времени, поскольку операция тяжелая и слишком часто не поэкспериментируешь.

    В результате у нас выработалась следующая стратегия запуска repair: процедура запускается в ночное время раз в неделю; предварительно для небольших ColumnFamily выполняется полное слияние таблиц на диске (этот процесс занимает мало ресурсов), и полное слияние «старых»(старше четырёх дней) таблиц для больших ColumnFamily. Последняя операция чистит много tombstones с одной стороны и потребляет относительно немного ресурсов — с другой. К моменту запуска repair на диске хранится минимум данных и процесс вычисления разницы и синхронизация между узлами соответственно занимает минимум времени — около часа.

    Repair особенно сильно страдает от сетевых проблем — если во время синхронизации связь прерывается надолго (минуты) или наблюдаются большие потери пакетов, то обмен между узлами, который происходит по TCP застревает. В новых версиях кассандры можно указать таймаут для такого зависания.

    Память и garbage collections

    Еще один тонкий момент — использование памяти JVM. Особенно нагрузка на heap растёт во время параллельных compactions и repair. Дефолтные параметры могут не подойти для вас, придётся поэкспериментировать.

    Рекомендации



    • Определите как можно раньше характер нагрузки и параметры, которые вам необходимо обеспечить для приложения. Требуйте от постановщика задачи подробных сведений. Проектируйте железо с учетом вашего анализа. Просите разработчиков тщательно проектировать хранение данных в базе.
    • Обеспечьте себе запас по месту и по скорости диска и по обьему RAM если для вас важны времена ответа.
    • Используйте одинаковое железо и софт на узлах, не плодите зоопарк.
    • Приготовьте детальный мониторинг всего. Неизвестно заранее какие данные понадобятся для анализа проблем.
    • Автоматизируйте установку новых узлов.
    • Разберитесь детально с жизненным циклом ваших данных в кассандре: как и где они сохраняются, как читаются, как уходят из базы.


    Выводы


    За последний год мы запустили три кластера из которых два работают в production-проектах, и один находится в стадии разработки. В целом можно сказать, что Cassandra — это рай для operations при условии внимательного отношения. За год эксплуатации у нас не было ни одной проблемы с кассандрой на отдельном узле или вылета кластера в целом, несмотря на нередкие аварии железа и замены/добавления отдельных серверов, регулярные апгрейды, непрерывные эксперименты на живых узлах с различными настройками и процессами. В конечном счёте и устойчивость, и масштабируемость её обеспечивается одним базовым принципом — все узлы играют одинаковую роль и связаны между собой не слишком жестко.
    AdBlock has stolen the banner, but banners are not teeth — they will be back

    More
    Ads

    Comments 12

      +2
      Хотелось бы немного подробностей.
      Почему именно кассандра? От неё отказались в фейсбуке и, на сколько я знаю, отказываются (или уже отказались) в твиттере.
      Какой replication factor? Пишете/читаете с кворумом?
      Сталкивались с проблемой потери данных в случае hinted handoff и потери ещё одной машины?
      Ну и вообще, сколько у вас примерно данных в целом, сколько дисков в штуках, сколько памяти, и сколько запросов в секунду, это самые интересные цифирки.
        0
        Почему именно кассандра? Если подходить исторически, то потому что с ней уже некоторое время игрались и были знакомы. С технической точки зрения важнейшими были: простота расширения и отсутствие каких-либо выделенных узлов или процессов: очень не хотелось вносить в систему SPOF или добавлять без нужды сложную архитектуру ка примеру HBase. По функциональности и производительности она очевидно удовлетворяла нашим требованиям.

        Фактор репликации у нас равен единице на каждый датацентр, то есть фактически в каждом датацентре находится одна полная копия данных, а в сумме получается шесть копий — благодаря этому все чтения и записи происходят локально в пределах датацентра.

        Пишем и читаем с consistency level ONE. Мы не пробовали работать на уровне QUORUM или LOCAL_QUORUM, в основном потому что для нас важнее времена ответа. Та consistency которая обеспечивается на уровне ONE для нас достаточна.

        Нет, с потерей данных мы не сталкивались.

        Дисков у нас по одному 300-гигабайтнику на сервер, из этих 300Г в худшие времена бывало занято до 150-200G — это было тогда, когда процедура repair выполнялась не так как должна, без предварительной чистки tombstones. В результате все эти tombstones копировались между серверами и занимали кучу места. Сейчас на каждом диске хранится обычно 40-60 гиг, то есть получается на датацентр 120 гиг. Про память писал — 8 гиг на каждом сервере, под кучу для явы отдаём вот так:

        MAX_HEAP_SIZE=«3584M»
        HEAP_NEWSIZE=«600M»

        С запросами ситуация разная в разных датацентрах и в разное время суток. Максимум что приходилось видеть на один сервер — на уровне 200 чтений/100 записей в секунду. В целом на кластер приходится на уровне до 1000 в секунду.
          0
          забыл сказать что в проекте кторый работает со счетчиками в кассандре мы в тестах н апроизводительность получаем до 10-20К запросов в секунду. Причём добавление каждого следующего сервера линейно добавляет ёмкости по запросам
            0
            Я правильно понимаю, что вы не используете встроенный в кассандру механизм репликации и сами руками пишете 6 копий?
              0
              Нет, конечно — она сама всё делает. У кассандры есть хорошо оптимизированный механизм репликации между ДЦ — если запис данных произошла в датацентре A и нужно поместить две копии записанных данных в датацентр B, то кассандра посылает только одно сообщение в сторону B, в том датацентре узлы уже сами скоординируются. Так что мы её используем для репликации очень даже хорошо.
              0
              О, забыл добавить про хадуп: он в мульти-ДЦ конфигурации не живёт вообще практически никак. В том же ФБ есть хитрожопая система горячего свапа неймноды, но это вариант для 2 ДЦ максимум, и ещё качественный канал между ними нужен.
                0
                у кассандры есть шикарная фишка — можно сделать кластер с «виртуальными датацентрами». Например у вас есть кластер, который в реалтайме пишет/читает какие-то данные. Периодически эти данные требуют тяжелой обработки через MR к примеру. В кассандре можно построить два «виртуальных» датацентра, настроить репликацию из «реалтаймового» датацентра в аналитический и пусякать тяжелые задачи в нём, не нагружая реалтайм сервера никакой тяжелой обработкой.
            0
            спасибо за статью! Очень полезна для тех, кто только начинает использовать касандру и еще не набил себе шишек
              +1
              Собственно, я почему так расспрашивал: один разраб из фейсбука на прошлогоднем YaC пол дня с нами тусил. Он рассказал нам страшную историю о том, почему они перестали использовать кассандру :)

              Правда, у них по сравнению с автором поста несколько нечестные условия: всего 2 ДЦ, и оба в штатах.
                +1
                А почему перестали? Конечно, от задачи зависит, кассандра — не серебрянная пуля, может к задаче не подходила.
                  0
                  После того, как у них уволились оба два разработчика кассандры, они поняли, что поддерживать более-менее сложную конфигурацию без разработчиков слишком сложно, и перелили всё в хадуп. Говорили, что ну слишком большой порог вхождения.
              0
              А какой у вас характер нагрузки по чтению? Сколько данных в среднем возвращает один запрос на чтение? И сколько их вообще в секунду?

              Only users with full accounts can post comments. Log in, please.