Pull to refresh
  • by relevance
  • by date
  • by rating

Построение отказоустойчивой (fault tolerant) системы

Designing and refactoring *
В разработке банковского ПО данному аспекту системы уделяется наибольшее внимание. Часто, описывая отказоустойчивую систему, используют слова: Fault Tolerance, Resilience, Reliability, Stability, DR (disaster recovery). Данная характеристика — суть способность системы продолжать корректно работать при падении одной или нескольких подсистем, от которых она зависит. Я кратко опишу какие подходы могут применяться в данной области и приведу пару примеров.
Читать дальше →
Total votes 75: ↑68 and ↓7 +61
Views 37K
Comments 10

«Разбор полетов» — episode 6 — Pirates of Silicon Valley

Lumber room

Представляю специальный праздничный выпуск популярного в узких кругах IT-тематического разговорного подкаста «Разбор Полетов». В этом выпуске много гостей, много разговоров про стартапы и просто за жизнь.
В этом выпуске:

Гости:
Константин
Илья
Дима
Наши контакты:
twitter: @gamussa
G+: gplus.to/gAmUssA
Подписаться по RSS
Total votes 9: ↑5 and ↓4 +1
Views 561
Comments 2

Надежный код при высоких нагрузках

Badoo corporate blog Website development *PHP *
Когда речь идет о высоких нагрузках, как правило, в центре внимания оказываются вопросы производительности или масштабируемости кода и архитектуры.

При этом о надежности самого кода говорить как-то не принято, хотя в суровых условиях высоконагруженных проектов его качество приобретает особое значение. Вам нужен действительно «пуленепробиваемый» код, который будет работать корректно даже в случае большого количества одновременных запросов к одним и тем же данным. В этой статье представлен набор рекомендаций, которые могут помочь вам в написании такого кода.
Читать дальше →
Total votes 104: ↑91 and ↓13 +78
Views 37K
Comments 42

All-flash массив HP и еще 10 больших изменений в системах хранения 3PAR (часть1)

Hewlett Packard Enterprise corporate blog
Сегодня в компании HP прошел большой анонс в департаменте систем хранения данных, этой информацией я хочу поделиться. Были анонсированы модели систем хранения среднего класса, оптимизированные на работу с флэш-носителями – HP 3PAR StoreServ 7450, а также был расширен функционал текущих систем 7000 / 10000.

HP 3PAR StoreServ 7450


Практически любая система хранения, представленная сейчас на рынке, поддерживает накопители SSD.
Традиционно, требования высокой производительности от дисковой подсистемы достигалось добавлением большого количества вращающиеся шпинделей, как правило с минимальной утилизацией их объема (рис1).
Использование SSD накопителей позволило сократить число вращающихся шпинделей, подняв при этом производительность массивов данных.


Рис.1 Достижение высокой производительности в массивах традиционного типа и в современных массивах

Подробности
Total votes 10: ↑8 and ↓2 +6
Views 13K
Comments 10

Fault tolerance: как предоставлять надежный сервис в случае сбоя оборудования

VK corporate blog Programming *
Обеспечение устойчивости к сбоям — задача нетривиальная. Для нее нет стандартного решения. Есть некие общие паттерны, компоненты. Но даже в рамках одной организации для обеспечения фолт-толерантности разных узлов применяются разные решения. Что уж говорить о сравнении подходов в разных организациях.

Кто-то оставляет проблему на «авось», кто-то вешает баннер на «пятисотку» и пытается зарабатывать на сбоях деньги. Кто-то пользуется стандартными решениями от поставщиков баз данных или сетевых устройств. А кто-то уходит в модные нынче «облака».



Ясно одно — по мере роста бизнеса обеспечение устойчивости к сбоям (даже не процедур восстановления после сбоев) становится всё более острой проблемой. От количества аварий в год начинает зависеть репутация компании, при больших временах простоя становится неудобно пользоваться сервисом, и т.д. Причин много.

В этой статье мы рассмотрим один из наших способов обеспечения устойчивости к сбоям. Под устойчивостью будем понимать сохранение работоспособности системы при выходе из строя как можно большего количества узлов этой самой системы.

Читать дальше →
Total votes 67: ↑58 and ↓9 +49
Views 12K
Comments 20

Чем Fault Tolerant серверы отличаются от «бытового» ширпотреба на конкретном примере

КРОК corporate blog System administration *IT Infrastructure *Server Administration *

«Зеркальный» кластер с синхронными вычислительными процессами, вид спереди

Пока тут весь интернет кричит про наш отечественный жёсткий диск на целых 50 Мегабайт массой 25 килограмм, не очень-то понимая, что эта штука может пережить две ядерных войны на дне бассейна, расскажу про серьёзные отказоустойчивые серверы и их отличия от обычного железа. К счастью, к нам как раз поступили на тестирование такие, и была возможность хорошенько над ними поиздеваться.

Эти решения особенно интересны для админов. Дело в том, что они защищены не физически — кожухами, отказоустойчивыми интерфейсами или чем-то ещё, а на уровне именно архитектуры вычислений.

Нам в руки попал флагман ftServer 6800 от Stratus. Это корпус с двумя идентичными вычислительными узлами, объединёнными в один кластер, причем обе его половинки работают синхронно и делают одно и то же «зеркально». Это старая добрая «космическая» архитектура, когда вычислительный процесс проходит сразу два независимых аппаратных пути. Если где-то возникнет баг (не связанный с кривостью кода), то один из результатов точно достигнет цели. Это важно для критичных систем в самых разных областях от банкинга до медицины, и это очень важно там, где есть «тихая потеря данных». То есть там, где во весь рост встают баги процессоров, связанные с тем, что кристаллы всё же уникальные и двух одинаковых машин не бывает в природе. Обычно это не проявляется, но на ответственных задачах требуется защититься от случайного влияния помех и возможных более явных проблем. Поэтому вот так и сделано.
Читать дальше →
Total votes 44: ↑41 and ↓3 +38
Views 30K
Comments 31

Обзор вариантов реализации отказоустойчивых кластеров: Stratus, VMware, VMmanager Cloud

ISPsystem corporate blog Hosting IT Infrastructure *Virtualization *Server Administration *


Есть разновидности бизнеса, где перерывы в предоставлении сервиса недопустимы. Например, если у сотового оператора из-за поломки сервера остановится биллинговая система, абоненты останутся без связи. От осознания возможных последствий этого события возникает резонное желание подстраховаться.

Мы расскажем какие есть способы защиты от сбоев серверов и какие архитектуры используют при внедрении VMmanager Cloud: продукта, который предназначен для создания кластера высокой доступности.

Читать дальше →
Total votes 20: ↑18 and ↓2 +16
Views 39K
Comments 12

Эволюция отказоустойчивости в PostgreSQL

Website development *MySQL *PostgreSQL *SQL *
Translation
Tutorial
Мы активно готовимся к PG Day'17, расширяем тематику конференции, поэтому в скором времени вас ждет большое количество интереснейших постов не только о PostgreSQL, но и о других широко используемых базах данных. Сегодня хотим предложить вашему вниманию перевод статьи Gulcin Yildirim, которая послужила основой для ее доклада на PG Conf Europe'16.

«Как бы парадоксально это ни звучало, но истина заключается в том, что чем больше мы узнаём, тем более невежественными становимся в абсолютном смысле, ибо только через просветление мы осознаём нашу ограниченность. Если говорить конкретнее, то одним из наиболее отрадных результатов интеллектуальной эволюции является постоянное открытие новых и более широких перспектив». Никола Тесла



PostgreSQL — это потрясающий проект, который развивается с удивительной скоростью. В этой серии постов мы сосредоточимся на эволюции возможностей отказоустойчивости в PostgreSQL на протяжении всех его версий.
Читать дальше →
Total votes 16: ↑12 and ↓4 +8
Views 11K
Comments 23

Эволюция отказоустойчивости в PostgreSQL: фаза репликации

PG Day'17 Russia corporate blog Data storage *Data storages *
Translation
Мы продолжаем публиковать серию переводов Gulcin Yildirim, разработчика компании 2ndQuadrant, об отказоустойчивости PostgreSQL и сегодня предлагаем вашему вниманию второй пост из серии.

Gulcin приедет на PG Day'17 и лично ответит на вопросы участников, а также расскажет более подробно не только о репликации в PG, но и об автоматизации апгрейдов Постгреса в облаке и не только. Готовьте свои вопросы!



PostgreSQL — это потрясающий проект, который развивается с удивительной скоростью. В этой серии статей мы сфокусируемся на эволюции возможностей отказоустойчивости в PostgreSQL на протяжении всех его версий. Это вторая статья серии, в которой мы поговорим о репликации и её значении для отказоустойчивости и надежности Постгреса.
Читать дальше →
Total votes 16: ↑16 and ↓0 +16
Views 9.6K
Comments 1

Эволюция отказоустойчивости в PostgreSQL: путешествие во времени

PG Day'17 Russia corporate blog Data storage *Data storages *
Translation
Друзья, сегодня мы предлагаем вашему вниманию перевод третьей части цикла статей одного из докладчиков PG Day'17 Russia Gulcin Yildirim об отказоустойчивости PostgreSQL.

PostgreSQL — это потрясающий проект, который развивается с удивительной скоростью. В этой серии статей мы сфокусируемся на эволюции возможностей отказоустойчивости в PostgreSQL на протяжении всех его версий. Это третья статья серии, и в ней мы поговорим о проблемах timelines и их влиянии на отказоустойчивость и надежность PostgreSQL.


Читать дальше →
Total votes 16: ↑16 and ↓0 +16
Views 6.5K
Comments 0

Chain replication: построение эффективного KV-хранилища (часть 1/2)

Programming *System Analysis and Design *Algorithms *Mathematics *Distributed systems *

В данной статье рассмотрим архитектуры простых и эффективных KV-хранилищ с использованием цепной репликации (chain replication), которая активно исследуется и успешно применяется в различных системах.
Читать дальше →
Total votes 15: ↑15 and ↓0 +15
Views 4.2K
Comments 0

Chain replication: построение эффективного KV-хранилища (часть 2/2)

Programming *System Analysis and Design *Algorithms *Mathematics *Distributed systems *

Продолжаем рассматривать примеры использования цепной репликации. Базовые определения и архитектуры были даны в первой части, рекомендую ознакомиться с ней перед прочтением второй части.
Читать дальше →
Total votes 13: ↑13 and ↓0 +13
Views 2.2K
Comments 2

Проверки работоспособности и постепенная деградация распределенных систем

Southbridge corporate blog System administration *Server Administration *DevOps *
Translation

Как всегда, спасибо Фреду Хеберту и Саргуну Дхиллону за то, что прочли черновик этой статьи и предложили нескольких бесценных советов.


В своем докладе о скорости Тамар Берковичи из Box подчеркнула важность проверок работоспособности при автоматическом аварийном переключении баз данных. В частности, она отметила, что мониторинг времени выполнения сквозных запросов, как метод определения работоспособности базы данных, — лучше, чем простое эхо-тестирование (пингирование).


... перебрасывая трафик на другую ноду (реплику), чтобы устранить бездействие, надо построить средства защиты от дребезга и других пограничных ситуаций. Это не сложно. Фокус при организации эффективной работы в том, чтобы знать, когда перевести базу данных в первую позицию, т.е. надо быть в состоянии правильно оценить работоспособность базы данных. Сейчас многие параметры, на которые мы привыкли обращать внимание, — например, загрузка процессора, время ожидания блокировки, частота ошибок, — являются вторичными сигналами. Ни один из этих параметров на самом деле не говорит о способности базы данных к обработке клиентского трафика. Поэтому, если используете их для принятия решения о переключении, можете получить как ложноположительные, так и ложноотрицательные результаты. Наше устройство проверки работоспособности фактически выполняет простые запросы к узлам базы данных и использует данные о выполненных и невыполненных запросах для более точной оценки работоспособности базы данных.

Я обсудила это с другом, и он предположил, что проверки работоспособности должны быть предельно простыми, и что реальный трафик — это лучший критерий для оценки работоспособности процесса.

Читать дальше →
Total votes 22: ↑20 and ↓2 +18
Views 6K
Comments 0

Fault Tolerance Web Architecture for Our Cloud Solutions

VK corporate blog High performance *Virtualization *Cloud computing *Cloud services
image

Hi Habr,

I'm Artyom Karamyshev, a system administration team leader at Mail.Ru Cloud Solutions (MCS). We launched many products in 2019. We've aimed to make API services easily scalable, fault-tolerant, and ready to accommodate rapid growth. Our platform is running on OpenStack, and in this article, I describe all the component fault tolerance issues that we've resolved.

The overall fault tolerance of the platform is consists of its components fault tolerance. So, I'm going to show you step by step tutorial about all levels where we've found the risks.
Read more →
Total votes 25: ↑24 and ↓1 +23
Views 1.7K
Comments 0