Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Shit happens. Яндекс удалил часть виртуальных машин в своем облаке

IT-инфраструктура *Облачные вычисления *Серверное администрирование *DevOps *Облачные сервисы
image
Кадр из фильма Мстители: Война бесконечности

По сообщению пользователя dobrovolskiy 15 мая 2019 года в результате человеческой ошибки Яндекс удалил часть виртуальных машин в своем облаке.

Пользователь получил письмо от техподдержки Яндекса с таким текстом:
Сегодня мы проводили технические работы в Яндекс.Облаке. К сожалению, из-за человеческого фактора были удалены виртуальные машины пользователей в зоне ru-central1-c, которые хоть раз находились в статусе SUSPENDED. Мы сразу заметили ошибку и остановили удаление. Увы, некоторые ВМ и их boot-диски были удалены.

В результате пользователем были полностью потеряны некоторые продакшн-сервера. Бекапы у пострадавшего были, но часть данных всё равно утрачена безвозвратно. Обычно Яндекс компенсирует даун-тайм своих сервисов, согласно своей политике, но кто компенсирует потерю данных?

UPD Яндекс официально подтвердил инцидент и прокомментировал ситуацию.
Всего голосов 130: ↑118 и ↓12 +106
Просмотры 104K
Комментарии 268

Обновление ассортимента фотополимерных 3D-принтеров Anet

3D-принтеры
Новый достойный представитель фотополимерных 3D-принтеров, производства Anet3D.
Модель N4 продуманная, полностью собранная и готовая к работе «из коробки».


Читать дальше →
Всего голосов 20: ↑17 и ↓3 +14
Просмотры 2.3K
Комментарии 1

Вебинар «Интернет-магазин в облаке: с 0 до Aliexpress» 22 сентября от Mail.ru Group

Блог компании VK Виртуализация *Администрирование баз данных *Хранение данных *


Время летит незаметно: приближаются дни распродаж перед новогодними праздниками. И хорошо бы, чтобы под нагрузкой в эти дни сайты и приложения магазинов работали как часы. Без висяков, таймаутов и ушедших навсегда так-и-не-покупателей.

Для этого гибкостью и производительностью интернет-магазина необходимо заняться не накануне, и даже не за месяц, а ещё раньше. Лучше прямо 22 сентября.

22 сентября мы приглашаем вас принять участие в вебинаре, на котором расскажем, как организовать хостинг в облаке, обеспечив максимальную надежность и производительность вашего сервиса.
Подробнее о вебинаре
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 740
Комментарии 0

Вебинар «Интернет-магазин в облаке: c 0 до Aliexpress. Часть 2» 30 октября от Mail.ru Group

Блог компании VK Виртуализация *Администрирование баз данных *Хранение данных *Kubernetes *


Сезонные всплески спроса, хорошая статья на хабре, «черная пятница» — интернет-магазину всегда нужно быть начеку, чтобы лавинообразная нагрузка не застала врасплох и поток заказов был быстро обработан. В первой части вебинара мы рассказали, как быстро запустить свой интернет-магазин «из коробки» или развернуть его на базе инфраструктурных сервисов (IaaS).

30 октября приглашаем вас принять участие в вебинаре «Интернет-магазин в облаке: с 0 до Aliexpress. Часть 2», где мы покажем, как с помощью платформенных сервисов (Kubernetes как сервис, управляемых баз данных, сервиса по работе с большими данными) обеспечить отказоустойчивость и масштабируемость, снизить нагрузку на основные OLTP базы данных ваших приложений, реализовать процесс change data capture, построить ETL/ELT пайплайны, а также реализовать платформу для работы ваших аналитиков. Присоединяйтесь!
Подробнее о вебинаре
Всего голосов 7: ↑6 и ↓1 +5
Просмотры 717
Комментарии 3

Intel научилась обновлять UEFI без перезагрузки

Блог компании ITSumma Open source *Системное программирование *Серверное администрирование *Процессоры


Компания Intel разработала новый механизм обновления UEFI под названием Intel Seamless Update, который позволяет изменять конфигурацию UEFI на лету. Это очень удобно для администраторов серверов, которые могут накатывать новые прошивки прямо на работающую систему, обеспечивая гарантированный аптайм сервера согласно SLA.

Соответствующие патчи поступили в ядро Linux.
Читать дальше →
Всего голосов 26: ↑25 и ↓1 +24
Просмотры 1.4K
Комментарии 0

Соглашения об уровне обслуживания

Чулан
Соглашения об уровне обслуживания (SLA, Service Level Agreements) в условиях повышенной конкуренции на рынке являются одним из мощнейших средств для привлечения новых и удержания старых клиентов.
Читать дальше →
Всего голосов 9: ↑7 и ↓2 +5
Просмотры 950
Комментарии 4

Аптайм 99,9% теперь для всех сервисов Google Apps PE

IT-компании
Теперь условие о гарантированном аптайме 99,9% на платных сервисах Google Apps Premier Edition распространяется не только на Gmail, но и на все остальные веб-сервисы, в том числе Google Calendar, Google Docs, Google Sites и Google Talk. Все они теперь попадают под действие Google Apps Service Level Agreement.

Аптайм 99,9% означает, что сервисы могут быть недоступны не более 45 минут в месяц, в противном случае компания будет обязана выплатить пользователю компенсацию (интересная деталь: согласно SLA, промежутки меньше чем 10 минут не считаются даунтаймом). Размер компенсации тоже установлен в SLA.

Статистика за последние годы показывает, что надёжность сервисов Google в несколько раз превосходит гарантированную. Средний даунтайм составил 10-15 минут в месяц, даже по бесплатной версии Gmail. По данным независимых аналитиков, это гораздо выше, чем у других компаний, которые предлагают аналогичные сервисы за деньги. В качестве примеров приводятся решения на базе Novell GroupWise (даунтайм 66 минут в месяц), IBM Lotus (120 минут) и Microsoft Exchange (150 минут): см. диаграмму. У тех даже есть некие «запланированные» даунтаймы, которые в Gmail отсутствуют в принципе.
Всего голосов 37: ↑35 и ↓2 +33
Просмотры 482
Комментарии 11

Кому нужен SLA?

Чулан
Многие из вас, наверное, слышали, да и обсуждали такие инициативы как «Соглашение об уровне сервиса» (SLA или Service Level Agreement); многие, наверное, его используют при работе с внешними провайдерами. Например, с телеком провайдерами.

А нужно ли такое соглашение внутри компании? Как соглашение между ИТ службой и бизнес подразделением? По сути, ведь можно написать все, что угодно, но если ИТ служба или бизнес-подразделение нарушит соглашение, то применить штрафные санкции, такие как не заплатить или перезаключить контракт с новым поставщиком, просто невозможно.
Читать дальше →
Всего голосов 65535: ↑32767.5 и ↓32767.5 0
Просмотры 995
Комментарии 2

Реальный IT management — давайте без умных слов и лишней теории

Чулан
Привет, друзья.

Надеюсь, что выбор Habr.ru в качестве хостинга для блога об IT-менеджменте является правильным шагом.

У меня есть знания, которыми я с удовольствием с вами поделюсь.

У меня есть желание учиться, поэтому я с удовольствием готов слушать вас.
Именно на диалоге, в отличие от, на мой взгляд, слишком сухой схемы «статья-пустота», мы будем строить с вами взаимодействие.

КАК МОЖНО БОЛЬШЕ ПРИМЕРОВ — вот мой основной принцип.

Проанонсирую материалы на январь-март:

1. Сервисная модель — посмотрите на IT глазами пользователя (2-3 части)

В рамках обсуждения данной темы мы:
— Взглянем на IT глазами обычных пользователей (операционный уровень) и топ-менеджеров от бизнеса (тактический/стратегический уровни)
— Поймем, что такое ИТ-сервис
— Разработаем простейший каталог сервисов
— Проанализируем преимущества сервисного подхода для IT-департамента
— Рассмотрим несколько успешных и ужасных примеров попытки прийти к сервисному подходу

2. Управление инцидентами — мы попали в армию? (3-5)
Мы поймем:

— Что такое инцидент
— Почему тема «Управление инцидентами — мы попали в армию?» это лишь верхушка айсберга
— Как устроен service изнутри и для чего он нужен
— Откуда берутся инциденты и куда они исчезают
— Как быть с теми инцидентами, которые исчезать не хотят
Всего голосов 25: ↑8 и ↓17 -9
Просмотры 4.2K
Комментарии 15

Мониторинг состояния канала по jitter / packet loss

Cisco *
Добрый день, коллеги.

Собравшись с мыслями, решил нормально оформить родившееся у меня решение.

Итак, постановка задачи:

Есть два канала между точками А и Б, чаще всего от разных провайдеров. Необходимо обеспечить учет качества обслуживания на данных каналах, а именно:
1. При потерях >0.5% на канале, канал не должен использоваться.
2. При jitter > 10мс, канал не должен использоваться.

Такая задача возникла у меня на работе, поскольку два города соединены двумя каналами, по которым бегает в большом количестве голос, который, как известно, весьма капризен в отношении вышеописанных показателей. Кому интересно — милости прошу под кат.
Читать дальше →
Всего голосов 48: ↑45 и ↓3 +42
Просмотры 39K
Комментарии 37

Вышла версия 1.6.0

Google App Engine *
Спустя три с половиной года после презентации платформы на Campfire One, App Engine выросла и стала полноправным продуктом Google. Мы создавали прокдукт, следуя простой философии: «удобно использовать, просто масштабировать и легко начать». Сейчас у нас более 100 миллиардов посещений в месяц, более 300 тысяч активных приложений и более 100 тысяч разработчиков, использующий продукт. Подход полностью оправдал себя. Спасибо за Вашу поддержку. Google верит в светлое будущее App Engine.
via The App Engine Team
Обзор изменений
Всего голосов 28: ↑25 и ↓3 +22
Просмотры 878
Комментарии 3

Клиент всегда прав

Блог компании Parking.ru
imageНа данный момент многие пострадавшие от сбоя в хранилище виртуальные серверы были мигрироваваны и полностью или частично восстановлены на другом хранилище.

По прогнозам нашей технической службы оставшиеся виртуальные машины будут перенесены до завтрашнего утра. Работы по восстановлению нескольких «сложных» серверов ведутся активно, наши специалисты восстанавливают информацию при помощи специальных аппаратных и программных средств.
Читать дальше →
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 1.6K
Комментарии 8

Для кого SLA – мгла, расскажем, в чем тут дела

Блог компании Гарс Телеком
Соглашение об уровне сервиса – документ, описывающий уровень оказания услуг, ожидаемый клиентом от поставщика, основанный на показателях, применимых к данному сервису, и устанавливающий ответственность поставщика, если согласованные показатели не достигаются.

Грубо говоря, если у вас отключают интернет дома, то в конце концов вы плюнете и пойдете на прогулку, в кино или кабак, в лучшем случае надеясь на перерасчет.

Если же у вас отключается связь в офисе, то у вас останавливаются продажи (клиенты не могут дозвониться и, не дождавшись ответа по почте, уходят к другим поставщикам), бухгалтерия не может проводить платежи (здесь вы подводите уже ваших партнеров), а если вы, скажем, трейдерское бюро, то сумма убытков может достигать тысяч долларов (вы не сможете вовремя купить или сбыть акции).

Здесь может быть лирическое отступление про резервирование каналов и т.д., но у нас перед глазами есть пример – здание комплекса Москва-Сити, в котором пару лет назад неожиданным образом и основной, и резервный канал оказались от одного провайдера. А беда, как известно, не приходит одна. В итоге дважды на 7-8 часов (в рабочее время) оказывались без связи компании из рейтинга «Fortune 500».
Поэтому особо дотошные юридические службы компаний, чей бизнес особо чувствителен к качеству связи, стараются исчислять размер ущерба компании не только стоимостью не потреблённых сервисов, но и выгодой, упущенной клиентом вследствие простоя связи.
Читать дальше →
Всего голосов 17: ↑12 и ↓5 +7
Просмотры 35K
Комментарии 19

Основные сбои в работе облачных сервисов в 2012 году, и какие выводы из этого можно извлечь

Amazon Web Services *
Исходя из недавнего отчета IWGCR (International Working Group on Cloud Computing Resiliency) каждый год сервисы облачных вычислений недоступны, в среднем, в течение 7.5 часов. Компании, которые частично или полностью используют облака для своих приложений и сервисов, в этом году пострадали несколько раз. Давайте рассмотрим самые большие отказы в работе облачных сервисов в 2012 году.
Читать дальше →
Всего голосов 22: ↑11 и ↓11 0
Просмотры 8.8K
Комментарии 11

Дон Джонс. «Создание унифицированной системы IT-мониторинга в вашем окружении» Глава 4.Мониторинг: взгляд за пределы ЦОД

Облачные вычисления *
Перевод

В этой главе речь пойдёт о способах объединения внешнего и внутреннего мониторинга. На что обратить внимание при выстраивании системы, какие при этом есть ограничения. Как не упустить мелочи и получить возможность обозревать картину не только снизу вверх, но и сверху вниз.

Читать дальше →
Всего голосов 5: ↑4 и ↓1 +3
Просмотры 10K
Комментарии 0

Дон Джонс. «Создание унифицированной системы IT-мониторинга в вашем окружении».Глава 5. Превращаем проблемы в решения

Облачные вычисления *
Перевод

В этой главе автор собирается поделиться своим видением на способы хранения и поддержания в актуальном состоянии знаний, накопленных в результате длительного хождения по граблям. Основная сложность при их хранении и поддержании массива знаний — найти людей, которые бы сочетали несочетаемое: были тщательны, креативны, усидчивы, обладали острым аналитическим умом, интуицией и не просили бы много денег.

Читать дальше →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 8.8K
Комментарии 3

Дон Джонс. «Создание унифицированной системы IT-мониторинга в вашем окружении».Глава 6.Унифицированное управление на примерах

Системное администрирование *IT-инфраструктура *Серверное администрирование *
Перевод

Ну, вот наконец мы и добрались до последней главы в книге. Здесь будут рассмотрены некоторые практические примеры, ради соблюдения этики автор практически не называет никаких конкретных систем, кроме очень хорошо известных. Рассматривается состояние дел до внедрения систем унифицированного управления и после.

Читать дальше →
Всего голосов 4: ↑2 и ↓2 0
Просмотры 8.7K
Комментарии 3

Оптическое кольцо высокой доступности

Блог компании Cloud4Y
Добрый день, уважаемые Хабраюзеры.
Хотели бы Вам рассказать о реализованном нашими инженерами проекте по построению оптического кольца высокой доступности между нашими облаками в Москве.


Читать дальше →
Всего голосов 10: ↑7 и ↓3 +4
Просмотры 18K
Комментарии 11

Про InfiniBand: как мы уменьшали пинг с 7 мкс до 2,4 мкс (и результаты тестов)

Блог компании КРОК Высокая производительность *

InfiniBand-свитч SX6005. 12 FDR 56Gb/s портов на одном юните, коммутация 1.3Тб/с.

Многие считают, что InfiniBand — это «космос». То есть считается, что дорого и нужно только для «суперкомпьютеров» (HPC) производительностью в 1-2 Петафлопа и с гиганскими объмами обрабатываемых данных. Тем не менее, с помощью этой технологии можно организовывать не только самые скоростные межсистемные соединения в кластерах, но и радикально снижать задержки в работе критичных приложений. Конкретно – делать то, что может решаться и с помощью Ethernet, но экономичнее и быстрее. Вот пример.

Задача


У одного нашего крупного заказчика из финансовой сферы была проблема в скорости работы двух приложений. Специфика приложений заключалась в том, что необходимо было обрабатывать большое количество транзакций с минимальной задержкой. 6-7 мкс latency – это лучшие результаты, которые они достигли путем апгрейда серверов и максимальной софтверной доработкой. Дальнейшие возможные оптимизации сулили улучшения на уровне 0,3-0,5 мкс. Мы же пришли и сообщили, что сможем уменьшить задержки в два раза.
Читать дальше →
Всего голосов 47: ↑35 и ↓12 +23
Просмотры 36K
Комментарии 49