Pull to refresh
  • by relevance
  • by date
  • by rating

Shit happens. Яндекс удалил часть виртуальных машин в своем облаке

IT Infrastructure *Cloud computing *Server Administration *DevOps *Cloud services
image
Кадр из фильма Мстители: Война бесконечности

По сообщению пользователя dobrovolskiy 15 мая 2019 года в результате человеческой ошибки Яндекс удалил часть виртуальных машин в своем облаке.

Пользователь получил письмо от техподдержки Яндекса с таким текстом:
Сегодня мы проводили технические работы в Яндекс.Облаке. К сожалению, из-за человеческого фактора были удалены виртуальные машины пользователей в зоне ru-central1-c, которые хоть раз находились в статусе SUSPENDED. Мы сразу заметили ошибку и остановили удаление. Увы, некоторые ВМ и их boot-диски были удалены.

В результате пользователем были полностью потеряны некоторые продакшн-сервера. Бекапы у пострадавшего были, но часть данных всё равно утрачена безвозвратно. Обычно Яндекс компенсирует даун-тайм своих сервисов, согласно своей политике, но кто компенсирует потерю данных?

UPD Яндекс официально подтвердил инцидент и прокомментировал ситуацию.
Total votes 130: ↑118 and ↓12 +106
Views 104K
Comments 268

Обновление ассортимента фотополимерных 3D-принтеров Anet

3D printers
Новый достойный представитель фотополимерных 3D-принтеров, производства Anet3D.
Модель N4 продуманная, полностью собранная и готовая к работе «из коробки».


Читать дальше →
Total votes 20: ↑17 and ↓3 +14
Views 2.3K
Comments 1

Вебинар «Интернет-магазин в облаке: с 0 до Aliexpress» 22 сентября от Mail.ru Group

Mail.ru Group corporate blog Virtualization *Database Administration *Data storage *


Время летит незаметно: приближаются дни распродаж перед новогодними праздниками. И хорошо бы, чтобы под нагрузкой в эти дни сайты и приложения магазинов работали как часы. Без висяков, таймаутов и ушедших навсегда так-и-не-покупателей.

Для этого гибкостью и производительностью интернет-магазина необходимо заняться не накануне, и даже не за месяц, а ещё раньше. Лучше прямо 22 сентября.

22 сентября мы приглашаем вас принять участие в вебинаре, на котором расскажем, как организовать хостинг в облаке, обеспечив максимальную надежность и производительность вашего сервиса.
Подробнее о вебинаре
Total votes 11: ↑11 and ↓0 +11
Views 728
Comments 0

Вебинар «Интернет-магазин в облаке: c 0 до Aliexpress. Часть 2» 30 октября от Mail.ru Group

Mail.ru Group corporate blog Virtualization *Database Administration *Data storage *Kubernetes *


Сезонные всплески спроса, хорошая статья на хабре, «черная пятница» — интернет-магазину всегда нужно быть начеку, чтобы лавинообразная нагрузка не застала врасплох и поток заказов был быстро обработан. В первой части вебинара мы рассказали, как быстро запустить свой интернет-магазин «из коробки» или развернуть его на базе инфраструктурных сервисов (IaaS).

30 октября приглашаем вас принять участие в вебинаре «Интернет-магазин в облаке: с 0 до Aliexpress. Часть 2», где мы покажем, как с помощью платформенных сервисов (Kubernetes как сервис, управляемых баз данных, сервиса по работе с большими данными) обеспечить отказоустойчивость и масштабируемость, снизить нагрузку на основные OLTP базы данных ваших приложений, реализовать процесс change data capture, построить ETL/ELT пайплайны, а также реализовать платформу для работы ваших аналитиков. Присоединяйтесь!
Подробнее о вебинаре
Total votes 7: ↑6 and ↓1 +5
Views 696
Comments 3

Intel научилась обновлять UEFI без перезагрузки

ITSumma corporate blog Open source *System Programming *Server Administration *CPU


Компания Intel разработала новый механизм обновления UEFI под названием Intel Seamless Update, который позволяет изменять конфигурацию UEFI на лету. Это очень удобно для администраторов серверов, которые могут накатывать новые прошивки прямо на работающую систему, обеспечивая гарантированный аптайм сервера согласно SLA.

Соответствующие патчи поступили в ядро Linux.
Читать дальше →
Total votes 22: ↑21 and ↓1 +20
Views 1K
Comments 0

Соглашения об уровне обслуживания

Lumber room
Соглашения об уровне обслуживания (SLA, Service Level Agreements) в условиях повышенной конкуренции на рынке являются одним из мощнейших средств для привлечения новых и удержания старых клиентов.
Читать дальше →
Total votes 9: ↑7 and ↓2 +5
Views 922
Comments 4

Аптайм 99,9% теперь для всех сервисов Google Apps PE

IT-companies
Теперь условие о гарантированном аптайме 99,9% на платных сервисах Google Apps Premier Edition распространяется не только на Gmail, но и на все остальные веб-сервисы, в том числе Google Calendar, Google Docs, Google Sites и Google Talk. Все они теперь попадают под действие Google Apps Service Level Agreement.

Аптайм 99,9% означает, что сервисы могут быть недоступны не более 45 минут в месяц, в противном случае компания будет обязана выплатить пользователю компенсацию (интересная деталь: согласно SLA, промежутки меньше чем 10 минут не считаются даунтаймом). Размер компенсации тоже установлен в SLA.

Статистика за последние годы показывает, что надёжность сервисов Google в несколько раз превосходит гарантированную. Средний даунтайм составил 10-15 минут в месяц, даже по бесплатной версии Gmail. По данным независимых аналитиков, это гораздо выше, чем у других компаний, которые предлагают аналогичные сервисы за деньги. В качестве примеров приводятся решения на базе Novell GroupWise (даунтайм 66 минут в месяц), IBM Lotus (120 минут) и Microsoft Exchange (150 минут): см. диаграмму. У тех даже есть некие «запланированные» даунтаймы, которые в Gmail отсутствуют в принципе.
Total votes 37: ↑35 and ↓2 +33
Views 465
Comments 11

Кому нужен SLA?

Lumber room
Многие из вас, наверное, слышали, да и обсуждали такие инициативы как «Соглашение об уровне сервиса» (SLA или Service Level Agreement); многие, наверное, его используют при работе с внешними провайдерами. Например, с телеком провайдерами.

А нужно ли такое соглашение внутри компании? Как соглашение между ИТ службой и бизнес подразделением? По сути, ведь можно написать все, что угодно, но если ИТ служба или бизнес-подразделение нарушит соглашение, то применить штрафные санкции, такие как не заплатить или перезаключить контракт с новым поставщиком, просто невозможно.
Читать дальше →
Total votes 65535: ↑32767.5 and ↓32767.5 0
Views 957
Comments 2

Реальный IT management — давайте без умных слов и лишней теории

Lumber room
Привет, друзья.

Надеюсь, что выбор Habr.ru в качестве хостинга для блога об IT-менеджменте является правильным шагом.

У меня есть знания, которыми я с удовольствием с вами поделюсь.

У меня есть желание учиться, поэтому я с удовольствием готов слушать вас.
Именно на диалоге, в отличие от, на мой взгляд, слишком сухой схемы «статья-пустота», мы будем строить с вами взаимодействие.

КАК МОЖНО БОЛЬШЕ ПРИМЕРОВ — вот мой основной принцип.

Проанонсирую материалы на январь-март:

1. Сервисная модель — посмотрите на IT глазами пользователя (2-3 части)

В рамках обсуждения данной темы мы:
— Взглянем на IT глазами обычных пользователей (операционный уровень) и топ-менеджеров от бизнеса (тактический/стратегический уровни)
— Поймем, что такое ИТ-сервис
— Разработаем простейший каталог сервисов
— Проанализируем преимущества сервисного подхода для IT-департамента
— Рассмотрим несколько успешных и ужасных примеров попытки прийти к сервисному подходу

2. Управление инцидентами — мы попали в армию? (3-5)
Мы поймем:

— Что такое инцидент
— Почему тема «Управление инцидентами — мы попали в армию?» это лишь верхушка айсберга
— Как устроен service изнутри и для чего он нужен
— Откуда берутся инциденты и куда они исчезают
— Как быть с теми инцидентами, которые исчезать не хотят
Total votes 25: ↑8 and ↓17 -9
Views 4.2K
Comments 15

Мониторинг состояния канала по jitter / packet loss

Cisco *
Добрый день, коллеги.

Собравшись с мыслями, решил нормально оформить родившееся у меня решение.

Итак, постановка задачи:

Есть два канала между точками А и Б, чаще всего от разных провайдеров. Необходимо обеспечить учет качества обслуживания на данных каналах, а именно:
1. При потерях >0.5% на канале, канал не должен использоваться.
2. При jitter > 10мс, канал не должен использоваться.

Такая задача возникла у меня на работе, поскольку два города соединены двумя каналами, по которым бегает в большом количестве голос, который, как известно, весьма капризен в отношении вышеописанных показателей. Кому интересно — милости прошу под кат.
Читать дальше →
Total votes 48: ↑45 and ↓3 +42
Views 39K
Comments 37

Вышла версия 1.6.0

Google App Engine *
Спустя три с половиной года после презентации платформы на Campfire One, App Engine выросла и стала полноправным продуктом Google. Мы создавали прокдукт, следуя простой философии: «удобно использовать, просто масштабировать и легко начать». Сейчас у нас более 100 миллиардов посещений в месяц, более 300 тысяч активных приложений и более 100 тысяч разработчиков, использующий продукт. Подход полностью оправдал себя. Спасибо за Вашу поддержку. Google верит в светлое будущее App Engine.
via The App Engine Team
Обзор изменений
Total votes 28: ↑25 and ↓3 +22
Views 869
Comments 3

Клиент всегда прав

Parking.ru corporate blog
imageНа данный момент многие пострадавшие от сбоя в хранилище виртуальные серверы были мигрироваваны и полностью или частично восстановлены на другом хранилище.

По прогнозам нашей технической службы оставшиеся виртуальные машины будут перенесены до завтрашнего утра. Работы по восстановлению нескольких «сложных» серверов ведутся активно, наши специалисты восстанавливают информацию при помощи специальных аппаратных и программных средств.
Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Views 1.6K
Comments 8

Для кого SLA – мгла, расскажем, в чем тут дела

Гарс Телеком corporate blog
Соглашение об уровне сервиса – документ, описывающий уровень оказания услуг, ожидаемый клиентом от поставщика, основанный на показателях, применимых к данному сервису, и устанавливающий ответственность поставщика, если согласованные показатели не достигаются.

Грубо говоря, если у вас отключают интернет дома, то в конце концов вы плюнете и пойдете на прогулку, в кино или кабак, в лучшем случае надеясь на перерасчет.

Если же у вас отключается связь в офисе, то у вас останавливаются продажи (клиенты не могут дозвониться и, не дождавшись ответа по почте, уходят к другим поставщикам), бухгалтерия не может проводить платежи (здесь вы подводите уже ваших партнеров), а если вы, скажем, трейдерское бюро, то сумма убытков может достигать тысяч долларов (вы не сможете вовремя купить или сбыть акции).

Здесь может быть лирическое отступление про резервирование каналов и т.д., но у нас перед глазами есть пример – здание комплекса Москва-Сити, в котором пару лет назад неожиданным образом и основной, и резервный канал оказались от одного провайдера. А беда, как известно, не приходит одна. В итоге дважды на 7-8 часов (в рабочее время) оказывались без связи компании из рейтинга «Fortune 500».
Поэтому особо дотошные юридические службы компаний, чей бизнес особо чувствителен к качеству связи, стараются исчислять размер ущерба компании не только стоимостью не потреблённых сервисов, но и выгодой, упущенной клиентом вследствие простоя связи.
Читать дальше →
Total votes 17: ↑12 and ↓5 +7
Views 35K
Comments 19

Основные сбои в работе облачных сервисов в 2012 году, и какие выводы из этого можно извлечь

Amazon Web Services *
Исходя из недавнего отчета IWGCR (International Working Group on Cloud Computing Resiliency) каждый год сервисы облачных вычислений недоступны, в среднем, в течение 7.5 часов. Компании, которые частично или полностью используют облака для своих приложений и сервисов, в этом году пострадали несколько раз. Давайте рассмотрим самые большие отказы в работе облачных сервисов в 2012 году.
Читать дальше →
Total votes 22: ↑11 and ↓11 0
Views 8.7K
Comments 11

Дон Джонс. «Создание унифицированной системы IT-мониторинга в вашем окружении» Глава 4.Мониторинг: взгляд за пределы ЦОД

Cloud computing *
Translation

В этой главе речь пойдёт о способах объединения внешнего и внутреннего мониторинга. На что обратить внимание при выстраивании системы, какие при этом есть ограничения. Как не упустить мелочи и получить возможность обозревать картину не только снизу вверх, но и сверху вниз.

Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Views 10K
Comments 0

Дон Джонс. «Создание унифицированной системы IT-мониторинга в вашем окружении».Глава 5. Превращаем проблемы в решения

Cloud computing *
Translation

В этой главе автор собирается поделиться своим видением на способы хранения и поддержания в актуальном состоянии знаний, накопленных в результате длительного хождения по граблям. Основная сложность при их хранении и поддержании массива знаний — найти людей, которые бы сочетали несочетаемое: были тщательны, креативны, усидчивы, обладали острым аналитическим умом, интуицией и не просили бы много денег.

Читать дальше →
Total votes 4: ↑4 and ↓0 +4
Views 8.8K
Comments 3

Дон Джонс. «Создание унифицированной системы IT-мониторинга в вашем окружении».Глава 6.Унифицированное управление на примерах

System administration *IT Infrastructure *Server Administration *
Translation

Ну, вот наконец мы и добрались до последней главы в книге. Здесь будут рассмотрены некоторые практические примеры, ради соблюдения этики автор практически не называет никаких конкретных систем, кроме очень хорошо известных. Рассматривается состояние дел до внедрения систем унифицированного управления и после.

Читать дальше →
Total votes 4: ↑2 and ↓2 0
Views 8.7K
Comments 3

Оптическое кольцо высокой доступности

Cloud4Y corporate blog
Добрый день, уважаемые Хабраюзеры.
Хотели бы Вам рассказать о реализованном нашими инженерами проекте по построению оптического кольца высокой доступности между нашими облаками в Москве.


Читать дальше →
Total votes 10: ↑7 and ↓3 +4
Views 18K
Comments 11

Про InfiniBand: как мы уменьшали пинг с 7 мкс до 2,4 мкс (и результаты тестов)

КРОК corporate blog High performance *

InfiniBand-свитч SX6005. 12 FDR 56Gb/s портов на одном юните, коммутация 1.3Тб/с.

Многие считают, что InfiniBand — это «космос». То есть считается, что дорого и нужно только для «суперкомпьютеров» (HPC) производительностью в 1-2 Петафлопа и с гиганскими объмами обрабатываемых данных. Тем не менее, с помощью этой технологии можно организовывать не только самые скоростные межсистемные соединения в кластерах, но и радикально снижать задержки в работе критичных приложений. Конкретно – делать то, что может решаться и с помощью Ethernet, но экономичнее и быстрее. Вот пример.

Задача


У одного нашего крупного заказчика из финансовой сферы была проблема в скорости работы двух приложений. Специфика приложений заключалась в том, что необходимо было обрабатывать большое количество транзакций с минимальной задержкой. 6-7 мкс latency – это лучшие результаты, которые они достигли путем апгрейда серверов и максимальной софтверной доработкой. Дальнейшие возможные оптимизации сулили улучшения на уровне 0,3-0,5 мкс. Мы же пришли и сообщили, что сможем уменьшить задержки в два раза.
Читать дальше →
Total votes 47: ↑35 and ↓12 +23
Views 36K
Comments 49