Как стать автором
Обновить

Вебинар: Как организовать DevOps/SRE команду, избежать выгорания и управлять инцидентами при помощи Amixr

Время на прочтение 1 мин
Количество просмотров 974
Блог компании Proto Высокая производительность *Системное администрирование *IT-инфраструктура *DevOps *

За последний год Amixr провели несколько десятков интервью со своими пользователями и дежурными инженерами из таких компаний, как Google, Facebook, Dropbox, SoundCloud, чтобы получить инсайты о том, что же такое эффективный инцидент-менеджмент. Кроме того, через инфраструктуру Amixr проходят более трехсот тысяч инцидентов ежемесячно.

Всю эту информацию и собственный опыт Amixr и Proto собрали в едином вебинаре в эту среду, 09 декабря в 16:00. Для участия достаточно пройти быструю регистрацию.

Посмотреть программу
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Запускаем МЕГА курс по SRE для МЕГАстабильной работы системы

Время на прочтение 3 мин
Количество просмотров 375
Блог компании Southbridge

22 сентября Слёрм запускает новый практический курс по внедрению редких для российского рынка инструментов SRE для повышения стабильности системы. В программу интенсивов вошли темы, которые принципиально отличают работу SRE-инженеров от практик DevOps.

Поговорим про: Observability, Reliability architecture patterns, Proactive reliability testing, Chaos Engineering, Intelligent delivery of changes, Incident management.

Читать далее
Всего голосов 9: ↑7 и ↓2 +5
Комментарии 0

Реальный IT management — давайте без умных слов и лишней теории

Время на прочтение 1 мин
Количество просмотров 7.6K
Чулан
Привет, друзья.

Надеюсь, что выбор Habr.ru в качестве хостинга для блога об IT-менеджменте является правильным шагом.

У меня есть знания, которыми я с удовольствием с вами поделюсь.

У меня есть желание учиться, поэтому я с удовольствием готов слушать вас.
Именно на диалоге, в отличие от, на мой взгляд, слишком сухой схемы «статья-пустота», мы будем строить с вами взаимодействие.

КАК МОЖНО БОЛЬШЕ ПРИМЕРОВ — вот мой основной принцип.

Проанонсирую материалы на январь-март:

1. Сервисная модель — посмотрите на IT глазами пользователя (2-3 части)

В рамках обсуждения данной темы мы:
— Взглянем на IT глазами обычных пользователей (операционный уровень) и топ-менеджеров от бизнеса (тактический/стратегический уровни)
— Поймем, что такое ИТ-сервис
— Разработаем простейший каталог сервисов
— Проанализируем преимущества сервисного подхода для IT-департамента
— Рассмотрим несколько успешных и ужасных примеров попытки прийти к сервисному подходу

2. Управление инцидентами — мы попали в армию? (3-5)
Мы поймем:

— Что такое инцидент
— Почему тема «Управление инцидентами — мы попали в армию?» это лишь верхушка айсберга
— Как устроен service изнутри и для чего он нужен
— Откуда берутся инциденты и куда они исчезают
— Как быть с теми инцидентами, которые исчезать не хотят
Всего голосов 25: ↑8 и ↓17 -9
Комментарии 15

Использование методологии ITIL в малом бизнесе

Время на прочтение 5 мин
Количество просмотров 39K
Системное администрирование *
Эта статья предназначена для всех тех системных администраторов, работающих в небольших компаниях, которые иногда сталкиваются с непониманием со стороны начальства и рядовых сотрудников. Такие люди — то есть мы с вами — иногда воспринимаются окружающими отрицательно, причем не всегда по заслугам. Отношения с сотрудниками портятся, когда мы закрываем доступ к социальным сетям. Начальство воспринимает в штыки любой запрос на покупку нового оборудования. Между тем, связи в коллективе — это ваш комфорт, а отношения с начальством — ваши деньги и карьера.

Именно поэтому, хотел бы вам предложить изменить эту схему. А именно — несколько рекомендаций из библиотеки ITIL. Они-то и станут тем фильтром, на который осядет весь неизбежный негатив нашей профессии. Если вам еще интересно – добро пожаловать под кат.
Читать дальше →
Всего голосов 63: ↑58 и ↓5 +53
Комментарии 100

В очередной раз об инцидентах и сервисных запросах

Время на прочтение 2 мин
Количество просмотров 30K
IT-стандарты *
Из песочницы
Привет всем хабражителям,
очень часто, по долгу процессной службы приходиться слышать от сотрудников больших и малых департаментов IT один очень популярный вопрос: в чем разница между запросом на обслуживание и инцидентом? image

Читать дальше →
Всего голосов 7: ↑2 и ↓5 -3
Комментарии 19

Практика ITIL средствами OTRS

Время на прочтение 4 мин
Количество просмотров 17K
IT-стандарты *
Из песочницы

В статьях попробую раскрыть особенности внедрения практик ITIL, в том числе и с использованием OTRS.

Что хочет пользователь от ИТ отдела в первую очередь?
Читать дальше →
Всего голосов 6: ↑4 и ↓2 +2
Комментарии 2

Интеграция в Mars IS службы Сервис-Деск Royal Canin

Время на прочтение 5 мин
Количество просмотров 2.6K
Блог компании Mars Системное администрирование *IT-инфраструктура *
В этой публикации мы расскажем о том, как Mars IS удалось за полгода реализовать проект по интеграции первого уровня службы IT-поддержки пользователей Royal Canin. Техническая поддержка Royal Canin была переведена из города Эмарг на юге Франции в Ступино.


Читать дальше →
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 2

Управление инцидентами в IT может быть не только про IT

Время на прочтение 5 мин
Количество просмотров 16K
IT-стандарты *Service Desk *
Перевод
image
От переводчика: любопытная статья Стюарта Рэйнса с предложением, как ИТ повысить свою ценность в рамках компании, перейдя от управления инцидентами в ИТ к управлению инцидентами в бизнес процессах компании.

Идея не нова и известна, как Enterpeise Service Management. Вряд ли его можно и стоит применять повсеместно, но если у руководства компании есть вера и доверие к ИТ, а также персонал и процессы ИТ обладают соответственно высокими уровнями сервисной культуры и зрелости. Тем не менее, как саму идею стоит знать и понимать, также она вполне подходит, как цель, к которой стоит стремиться.

Ссылка на оригинал
Опубликована 15.01.2018.
Сложность: начальный уровень (идеология)

Сейчас я работаю с клиентом, помогая ему усовершенствовать процессы и инструменты управления ИТ услугами. Всякий раз, работая над такими задачами, нахожу вещи, которым могу научиться, в этот раз меня заставил задуматься подход клиента к управлению инцидентами. Это совершенно непривычная идея с далеко идущими последствиями. На мой взгляд, и другие организации могут из нее получить выгоду при некоторой адаптации его под себя.
Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 0

Управление изменениями в ИТ-инфраструктуре компании Марс

Время на прочтение 4 мин
Количество просмотров 5.1K
Блог компании Mars Системное администрирование *IT-инфраструктура *Терминология IT Agile *
В нашей жизни нет ничего более постоянного, чем изменения. В Mars IS инструментом регистрации и управления всеми изменениями в ИТ-инфраструктуре является программа «Управление изменениями и релизами» на платформе ServiceNow. В 2017 году успешно проведено около 12 тысяч полезных изменений с минимальными прерываниями в оказании ИТ-услуг бизнесу.

Но так было не всегда. Вплоть до октября 2015г. обстановка с чейнджами больше походила на хаос. Потом появился ITSM, который навёл порядок со всеми неавторизованными чейнджами. Появилась структура, позволившая измерить неизмеримое.


Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 14

Как внедрить унифицированные процессы с учетом всех особенностей компании?

Время на прочтение 11 мин
Количество просмотров 4.6K
Блог компании NAUMEN IT-стандарты *Управление проектами *Управление продуктом *IT-компании
С выходом ITIL v4 хотелось бы отдать дань уважения великой методологии и рассказать об российском ITSM-опыте, для чего и как его применять в сегодняшних условиях компаниям, идущим по пути цифровых преобразований.

Для последовательного раскрытия обозначенной темы в предлагаемой статье применяется один из любимых приемов авторов – «4П».
Читать дальше →
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 5

Service Desk в Хоум Кредит. А что внутри?…

Время на прочтение 7 мин
Количество просмотров 24K
Блог компании Home Credit Bank Service Desk *
В каждой компании, где присутствует подразделение ИТ, есть ServiceDesk, но у всех он разный. Где-то это простой helpdesk для приема обращений, где-то anykey, у нас в Хоум Кредите первая линия поддержки — ступень к многоуровневому процессу эксплуатации, а для многих сотрудников — первая ступень в большой ИТ.

Несмотря на то, что первая линия технической поддержки типовое подразделение, которое есть в любой организации с более или менее зрелыми ИТ-процессами, ее устройство, функционал, инструменты, внутренние процессы довольно часто отличаются.

В этой статья я постараюсь рассказать про устройство первой линии технической поддержки в Банке Хоум Кредит, ее структуре, KPI’s, поделиться информацией об инструментах, используемых сотрудниками этого подразделения.
Читать дальше →
Всего голосов 14: ↑13 и ↓1 +12
Комментарии 8

Между первой и второй линиями технической поддержки

Время на прочтение 6 мин
Количество просмотров 8.4K
Блог компании Home Credit Bank Service Desk *Управление проектами *
Как часто вы встречали прикладных админов которые любят заниматься решением инцидентов?

Тем более, что значительный поток инцидентов на вторую линию поддержки, это так называемые бизнес-инциденты, то есть инциденты, либо связанные с нарушением логики работы бизнес-процесса в сервисе, либо с некорректными действиями со стороны пользователя.

Мы смогли максимально снять со второй линии этот функционал, передав его в отдельную команду, собранную из сотрудников первой линии технической поддержки.

О том, как мы это делали и с какими трудностями столкнулись, мы расскажем вам в этой статье.
Читать дальше →
Всего голосов 10: ↑8 и ↓2 +6
Комментарии 7

Как я неделю был стажером SRE-инженера. Дежурство глазами инженера ПО

Время на прочтение 4 мин
Количество просмотров 8.8K
Блог компании Southbridge Системное администрирование *Серверное администрирование *Софт
Перевод


SRE-инженер — стажер


Для начала позвольте представиться. Я — @tristan.read, фронтэнд-инженер в группе Monitor::Health GitLab'а. На прошлой неделе мне выпала честь побыть стажером у одного из наших дежурных SRE-инженеров. Целью было ежедневное наблюдение за тем, как дежурный реагирует на инциденты, и получение реального опыта работы. Нам бы хотелось, чтобы наши инженеры лучше понимали потребности пользователей функций Monitor::Health.


Мне предстояло неделю всюду следовать за SRE-инженером. То есть я присутствовал на передаче дежурства, наблюдал за теми же каналами оповещений и реагировал на инциденты, если и когда таковые имели место.

Читать дальше →
Всего голосов 19: ↑17 и ↓2 +15
Комментарии 3

4 часа и ни минутой больше: тактика и стратегия Uptime

Время на прочтение 7 мин
Количество просмотров 4.4K
Блог компании Lamoda Tech Информационная безопасность *IT-инфраструктура *Сетевые технологии *Инженерные системы *

Привет, я Владислав Алмазов, директор по сопровождению информационных технологий (IT Operations) в Lamoda. Одно из направлений, за которое я отвечаю — uptime. Это количественный показатель непрерывной работы нашей платформы.


Дать возможность клиенту найти товар в каталоге, положить его в корзину, выбрать способ доставки, рассчитать скидки и оплатить — все это значит «оформить заказ». Одноименная кнопка доступна на сайте 99,95% времени в году. Оставшиеся 0,05% — это 4 часа в год, которые клиенты не замечают. Эта метрика отражает основное бизнес-требование к непрерывности самых критичных IT-систем. Час простоя для Lamoda — это потери десятков миллионов рублей.


По итогам прошлого года мы превысили план и наш uptime составил 99,96%. Дальше я расскажу, за счет чего это удалось.


Читать дальше →
Всего голосов 13: ↑13 и ↓0 +13
Комментарии 10

Уроки, которые мы вынесли из опыта управления инцидентами

Время на прочтение 17 мин
Количество просмотров 2.2K
Блог компании Timeweb Cloud IT-стандарты *Service Desk *Управление продуктом *
Перевод

Мы в Dropbox считаем, что управление инцидентами — это центральный элемент нашей системы по обеспечению надёжности. И хотя мы также используем проактивные методы, такие как хаос-инжиниринг (сhaos engineering), то, как мы реагируем на инциденты существенное влияет на опыт наших пользователей. Во время потенциального сбоя сайта или проблемы с продуктом на счету каждая минута.

Ключевые компоненты нашего процесса управления инцидентами существуют уже несколько лет, но мы видим возможности для постоянного развития в этой области. Изменения, которые мы внесли с течением времени, включают в себя как технологические, так и организационные, и процедурные улучшения.

В этом посте мы расскажем подробно о нескольких уроках, которые Dropbox вынесли из опыта управления инцидентами. Вероятнее всего, не каждый из пунктов можно найти в методичке по структуре управления инцидентами, и не стоит думать, что эти улучшения универсальны для любой компании. (Полезность этих уроков зависит от вашего технологического стека, размеров организации и других факторов). Вместо этого мы надеемся, что эта статья послужит примером, как вы можете систематически анализировать реакцию на инциденты в вашей компании и улучшать её так, чтобы удовлетворить потребности ваших пользователей.

Читать далее
Рейтинг 0
Комментарии 0

Инцидент-менеджмент для самых маленьких: как мы учили поддержку и разработку работать сообща

Время на прочтение 9 мин
Количество просмотров 6.6K
Блог компании eLama IT-стандарты *Service Desk *

Привет, хабр! Меня зовут Полина. Я несколько лет занималась настройкой и развитием инцидент-менеджмента для eLama.

Благодаря работе нашей команды, управление инцидентами с уровня «сообщения техдиру в мессенджере» поднялось до регламентированного и прозрачного процесса, который учитывает особенности поддерживаемого продукта и отвечает потребностям бизнеса.

В этой статье я размышляю над некоторыми вопросами, которые занимали меня саму на разных этапах работы над процессом. Например, могло ли введение регламента [работы с инцидентами] быть менее болезненным для всех сторон? О чем можно было позаботиться раньше? Возможно, кому-то будут полезны выводы, к которым я пришла.

Читать далее
Рейтинг 0
Комментарии 0

Пять инструментов Site Reliability Engineering

Время на прочтение 6 мин
Количество просмотров 5.7K
Блог компании Southbridge IT-инфраструктура *DevOps *

Надежность (reliability) программного продукта всегда является одним из приоритетов компании. Особенно это актуально для ПО, превратившегося в ежедневный инструмент для своих пользователей. Они рассчитывают на заявленный функционал, поэтому любая невозможность его использования подрывает доверие, а следовательно, и желание им пользоваться.

В этой статье пойдет речь о главных инструментах Site Reliability Engineering (SRE) и о том, как они влияют на повышение надежности систем. 

Читать далее
Всего голосов 12: ↑11 и ↓1 +10
Комментарии 0

Риск-менеджмент: Инцидент, post-mortem, плановые работы и Support card

Время на прочтение 13 мин
Количество просмотров 1.9K
Блог компании Конференции Олега Бунина (Онтико) Блог компании СберМегаМаркет DevOps *

Меня зовут Илья Вазем, я отвечаю за всю инфраструктуру в СберМегаМаркете. Сегодня мы поговорим о наболевшем для любой команды разработки — об инцидентах. Я расскажу о том, как мы пытаемся с ними справляться и сводить возможность их появления к минимуму. А по ссылке можно посмотреть видео с моего доклада на DevOps Conf. 

СберМегаМаркет, наш маркетплейс, — высоконагруженная онлайн-платформа, где более 8 000 продавцов и более 100 000 заказов в день. Мы хостимся в трех дата-центрах, у нас 250 микросервисов, 2 500 виртуальных машин. Поддерживать такую систему без серьезного подхода к инцидентам невозможно. Итак, что представляет собой этот подход в нашем случае?

Читать далее
Всего голосов 6: ↑5 и ↓1 +4
Комментарии 1