Search results for «[incident management]» / Habr

Publications Hubs Companies Users Comments

proto_group Dec 7 2020 at 00:58

Вебинар: Как организовать DevOps/SRE команду, избежать выгорания и управлять инцидентами при помощи Amixr

1 min

Proto corporate blogHigh performance*System administration*IT Infrastructure*DevOps*

За последний год Amixr провели несколько десятков интервью со своими пользователями и дежурными инженерами из таких компаний, как Google, Facebook, Dropbox, SoundCloud, чтобы получить инсайты о том, что же такое эффективный инцидент-менеджмент. Кроме того, через инфраструктуру Amixr проходят более трехсот тысяч инцидентов ежемесячно.

Всю эту информацию и собственный опыт Amixr и Proto собрали в едином вебинаре в эту среду, 09 декабря в 16:00. Для участия достаточно пройти быструю регистрацию.

Посмотреть программу

Anna_sokol22 Sep 13 2022 at 13:39

Запускаем МЕГА курс по SRE для МЕГАстабильной работы системы

3 min

712

Слёрм corporate blog

22 сентября Слёрм запускает новый практический курс по внедрению редких для российского рынка инструментов SRE для повышения стабильности системы. В программу интенсивов вошли темы, которые принципиально отличают работу SRE-инженеров от практик DevOps.

Поговорим про: Observability, Reliability architecture patterns, Proactive reliability testing, Chaos Engineering, Intelligent delivery of changes, Incident management.

gUAno May 22 2011 at 16:07

Использование методологии ITIL в малом бизнесе

5 min

40K

System administration*

Эта статья предназначена для всех тех системных администраторов, работающих в небольших компаниях, которые иногда сталкиваются с непониманием со стороны начальства и рядовых сотрудников. Такие люди — то есть мы с вами — иногда воспринимаются окружающими отрицательно, причем не всегда по заслугам. Отношения с сотрудниками портятся, когда мы закрываем доступ к социальным сетям. Начальство воспринимает в штыки любой запрос на покупку нового оборудования. Между тем, связи в коллективе — это ваш комфорт, а отношения с начальством — ваши деньги и карьера.

Именно поэтому, хотел бы вам предложить изменить эту схему. А именно — несколько рекомендаций из библиотеки ITIL. Они-то и станут тем фильтром, на который осядет весь неизбежный негатив нашей профессии. Если вам еще интересно – добро пожаловать под кат.

Читать дальше →

+53

100

Sibarit Jan 25 2010 at 21:53

Реальный IT management — давайте без умных слов и лишней теории

1 min

7.8K

Lumber room

Привет, друзья.

Надеюсь, что выбор Habr.ru в качестве хостинга для блога об IT-менеджменте является правильным шагом.

У меня есть знания, которыми я с удовольствием с вами поделюсь.

У меня есть желание учиться, поэтому я с удовольствием готов слушать вас.
Именно на диалоге, в отличие от, на мой взгляд, слишком сухой схемы «статья-пустота», мы будем строить с вами взаимодействие.

КАК МОЖНО БОЛЬШЕ ПРИМЕРОВ — вот мой основной принцип.

Проанонсирую материалы на январь-март:

1. Сервисная модель — посмотрите на IT глазами пользователя (2-3 части)

В рамках обсуждения данной темы мы:
— Взглянем на IT глазами обычных пользователей (операционный уровень) и топ-менеджеров от бизнеса (тактический/стратегический уровни)
— Поймем, что такое ИТ-сервис
— Разработаем простейший каталог сервисов
— Проанализируем преимущества сервисного подхода для IT-департамента
— Рассмотрим несколько успешных и ужасных примеров попытки прийти к сервисному подходу

2. Управление инцидентами — мы попали в армию? (3-5)
Мы поймем:

— Что такое инцидент
— Почему тема «Управление инцидентами — мы попали в армию?» это лишь верхушка айсберга
— Как устроен service изнутри и для чего он нужен
— Откуда берутся инциденты и куда они исчезают
— Как быть с теми инцидентами, которые исчезать не хотят

-9

vinahlud Sep 18 2018 at 10:20

Управление изменениями в ИТ-инфраструктуре компании Марс

4 min

5.7K

Mars corporate blogSystem administration*IT Infrastructure*IT TerminologyAgile*

В нашей жизни нет ничего более постоянного, чем изменения. В Mars IS инструментом регистрации и управления всеми изменениями в ИТ-инфраструктуре является программа «Управление изменениями и релизами» на платформе ServiceNow. В 2017 году успешно проведено около 12 тысяч полезных изменений с минимальными прерываниями в оказании ИТ-услуг бизнесу.

Но так было не всегда. Вплоть до октября 2015г. обстановка с чейнджами больше походила на хаос. Потом появился ITSM, который навёл порядок со всеми неавторизованными чейнджами. Появилась структура, позволившая измерить неизмеримое.

Читать дальше →

Sherbinin Nov 19 2012 at 19:55

В очередной раз об инцидентах и сервисных запросах

2 min

32K

IT Standards*

From sandbox

Привет всем хабражителям,
очень часто, по долгу процессной службы приходиться слышать от сотрудников больших и малых департаментов IT один очень популярный вопрос: в чем разница между запросом на обслуживание и инцидентом?

Читать дальше →

-3

serggvrn Aug 31 2019 at 17:51

Между первой и второй линиями технической поддержки

6 min

10K

Хоум Банк corporate blogService Desk*Project management*

Как часто вы встречали прикладных админов которые любят заниматься решением инцидентов?

Тем более, что значительный поток инцидентов на вторую линию поддержки, это так называемые бизнес-инциденты, то есть инциденты, либо связанные с нарушением логики работы бизнес-процесса в сервисе, либо с некорректными действиями со стороны пользователя.

Мы смогли максимально снять со второй линии этот функционал, передав его в отдельную команду, собранную из сотрудников первой линии технической поддержки.

О том, как мы это делали и с какими трудностями столкнулись, мы расскажем вам в этой статье.

Читать дальше →

nAbdullin Dec 25 2019 at 14:22

Как я неделю был стажером SRE-инженера. Дежурство глазами инженера ПО

4 min

9.3K

Слёрм corporate blogSystem administration*Server Administration*Software

Translation

SRE-инженер — стажер

Для начала позвольте представиться. Я — @tristan.read, фронтэнд-инженер в группе Monitor::Health GitLab'а. На прошлой неделе мне выпала честь побыть стажером у одного из наших дежурных SRE-инженеров. Целью было ежедневное наблюдение за тем, как дежурный реагирует на инциденты, и получение реального опыта работы. Нам бы хотелось, чтобы наши инженеры лучше понимали потребности пользователей функций Monitor::Health.

Мне предстояло неделю всюду следовать за SRE-инженером. То есть я присутствовал на передаче дежурства, наблюдал за теми же каналами оповещений и реагировал на инциденты, если и когда таковые имели место.

Читать дальше →

+15

Anna_sokol22 Sep 28 2022 at 18:40

Пять инструментов Site Reliability Engineering

6 min

Слёрм corporate blogIT Infrastructure*DevOps*

Надежность (reliability) программного продукта всегда является одним из приоритетов компании. Особенно это актуально для ПО, превратившегося в ежедневный инструмент для своих пользователей. Они рассчитывают на заявленный функционал, поэтому любая невозможность его использования подрывает доверие, а следовательно, и желание им пользоваться.

В этой статье пойдет речь о главных инструментах Site Reliability Engineering (SRE) и о том, как они влияют на повышение надежности систем.

+10

Funki Dec 23 2022 at 11:55

Риск-менеджмент: Инцидент, post-mortem, плановые работы и Support card

13 min

3.8K

Конференции Олега Бунина (Онтико) corporate blogСберМегаМаркет corporate blogDevOps*

Меня зовут Илья Вазем, я отвечаю за всю инфраструктуру в СберМегаМаркете. Сегодня мы поговорим о наболевшем для любой команды разработки — об инцидентах. Я расскажу о том, как мы пытаемся с ними справляться и сводить возможность их появления к минимуму. А по ссылке можно посмотреть видео с моего доклада на DevOps Conf.

СберМегаМаркет, наш маркетплейс, — высоконагруженная онлайн-платформа, где более 8 000 продавцов и более 100 000 заказов в день. Мы хостимся в трех дата-центрах, у нас 250 микросервисов, 2 500 виртуальных машин. Поддерживать такую систему без серьезного подхода к инцидентам невозможно. Итак, что представляет собой этот подход в нашем случае?

vvhabr May 27 2013 at 12:11

Практика ITIL средствами OTRS

4 min

17K

IT Standards*

From sandbox

В статьях попробую раскрыть особенности внедрения практик ITIL, в том числе и с использованием OTRS.

Что хочет пользователь от ИТ отдела в первую очередь?

Читать дальше →

kuzneeka Oct 5 2017 at 18:28

Интеграция в Mars IS службы Сервис-Деск Royal Canin

5 min

2.7K

Mars corporate blogSystem administration*IT Infrastructure*

В этой публикации мы расскажем о том, как Mars IS удалось за полгода реализовать проект по интеграции первого уровня службы IT-поддержки пользователей Royal Canin. Техническая поддержка Royal Canin была переведена из города Эмарг на юге Франции в Ступино.

Читать дальше →

GreyBear Jan 25 2018 at 20:43

Управление инцидентами в IT может быть не только про IT

5 min

17K

IT Standards*Service Desk*

Translation

От переводчика: любопытная статья Стюарта Рэйнса с предложением, как ИТ повысить свою ценность в рамках компании, перейдя от управления инцидентами в ИТ к управлению инцидентами в бизнес процессах компании.

Идея не нова и известна, как Enterpeise Service Management. Вряд ли его можно и стоит применять повсеместно, но если у руководства компании есть вера и доверие к ИТ, а также персонал и процессы ИТ обладают соответственно высокими уровнями сервисной культуры и зрелости. Тем не менее, как саму идею стоит знать и понимать, также она вполне подходит, как цель, к которой стоит стремиться.

Ссылка на оригинал
Опубликована 15.01.2018.
Сложность: начальный уровень (идеология)

Сейчас я работаю с клиентом, помогая ему усовершенствовать процессы и инструменты управления ИТ услугами. Всякий раз, работая над такими задачами, нахожу вещи, которым могу научиться, в этот раз меня заставил задуматься подход клиента к управлению инцидентами. Это совершенно непривычная идея с далеко идущими последствиями. На мой взгляд, и другие организации могут из нее получить выгоду при некоторой адаптации его под себя.

Читать дальше →

serggvrn Aug 10 2019 at 17:01

Service Desk в Хоум Кредит. А что внутри?…

7 min

25K

Хоум Банк corporate blogService Desk*

В каждой компании, где присутствует подразделение ИТ, есть ServiceDesk, но у всех он разный. Где-то это простой helpdesk для приема обращений, где-то anykey, у нас в Хоум Кредите первая линия поддержки — ступень к многоуровневому процессу эксплуатации, а для многих сотрудников — первая ступень в большой ИТ.

Несмотря на то, что первая линия технической поддержки типовое подразделение, которое есть в любой организации с более или менее зрелыми ИТ-процессами, ее устройство, функционал, инструменты, внутренние процессы довольно часто отличаются.

В этой статья я постараюсь рассказать про устройство первой линии технической поддержки в Банке Хоум Кредит, ее структуре, KPI’s, поделиться информацией об инструментах, используемых сотрудниками этого подразделения.

Читать дальше →

+12

omanyd Mar 26 2019 at 14:09

Как внедрить унифицированные процессы с учетом всех особенностей компании?

11 min

5.1K

Naumen corporate blogIT Standards*Project management*Product Management*IT-companies

С выходом ITIL v4 хотелось бы отдать дань уважения великой методологии и рассказать об российском ITSM-опыте, для чего и как его применять в сегодняшних условиях компаниям, идущим по пути цифровых преобразований.

Для последовательного раскрытия обозначенной темы в предлагаемой статье применяется один из любимых приемов авторов – «4П».

Читать дальше →

+15

vladalmazov Jun 11 2021 at 12:03

4 часа и ни минутой больше: тактика и стратегия Uptime

7 min

Lamoda Tech corporate blogInformation Security*IT Infrastructure*Network technologies*Systems engineering*

Привет, я Владислав Алмазов, директор по сопровождению информационных технологий (IT Operations) в Lamoda. Одно из направлений, за которое я отвечаю — uptime. Это количественный показатель непрерывной работы нашей платформы.

Дать возможность клиенту найти товар в каталоге, положить его в корзину, выбрать способ доставки, рассчитать скидки и оплатить — все это значит «оформить заказ». Одноименная кнопка доступна на сайте 99,95% времени в году. Оставшиеся 0,05% — это 4 часа в год, которые клиенты не замечают. Эта метрика отражает основное бизнес-требование к непрерывности самых критичных IT-систем. Час простоя для Lamoda — это потери десятков миллионов рублей.

По итогам прошлого года мы превысили план и наш uptime составил 99,96%. Дальше я расскажу, за счет чего это удалось.

Читать дальше →

+13

shantibiotic Jul 5 2021 at 14:08

Уроки, которые мы вынесли из опыта управления инцидентами

17 min

2.7K

Timeweb Cloud corporate blogIT Standards*Service Desk*Product Management*

Translation

Мы в Dropbox считаем, что управление инцидентами — это центральный элемент нашей системы по обеспечению надёжности. И хотя мы также используем проактивные методы, такие как хаос-инжиниринг (сhaos engineering), то, как мы реагируем на инциденты существенное влияет на опыт наших пользователей. Во время потенциального сбоя сайта или проблемы с продуктом на счету каждая минута.

Ключевые компоненты нашего процесса управления инцидентами существуют уже несколько лет, но мы видим возможности для постоянного развития в этой области. Изменения, которые мы внесли с течением времени, включают в себя как технологические, так и организационные, и процедурные улучшения.

В этом посте мы расскажем подробно о нескольких уроках, которые Dropbox вынесли из опыта управления инцидентами. Вероятнее всего, не каждый из пунктов можно найти в методичке по структуре управления инцидентами, и не стоит думать, что эти улучшения универсальны для любой компании. (Полезность этих уроков зависит от вашего технологического стека, размеров организации и других факторов). Вместо этого мы надеемся, что эта статья послужит примером, как вы можете систематически анализировать реакцию на инциденты в вашей компании и улучшать её так, чтобы удовлетворить потребности ваших пользователей.

polina_bespaloff Jul 6 2021 at 10:15

Инцидент-менеджмент для самых маленьких: как мы учили поддержку и разработку работать сообща

9 min

9.8K

eLama corporate blogIT Standards*Service Desk*

Привет, хабр! Меня зовут Полина. Я несколько лет занималась настройкой и развитием инцидент-менеджмента для eLama.

Благодаря работе нашей команды, управление инцидентами с уровня «сообщения техдиру в мессенджере» поднялось до регламентированного и прозрачного процесса, который учитывает особенности поддерживаемого продукта и отвечает потребностям бизнеса.

В этой статье я размышляю над некоторыми вопросами, которые занимали меня саму на разных этапах работы над процессом. Например, могло ли введение регламента [работы с инцидентами] быть менее болезненным для всех сторон? О чем можно было позаботиться раньше? Возможно, кому-то будут полезны выводы, к которым я пришла.