Как стать автором
Обновить

Комментарии 80

Ну и самое главное — гугл может себе позволить потерять лям зелени, чтобы научить сотрудника уму-разуму
ведь всегда найдётся другой сотрудник, который за свою строчку заработает поболее
НЛО прилетело и опубликовало эту надпись здесь
НЛО прилетело и опубликовало эту надпись здесь
Ребят, дело ведь не в Гугле и не в сумме. Ну представьте, что подобная ситуация случилась в каком-нибудь старт-апе, и потерян был не миллион а, скажем, $20 000. Мораль ведь в другом — в том, как рассудил и как повел себя работодатель по отношению к оплошавшему работнику.
Поэтому и может.
Блин, я до последнего ожидал, что будет хоть немного конкретики о том, что за ошибка :(
О деталях ошибки неизвестно даже самому автору статьи. Он как-то поленился найти и почитать именно тот пост-мортем.
И потому этой статье место в специальной резервации для таких статей — «мегамозг».
Пост Мортемы уменьшают чувство вины и ответсвенности. Накосячил, публично отписался и все. Да, деньги потеряны, но сотрудник в следующий раз будет знать, что его не уволят, а заставят написать объяснительную post-mortem. Я не говорю, что это плохая практика (сам уже 2 ПМа написал), но блин, это не воспитывает.
Тогда вместо второго пост-мортема и надо увольнять? Как не способного к воспитанию.
Ну тогда и первый постмортем писать не нужно, ведь всю жизнь специалиста учили ошибки не совершать, а он их все равно совершает. Решение об увольнении мне кажется должно приниматься исходя из набора метрик: потенциал, принесенный профит, количекство ПМ в единицу времени и т.д.
Так идея же в то, что один человек не может быть виновен в падениях сервисов в проде. Поэтому и воспитывать одного человека пост-мортемы не должны. Если что-то упало по вине человека, то это проблемы в процессе тестирования, стейджинга и релиза, а не виновника.
Админы тоже пишут ПМы. rm -rf все могут не там запустить
Ну всё же не все, на это права нужны. Да и запустить на одной машине должно быть не страшно, не на одной же машине все данные хранятся. А если «случайно» запускается rm -rf на сотнях машин, то наверное уже стоит использовать специализированное ПО для работы с группами машин.
Именно поэтому хорошая практика не использовать конструкции rm -rf без полного указания пути :)
Что же вы так к словам придираетесь. Во-первых это был просто пример. Во-вторых второй раз уже точно используется полный путь
Да я не придираюсь вобщем-то, просто на «больную мозоль», один коллега в пятницу вечером не там rm -rf * выполнил, увлекательная пятница вышла :)
пример примером, а нам как-то товарищ из крупного системного интегратора удаленно дал chmod -x от рута на всю файловую систему, и пытался скрыть это фразой «ой, что-то вас сервер перестал отвечать, не могу зайти».
В этом вся суть. В любом месте могут произойти ошибки. Это человеческий фактор. Другое дело их признавать.
В Амазоне такие пост-мортемы кроме анализа собственно ошибки обязательно включают трекаемые action-item'ы — что нужно сделать для того, чтобы подобная ошибка не повторилась.

А вообще — людям свойственно ошибаться. Поэтому хорошая система должна быть построена так, чтобы ошибка одного человека не вела к финансовым либо репутационным потерям.

Случай в топике, конечно, анализировать сложно по причине отсутствия деталей, но из описанного складывается впечатление, что произошло это не в гугле, а в некоем наколенном стартапе. В лидере индустрии с построенными процессами на пути такой ошибки должны встать как минимум код-ревью, тестирование и ограниченный роллаут, и если ошибка прошла все эти стадии и таки выбралась в прод — ревьюверы и тестеры по факту виноваты куда больше самого Майка.
Мне кажется, цель гугла, как корпорации — извлечение прибыли, а не воспитание отдельных взрослых личностей. Наказание человека за совершённую ошибку вполне может привести к тому, что в следующий раз этот же человек, или любой другой, зная об этой истории и боясь наказания (никому не хочется быть наказанным, не так ли?) вполне может попытаться скрыть ошибку или как-то пофискить её костылями, что может привести к ещё большим тратам. Так что такое «воспитание» в итоге не принесёт никакой пользы. Ошибки чаще всего допускаются не потому что кому-то плевать или кто-то не боится наказания, а по какому-то недосмотру, по какой-либо случайности.

Если человек относится к работе халатно — это может быть причиной для его увольнения, это уже дело менеджмента — следить за отношением сотрудников к работе.
Этот подход к управлению распространен во многих компаниях. Например Booking.com имеет даже специалтно выделенный бюджет на ошибки.
Подход сильно снижает напряженность среди разработчиков и подталкивает к более быстрым релизам. Но я согласен с mrHobbY — на воспитание влияет мало:)
1. Дорогостоящее обучение
Да, Гугл потерял под миллион долларов. Но посмотрим на это как на стоимость обучения этого сотрудника. Только что мы отдали миллион за его учебу, за его ошибку, которую он, будучи адекватным и рациональным человеком, больше никогда не допустит! Эта трата была инвестицией в его учебу, и глупо будет увольнять этого человека, отдавать его другой компании, после такого дорогостоящего обучения.
Живо себе представили что бы было, если бы этот принцип применяли бы в АК или УК.
Ограбил банк, убил 3 инкасаторов, пьяным на красный свет на угнанной машине ушел от погони.
И тут включается логика: "Да! Много людей убито, много финансов потеряно, но государство и общество отдало столько на его учебу, воспитание, лечение, а будучи адекватным (вот справка от психиатра) и рациональным человеком, он этого больше никогда не допустит и глупо его сажать и вычеркивать как члена активного общества."
Лол.
Поставили бы пару центов на то, что история выдуманная маркетологами, для во-первых пиара, а во-вторых что бы стимулировать сотрудников признаваться в косяках.
И еще пару центов поставили бы на то, что дело не в наказании и вине конкретного сотрудника, а в том что в компании предусмотрены расходы на компенсацию ошибок сотрудников и так или иначе это отразилось на его дальнейшей карьере это во-первых, а во-вторых если бы сумма ущебра была бы больше некоей критической точки — уволили бы без базара.
НЛО прилетело и опубликовало эту надпись здесь
Шире мыслите.
Во-первых, напомним Вам про 30 статью ук — «Приготовление к преступлению», жертв вообще нет, но человек сидит. 158 ук вспомните — «кража» — жертв нет, только денежные потери. Или если хотите отсутствие умысла, пожалуйста статья 109 ук — «Причинение смерти по неосторожности». Так что сравнение полностью правомерно.
Во-вторых, нет такого понятия как «тупо потеря денег» если речь идет об ошибках в крупных компаниях. Любые ошибки в них могут вылиться в реальное причинение ущерба людям, никогда не знаешь где выплывет ошибка и как она аукнется. СМС приложение на андроиде повисло — отвлекся на него человек за рулем на лишние 2 секунды — врезался в поезд — поезд сошел с рельс — врезался в плотину — затопило полканзаса. А казалось бы «всего лишь ошибка в коде».
НЛО прилетело и опубликовало эту надпись здесь
Мы начали с фразы «Живо себе представили что бы было, если бы этот принцип применяли бы в АК или УК.».
Где тут «четкое намерение навредить»?
А то что Вы прицепились к конкретному примеру — так мы и говорим, шире мыслить надо.
Вас там много?
Так вы почитайте разницу между подготовленным и непреднамеренным убийством, тогда, может быть, поймете разницу.
А Вы почитайте наш предыдущий комментарий, в котором мы как раз ссылаемся на 109 ук «убийство по неосторожности».
Тогда может быть поймете, что про эту разницу мы уже говорили.
Разница в том что в одном случае действие совершено с целью присвоить утрату организации себе, а в другой — случайно недополучить прибыль.
В 109 ук «убийство по неосторожности» нет никакой цели и никакой прибыли, однако есть наказание. Мы об этом упоминали выше.
Однако же необходимо отличать «убийство по неосторожности» от «случайного убийства», за которое наказание отсутствует. В первом случае для осуждения необходимо показать, что человек целенаправленно производил опасные действия.
Однако же необходимо отличать «убийство по неосторожности» от «случайного убийства», за которое наказание отсутствует.
Гугловский пример именно о «неосторожности», вот в чем фишка.

В первом случае для осуждения необходимо показать, что человек целенаправленно производил опасные действия.
Нет. Опасные действия и целенаправленно, это уже тянет на умышленное.
По неосторожности — достаточно того, что человек в принципе мог предвидеть последствия своих действий или бездействия.
Опасные действия и целенаправленно, это уже тянет на умышленное.


Опасные для жизни — да. Но если нельзя было ожидать, что действие приведёт к смерти. но оно всё-таки было преднамеренным, — то это неумышленное.
если нельзя было ожидать, что действие приведёт к смерти
Да, но здесь же явно не тот случай.
Программер заведомо знает, что любое его действие (или бездействие) может привести к денежным потерям.
Случайная ошибка это когда непроинструктированная уборщица сдуру ведро воды в сервер вылила. Когда программер правит код — это в лучшем случае неосторожность.
Разработка ПО это вообще очень странная епархия, тут ошибки бывают очень странные, не очевидные и бывает, что сочетание факторов, приводящее к ошибке, вообще бывает только раз в 100 лет и только на продакшене (то есть, тестами не ловится).
Да даже в случае катастроф не всегда можно найти конкретного виноватого и повесить на него всё. В ракетостроении вот сколько всего падает. Системы невероятно сложные и тяжело отлаживаемые.
Я вот не вполне понял, в продакшин выкатили код который никем другим не тестировался? А если тестировался, то выходит что ошибка не только программиста, а и отдела тестирования который пропустил столь глобальную вещь, которая проявилась тут же при запуске.
Вы правда считаете, что существует идеальная компания-разработчик, в которой есть 100% покрытие тестами кода, и чётко соблюдаются все бизнес-процессы? В которой можно позволить выпускать код только после идеальной полировки, а не по принципу «надо успеть за неделю до того, как конкурент обновит версию»?
Если сотрудник имеет возможность подобный код выкатывать в обход отдела тестирования, то это явно не простой инженер. Так что, если статья правдива, то интересно было бы узнать положение «Майка» в кампании.
А какой код? Тут ничего о коде не указано. Указано только, что Гугл начал терять деньги. Можно предположить, что-то связанное с ранжированием коммерческих ссылок или отображением контекстной рекламы. Причем вообще неизвестно, была ли технологическая возможность обнаружить это при тестировании. Это мы просто гадаем на кофейной гуще.
Майк проверил свой код, и понял, что ошибка была именно в нем.
Таки код.
Ну хочется же кого-то ставить в пример. Типа «А вот в Гугл бы такого не сделали, вооот». «А вот в Гугл руководители....» «А вот в Гугл уборщики....» «А вот в Гугл туалетная бумага.....» и так далее:)
А теперь история из России для контраста: лето, тополиный пух забился в вентиляцию, что в последствии привело к проблемам в серверной и убыткам. Вся дирекция ИТ компании лишилась премии.
Думаете Майку заплатили премию?
Простите, а Майк каждый год в один и тот-же месяц совершает одну и ту-же ошибку?
Тополиный пух, как и зима, случаются регулярно, но почему-то некоторые службы к таким явлениям бывают неготовы.

Более того, некоторые из этих служб сами рукотворно создают проблему пуха (тополь может менять пол в случае неблагоприятных условий в виде обрезки под голый ствол)…
но почему-то некоторые службы к таким явлениям бывают неготовы

Какое отношение имеет, например, программист к проблеме пуха в вентиляции. Суть произошедшего в том, что наказанными оказались те, кто никоим образом не имеет отношение к проблеме. В этом и есть контраст. В гугл не стали наказывать виновного, а у нас убытки свалили на кого попало.
> Вся дирекция ИТ компании лишилась премии
Не в дирекцию ли ИТ входят руководители эксплуатационщиков серверных помещений? (причем тут вообще программисты или они в дирекцию входят?)

Если, конечно, не входят, тогда непонятно за что их депремировали, но если входят, тогда лишение премии вполне оправдано. Более того, так как Вы вначале сказали, что руководство лишили премии, а потом сказали, что на них свалили убытки, то в одном из этих комментариев Вы врете.

Так что существенного отличия от ситуации в гугле я не вижу. Их не уволили, не заставили компенсировать убытки, а сказали, что так делать не надо и такие ошибки материального поощрения иметь не будут.
Представьте.что вы программист. Сидите себе, никого не трогаете, пишите программы. И тут к вам заходит начальник и говорит, что вас лишили премии (ежемесячная, фактически часть з/п) потому, что тополиный пух забился в вентиляцию. Вы, как программист, в этом виноваты?
Так программистов или дирекцию компании лишили премии, Вы уж определитесь?
Или в Вашей компании программисты руководят всей компанией?

Вина дирекции здесь, по моему очевидна, так как кто, если не руководство принимало решение о таком охлаждении, которое забивает пухом?
Под «дирекцией ИТ» я имел в виду всю совокупность людей, занятых информационными технологиями в компании (программисты, тех.поддержка, отдел сопровождения и прочее и прочее, даже документаторы), а не только начальство.
Ну как минимум отдел сопровождения и начальство вполне обосновано попал под лишение премии.

А то, что Вы изначально указали только начальство, а потом оказалось, что Вы вообще всех сотрудников вплоть до уборщиц имели ввиду — пусть останется на Вашей совести.
>показывает как «нетрадиционные» методы менеджмента могут оказаться довольно продуктивными.
С чего это они нетрадиционные?

Увольнение за единичный косяк вообще довольно нехарактерно. Обычно для этого надо, много факторов — сокрытие аварии или ее причин виноватым, всеобщая нелюбовь к виноватому, исключительная тупость ошибки, частое повторение ошибок и т.д. Совсем не косячит только тот, кто ничего не делает.

www.reddit.com/r/networking/comments/3app78/have_any_of_you_ever_actually_known_someone_to
Вообще, если рядовой инженер-новичок может запустить код, из-за которого компания теряет миллион долларов — это косяк, во-первых, его руководителя, который этот код дал выкатить в прод; во-вторых, системного архитектора, который так построил систему, что любой инженер-новичок может накосячить на миллион долларов. А «Майк» в этой ситуации, скорее, заслуживает благодарности за то, что выявил эту точку отказа. И в этом случае надо не пост-мортем писать, а вносить изменения в процессы, чтобы такие ситуации не повторялись.
ИМХО, баги в коде есть всегда. Проблема в том, что баганутый код ушел в продакшен.
Это значит, что его плохо протестировали или плохо описали сценарии использования. Вины программиста не вижу вообще.
Если в команде вообще не было тестировщиков, то это проблема менеджмента и выше.
люди с СССРским менталитетом, постарались бы наказать нерадивого сотрудника.
Конечно, даже собаки знают, что за любую оплошность у нас расстрел на месте без суда и следствия. Из-за ненависти к моей родине уже дальше читать не хотелось.
«Многие из нас, особенно люди с СССРским менталитетом, постарались бы наказать нерадивого сотрудника»
Нет.
— Комрейд Ифаноф, это вы допустить ошибка в код Гугла?
— Нет, нет, я не специально, это чистая случайность, я клянусь....!!!
— Карашо, отчень карашо, вы хароший товарстч.

П.С. просто шутка:)
Интересно, кто это назвал «СССРовским менталитетом» и разобрался ли кто-нибудь в работе какого-нибудь серьёзного КБ своего времени, ошибках, которые там совершались и их последствиях.

Если кому интересно о том, как было лет 60 назад, предлагаю ознакомиться с романом «Искатели» Даниила Гранина.

цитата из романаСуществует непонятная, роковая, но совершенно железная закономерность — с приходом начальства макет немедленно перестает работать. Он ведет себя
так, как будто он вообще никогда не работал. Это явление имеет даже
специальное название — «визит-эффект». Начальству это хорошо известно, вас
утешают: «Там, где кончается неудачный опыт, часто начинается открытие».
Нет, к черту, с тебя довольно открытий, ты согласен, чтобы неудачи кончились
без всяких открытий, лишь бы они скорее кончились. Когда ты остаешься один,
тебя охватывает страстное желание растоптать всю эту мертвую кучу мусора.
Новиков трясет прибор, дует на него, щелкает по лампам. Ничего не помогает.
Проходит час, другой, последние попытки кончились, все сидят, понурив
голову, пришибленные, не в силах уже ничего понять. Саша вспоминает, что,
когда макет работал, было пасмурно, а сегодня солнечный, жаркий день. Это
нелепо, бессмысленно, но все, стыдясь друг друга, все-таки завешивают окно.
Ты тупо смотришь, как Саша приносит ту же табуретку, на которой он сидел
вчера, включая прибор, хотя ни табуретка, ни солнце не могут играть тут
никакой роли и все это смахивает на какое-то шаманство, мистику и никакого
отношения к науке не имеет. Ты молчишь, потому что предложить тебе нечего, и
невольно смотришь на стрелку, не произойдет ли чуда. Стрелка холодно
поблескивает вороненой синевой, никакие заклинания не могут сдвинуть ее с
места.
Через два дня выясняется причина — редчайшая, уникальная, как хором
заявляют все специалисты, — провисла нить в лампе. Эта нить нигде и никогда
не провисала, кроме как в твоей лампе. Это даже очень интересно узнать,
почему она провисла, рассуждают специалисты. Но тебе наплевать и на нить и
на ихние интересы. Макет работает. Ты включаешь его десять, сто, тысячу раз
— и он безотказно действует. На экране мерцает зеленый всплеск… После
стольких неудач нужен, обязательно нужен успех, хотя бы кратковременный,
крохотный, нужен не только для тебя, но и для твоих соратников. Усталость,
раздражение разом пропадают. С той минуты, как на экране заструилась зеленая
волна, голоса начинают звучать по-другому, и каждый жест кажется особенным.
Изменяется все вокруг, вся лаборатория, все люди словно возносятся на гребне
этой изумрудной волны, преображенные ее мерцающим счастливым светом

Как связан брак чужой детали в исследовательском оборудовании (не ошибка даже, а брак) и выпуск бракованной детали в массовое производство?
Я привёл отрывок, ключевой для меня в этой книге, ибо есть современный аналогичный рассказу опыт :-)

Ввод такого девайса в эксплуатацию и сложности в этой сфере можно прочитать в той же книге несколько позже описанных событий.

Это всё к тому, чтобы не огульно хаяли «СССРовский менталитет», а быть может, ознакомились с новой для себя информацией о периоде.
Новые времена — новые компании. 15 лет назад в аналогичной истории было про IBM и 600 тысяч долларов.
Один вопрос — что за сенсоры такие, которые сразу потери показывают?

Многие бы компании такое хотели — табло, где показывается, что компания зарабатывает, а что теряет.

И, что самое неприятно, мало в жизни ситуация с «только потерями». Скажем, трафик можно пустить по менее, а можно по более дорогой линии связи. Но более дорогая чуть быстрее. Когда какую включать — вопрос. Как при этом отличить «потерю» от «вклада в повышение скорости ответа сайта, что в результате даст большую лояльность юзеров»?

В общем, текст, конечно, слезливый (и на души новичков должен действовать хорошо), но вызывает слишком заметные вопросы )
Скорее всего, потери были в виде недополученной прибыли и соответствующим образом приукрашены. Выкатили обновление, посмотрели ключевые показатели, не удовлетворились и откатились обратно. Может, там падение было на процент-другой, но в масштабах корпорации уже вполне себе сюжет для красивой истории.
НЛО прилетело и опубликовало эту надпись здесь
«Гугл простил сотруднику потерянный миллион» звучит гораздо лучше, чем «Гугл простил сотруднику задержку миллиона на полчаса». Так что, если и был отложенный спрос, то о нем лучше забыть и умолчать.
Слышал точно такую же историю про начинающего интерна, хозяина больницы и испорченное оборудование на $100K.
Фотография в статье классная.
Мне кажется, многие из здесь присутствующих не понимают, как легко в Гугле/Фейсбуке (и в любой другой подобной конторе) сделать ошибку на миллион долларов. Это связано с тех. процессом и самим фактом «continuous deployment/delivery». Если увольнять каждого за ошибку (а стоимость почти каждой ошибки в гуглоподобных системах сходу исчисляется минимум в тысячах долларов), то в компании не останется ни одного программиста.

Есть юнит тесты, «защита от дурака», автоматическое тестирование коммитов, но всегда есть вероятность ошибки. Во всяком случае, всегда во время запуска в prоduction своего кода, я делаю мониторинг системы и «живых» логов в течение как минимум 30 минут (обычно больше, около часа).
Представляю, как у этого чувака сердце в пятки ушло, когда он понял, что натворил )
Повезло ему, что с него не стрясли деньги
Чтобы стрясти деньги нужно доказать намеренность действий, в противном случае стрясти будет очень сложно.
+1 ПМ в молодости… Вот был адреналин с утра.
Я знаю что многие сейчас кинутся гадить мне в карму, ну что поделать, климат сейчас такой, так уж получилось что я родился и вырос в СССР, вы наверное мне не поверите, но подобная история с непредумышленной порчей народного имущества в те времена закончилась бы в точности так же, разве что никто бы не писал бы об этом в корпоративном блоге.
СССР — понятие растяжимое. Например, СССР 1950-х и СССР 1980-х — это два разных эсэсэсэра. С разным менталитетом, с разными общественными нормами, и с разным поведением начальства.
А еще родителей, воспитателей и учителей учат никогда не ругать ребенка за разбитый градусник. НИ-КО-ГДА. Догадываетесь почему?
Потому что ругать надо родителей/воспитателей/учителей за наличие ртутного градусника в доступном для ребенка месте? Хотя сейчас уже вроде ртутные градусники вообще смысла не имеют, простой электронный можно найти рублей за 100.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории