15 апреля 1912 года потерпел крушение крупнейший пассажирский корабль первой половины ХХ века "Титаник". На его борту было 2240 пассажиров. В результате аварии с айсбергом более полутора тысяч человек погибли, и только около 700 спаслись. Историки, журналисты и аналитики всего мира до сих пор задаются вопросом: в чем причина катастрофы, кто виноват, кто смог спастись в катастрофе века, как все происходило на самом деле? Сегодня можно подключить к поиску ответа на этот исторический вопрос современный инструментарий датаналитики. Цель такого исследования – определить, какие точно факторы способствовали выживанию пассажира в той трагичной ситуации: возраст, пол, класс каюты, место посадки на лайнер?
Особенности данных о пассажирах "Титаника"
Аналитики изучили датасет о пассажирах "Титаника", который был выложен в Kaggle, международную платформу конкурсов в области Big Data и Machine Learning. В нем содержатся данные на 1309 человек. Это все, кто был на корабле и оставил документальный след об этом. Данные об остальных пассажирах со временем утерялись. И нет никакой информации о команде лайнера, ибо их просто не занесли в этот список. Однако, абсолютное большинство пассажиров описано, с сетом можно работать. Данные вносились при посадке на корабль в порту отправки, всего 3 порта: Саутгемптон (UK), Шербур (Fr), Куинстаун (Ir). А в случае их отсутствия, довносились, там где было возможно, на основе дополнительных материалов, полученных в ходе расследования катастрофы.

Списки были опубликованы в ряде крупнейших СМИ запада, и за судьбой пассажиров следили все СМИ мира, люди утром прибегали к редакциям газет, чтобы узнать новости о родственниках друзьях и знакомых, кто плыл на корабле, выяснить, кто спасся.

Обозначим некоторые термины из датасета: Survived = Выжившие (0 = Нет, 1 = Да)), Pclass = Пассажирский класс (1-й, 2-й, 3-й), Fare = Стоимость билета, Parch = Наличие родственников на борту, Age = Возраст. Имя пассажира, номер билета и ряд других переменных датасета не несут предсказательной силы. То есть ими можно пренебречь. Такой вывод можно сделать и с помощью визуализации. Например, "тепловой карты" - диаграммы, построенной на Python, и показывающей тепловыми цветами (красный - теплее, синий - холоднее) корреляцию переменных датасета. Легенда справа указывает, каким цветом выделены совпадающие поля, чем пантон ближе к темно-красному (максимальному значению), тем выше корреляция.

В результате проведения EDA (предварительного или "разведочного" анализа данных) сделан вывод о том, что приоритетными будут такие исходные переменные, как пол, возраст, место посадки на корабль, класс пассажира. Используем библиотеку Dataprep с Python под капотом, а также библиотеки визуализации Pandas, Matplotlib и Seaborn. С их помощью удалось выявить ряд интересных трендов. Так, с переменной Survived (выжившие) коррелирует переменная Embarked (место посадки) Пассажиров с Embarked = S (т.е. Саутгемптон) выжило больше. Вероятно, именно в Саутгемптоне на корабль загружалась самая богатая категория пассажиров. В Ирландии (город Queenstown, позже переименованный в Kobh – "Ков" по-русски), село больше всего бедняков. Они, вероятнее всего, поплыли на заработки в США.

Тот факт, что в Кове на борт село так много ирландских бедняков косвенно подтверждает одну из гипотез о гибели пассажиров третьего класса: многие банально могли не понять команды. Любой лингвист подтвердит, что ирландский и британский английский довольно сильно отличаются. До такой степени, что ирландцы и англичане порой не могут друг друга понять. Дело в фонетике, пропуске согласных и порядке слов в предложении. Конечно, языковой фактор вряд ли мог стать главной причиной гибели большого количества пассажиров 3 класса. Но в любом случае он не способствовал спасению людей: ирландцы плохо понимали выкрики команды "Титаника". Еще один важный момент: молодые люди, в возрасте до 32-33 лет, были во всех классах, они составляли большинство пассажиров. Вполне вероятно, что многие из них плыли в Америку, чтобы остаться там навсегда. В Ирландии тогда экономика была совсем плоха, миллионы молодых людей мечтали выбраться из страны за океан.
О чем это ещё может сказать, с точки зрения здравого смысла? Например, о том, что столь большое количество молодых людей имели отличные шансы спасти себя. Они сильнее и могли оттеснить и команду, всех более слабых, от спасительных шлюпок. Ведь в какой-то момент было ясно, что свидетелей из числа тех, кому не достанется места в шлюпке, не будет. Но они не сделали этого. И если правда, что, когда пассажиры третьего класса выбрались на палубу, то там уже не было шлюпок, то почему тогда спаслось так мало молодежи и из второго класса (см. столбчатую диаграмму №3 ниже)? Ведь они эвакуировались на верхнюю палубу в числе первых. Однако, нельзя исключать, что команда корабля насильно распределяла места в шлюпках в пользу слабых. Но выжившие не помнят такого... Думается, правда, как всегда, где-то посредине: команда руководила эвакуацией, спасая слабых, и ей никто не мешал в этом. Таким образом, на мой взгляд, может быть лишь одно логичное объяснение: не спаслись, потому что предпочли отдать свое место в шлюпках женщинам и детям. А трагическая сцена прощания Джека и Розы (он замерзает в воде, она рядом на плоту) не просто красивый романтический эпизод кинофильма "Титаник", а достаточно правдивое описание того, что происходило: мужчины погибали, спасая женщин.

Пол пассажира(ки) оказался важным фактором выживания. На гистограмме №1 (см. ниже) отражена корреляция данных выживших мужчин и женщин. Из этой взаимозависимости аналитики сделали однозначный вывод о том, что именно женщины, а не богатые получили место в спасательных шлюпках в приоритетном порядке.

Мужчины поступили благородно. Все они приняли катастрофу с честью. Лишь 25 % из них выжило. И чуть меньше, 24 % выживших из числа членов команды. Были спасены 75 % женщин и 52 % детей. Процент детей меньше потому что некоторые дети умерли по дороге домой на борту "Карпатии", от осложнений, вызванных сильной простудой.
Деньги решили кому жить, а кому умирать?
Многие уверены, что большинство погибших были пассажирами третьего класса. Анализ данных лишь отчасти подтвердил эту гипотезу. Наименьшее число смертей, соответственно, наибольшее количество выживших наблюдается в первом классе. Таким образом, самая многочисленная часть погибших – это мужчины из третьего класса. Те самые Джеки и Фабрицио, которых мы теперь, наверно, навсегда будем ассоциировать с обликом Дикаприо и его коллеги по Голливуду Дэнни Нуччи.

Однако, прямого сравнения тарифа на билет с возрастам недостаточно. Быть может, в первом классе плыли в основном богатые старики? Мы же видели в фильме Камерона этих богатых мужчин во фраках и женщин в мехах, которых сажали в шлюпки в первую очередь. На самом деле, как отражено на точечной диаграмме ниже, количество дорогих билетов распределено равномерно, и в основном в молодом и среднем возрасте. В Америку плыла молодежь. И бедная, и состоятельная. Все с одной целью - присмотреться к новой стране. Сегрегация по финансовому признаку при осуществлении экипажем "Титаника" операции спасения... Эти обвинения звучали довольно часто и даже привели к уголовному преследованию команды "Титаника". Но люди многое додумали. Достаточно вспомнить эпизод фильма Камерона с закрытыми воротами для обитателей трюмных кабин III класса: люди ломились наверх, к шлюпкам. А злые богачи и их наймиты из команды корабля им этого не дали сделать. Однако, к этой версии событий есть серьезные вопросы. Во-первых, почему соотношение погибших-выживших во втором классе и первом классе примерно одинаковое? (см. Галерею - график № 3). Свидетельства выживших очевидцев также говорят о том, что таких откровенно преступных вещей, как перекрытий коридоров тонущего корабля, не было на самом деле.


Тогда в чем же дело? А дело в том, что количество шлюпок было банально недостаточным для 2 тысяч с лишним человек. Никому и в голову не могло прийти, что столь продвинутый лайнер-гигант повредит себе сразу пять отсеков одновременно, пройдя боком по острому краю айсберга. Что айсберг методично, отсек за отсеком, оторвёт листы обшив��и. Что заполнятся водой ни один, ни два (как это могло бы быть в случае удара в одну точку), а сразу пять герметичных отсеков, снабжённых стальными задвижками от пола до потолка, которые перекрывают доступ воды из пробитого места в другие части трюма.
Таймлайн катастрофы: времени было много, а шлюпок мало.
Итак, на спасательные шлюпки посадили всех женщин и детей, затем всех пожилых пассажиров из первого и второго классов. Остальным мест просто не хватило, и они остались на тонущем лайнере ждать, чем все это кончится…Корабль тонул 2 часа 40 минут. И вряд ли кто-либо смог бы сдержать столь долго в коридорах трюма тысячную толпу молодых мужчин из 3 класса.

На графике-таймлайне видно, что после столкновения с айсбергом до начала физической эвакуации, то есть непосредственно посадок в шлюпки и спуска их на воду почти час прошел. Это т.н. "подготовительное время", а тянулось оно так долго, потому, что команда до последнего надеялась, что все обойдется, и подойдет спасение.
И, пожалуй, не будет ошибкой сказать, что все это время оставшиеся на тонущем "Титанике" надеялись сначала на то, что он не утонет; затем на то, что приплывет помощь, ну а в конце…на то, что они продержатся в воде при температуре воды в минус 2 градуса по Цельсию, которая была в этой части Атлантики на тот момент. Воистину, надежда умирает последней….Выжившие говорили потом, что никогда не забудут крики "Господи, почему я?!", стоявшие над водой.

Конструкция лайнера, финансовая модель, недостаточная подготовка - виновники в смерти более 1500 человек
Все люди на "Титанике" вели себя благородно и достойно смотрели в лицо смерти. Большинство погибших - молодые мужчины. Причем из разных классов. Да, более всего из третьего класса, но и людей там плыло больше всего. Мужчины не бились за место в шлюпке, а дали шанс сесть в них первыми женщинам, детям и старикам. Также становится ясно, что никто специально не "топил" пассажиров 3 класса. Однако, изначально конструкция огромного корабля, спасательные устройства (а главное их количество) и несовершенные правила, отсутствие в команде людей, говорящих на разных языках (в то время как плыло много иностранцев) и ряд других факторов обрекали пассажиров на смерть в случае катастрофы. Каюты третьего класса были расположены в трюме, а путь к спасительной верхней палубе лежал для большинства бедных пассажиров через сложную систему узких коридоров и лестниц. А первый класс мог подняться на палубу по парадной лестнице и даже на 2 лифтах. И да, как и сегодня: "...Первыми покидают лайнер пассажиры первого класса, за ними бизнес, а потом эконом..." Ничего принципиально не поменялось с того времени.
