Comments 6
И где в Ваших расчётах Вы учли Леонардо Дикаприо? (шутка)
Спасибо, было интересно почитать. Хотя подумал для себя, что многие вами выбранные ключевые факторы, влияющие на выживаемость пассажиров на Титанике, как пол пассажира, возраст, класс каюты, итд. - в реальной ситуации не не играли и не играют роли. А на самом деле важно, где в момент катастрофы находился ты, и на сколько именно это место является эпицентром катастрофы или подвержённым сильным повреждениям. Может быть ещё физическая тренировка. Но такие вещи как наличие номера каюты или количество родственников на борту - изриняюсь, но это факторы, которые может быть в вашей логике и находят свои веса, но они не играют никакой роли. Ведь так можно и наличие и цвет пальто, количество нижнего белья или наличие и состояние зонтика или ещё чего учитывать.
Это мне похоже на одно из моих собеседований, что после 30 лет работы на разных фирмах на интервью на новую работу у меня не просто спросили, но именно очень сильно хотели видеть мой школьный атестат. Почему-то думаю, что в моих знаниях и опыте сегодня после 30 лет работы мои школьные оценки не отражаются ни в чём, даже если-бы они совсем плохие были.
И ещё. Как проделанная работа это есть гут. Но. Такие модели делают, когда есть своего рода повторение. А любая катастрофа - настолько вещь непредсказуемая, что даже и не знаю, как вы это хотите использовать. Я вспомнил катастрофу самолёта, где чудом выжила вроде женщина, которая была в туалете. И что - нахождение в туалете как-то можно спрогнозировать на вероятность выживания при будущих катастрофах?
Поэтому ваше высказывание
Построена и обучена модель нейронной сети, предсказывающая вероятность человека выжить в катастрофе с точностью 0.78 на тестовых данных из [1]
как-бы не имеет смысла. Выжить в какой катастрофе? Потому что именно такой-же технической катастрофы как Титаник больше не было и никогда не будет. Кроме как для само-обучения и работой с фраймворком - какие цели вы видите для именно этой модели?
Вы, безусловно, правы. Данная модель, как и все исследование имеет отношение только к этой конкретной катастрофе (возможно, я недостаточно ясно пояснил это в тексте). Целью лично для себя я ставил - поучаствовать в простейшем соревновании kaggle и провести полноценную работу с данными. И именно эту работу я тут хотел продемонстрировать :)
Но замечу, такие выбранные факторы, как пол и класс, безусловно повлияли на шансы выжить на Титанике. Как я написал в статье, именно женщин и детей грузили в шлюпки первыми, а к первому классу всецело было больше внимания.
Если бы я хотел создать модель, которая предсказывает вероятность выжить для любой катастрофы, мне нужно было бы оперировать совсем другими данными, для множества катастроф, и даже на вскидку не сказать, что бы на что повлияло.
Спасибо за ответ. В этом-то и загвоздка. Вы натренировали модель на каких-то данных, событие которых никогда не повторится. И ещё. Не совсем понял, как нейросеть связана с единожды собранными данными. Это больше на анализ данных похоже, чем на нейронную модель, которую тренировать надо, на всё новых и новых данных. Здесь-же простая статистика. Не так?
Понимание нейронных сетей - это хорошая вещь. Но и понимание, для чего они подходят, а для чего нет - тоже есть важно. Например натренировав какую-то модель на всех номерах, которые выпадала в какой-нибудь лотореи - вы не получаете никакой гарантии, что эта модель для будущих розыгрышей вам как-то поможет стать миллионером. Потому что госпожа "случайность" переваливает все другие факторы, какие-бы вы не использовали-бы в вашей модели.
Но в любом случае - успеха!
Шо, опять Титаник?! Это же самое разбираемое и описываемое задание с Kaggle для новичков. Даже я ни разу не дата-сатанист его зачем-то делал.
А самая ржака, когда на том же Kaggle есть submission с prediction rate в районе 1.0. И когда я спросил своего разбирающегося в теме друга как такое возможно, он ответил типа: "Дык данные кто утонул на Титанике лежат в открытом доступе, что тут предсказывать!" :-)
Подскажите, а как подбирали гиперпараметры? Можете ли добавить в исходный код кусок, который показывает это?
Titanic Survivors Data Research