
Комментарии 10
Прежде чем глубоко вникать, пролистал всю статью в поисках результатов, и остался несколько разочарован. Вот это вот ВСЁ только ради вывода, что кто-то хочет уезжать, кто-то не хочет, а кто-то не определился? Кажется, это можно было сказать сразу же, нет?
За "просто сказать" премий не будет. А вот за сложную наукообразную нумерологию - вполне себе, начальник в матчасти не шарит, зато видит, что подчиненный тяжело и много работал над сложными расчетами.
На подобную же мысль наводит одновременное использование логарифма правдоподобия, AIC и BIC уже после того, как выборка, количество кластеров и фичи были выбраны. После фиксации этих параметров, можно брать любой, они друг из друга по формуле вычисляются и отдельного смысла для работы уже не имеют. Но колонок в таблице резко больше становится. Ну вообще, вся работа с данными здесь как-то подозрительно выглядит.
Нет, кластеризация проводилась для последующего создания "портретов" тех, кто хочет уехать, кто хочет остаться и неопределившихся. Но так как в этой статье нет исходного датасета, то мы не стали описывать и получившиеся портреты. Это материал в первую очередь нужен для описания самого процесса LCA. Но если есть интерес, мы добавим получившиеся портреты.
На мой взгляд, код лучше было бы разместить не картинками (пусть даже они и симпатичные), а стандартным хабровским блоком «код». Так и скопировать/воспроизвести при необходимости будет проще, и встроенную с недавних пор нейронку для объяснения можно использовать.
Как мы применили LCA, чтобы понять, кто хочет уехать с Севера, а кто — остаться