nyalekseevna Sep 9 2022 at 08:47

Факторный анализ для интерпретации исследования клиентского опыта

6 min

12K

Python *

From sandbox

Comments 4

Al-sin Sep 15 2022 at 08:37

Спасибо за опыт!

Пару замечаний -
questions['question'] - до этого момента таблица с вопросами еще не была определена, для полноты картины покажите, как из первой строки data сделать это фрейм.
distribution.hist(); - строит гистограмму, а на картинке distribution.plot(kind='box', title='Распределение суммарных оценок')
И в Интерпретацию добавить бы названия выделенных факторов или написать об этом шаге.

nyalekseevna Sep 16 2022 at 10:07

Спасибо за полезный комментарий!

Упс, да, действительно код добавлен на гистограмму (ее кст тоже для наглядности можно посмотреть).
Вопросы можно вывести в датафрейм так:

questions = pd.DataFrame(df.set_index('client_code').columns, columns=['question'])

Можно конечно для полученных факторов по теме вопросов придумать названия, но мне кажется, что лучше этого не делать. Эти факторы не всегда просто охарактеризовать однозначно, и они скорее характеризуют некую общность между вопросами, чем конкретно какую-то конкретную тематику.

Al-sin Sep 15 2022 at 09:37

Можно попросить показать как именно "Аномальными оказались 4%, исключим их их набора данных."?

nyalekseevna Sep 16 2022 at 10:29

Мы сохранили аномальных в список outliers, исключить их из основного df можно так:

outliers = distribution[(distribution > (Q3+1.5*IQR)) 
                        | (distribution < (Q1-1.5*IQR))].reset_index()
outliers = outliers['client_code'].to_list()
#исключаем:
df = df.query('client_code != @outliers')