Search
Write a publication
Pull to refresh

Comments 4

Спасибо за опыт!

Пару замечаний -
questions['question'] - до этого момента таблица с вопросами еще не была определена, для полноты картины покажите, как из первой строки data сделать это фрейм.
distribution.hist(); - строит гистограмму, а на картинке distribution.plot(kind='box', title='Распределение суммарных оценок')
И в Интерпретацию добавить бы названия выделенных факторов или написать об этом шаге.

Спасибо за полезный комментарий!

  • Упс, да, действительно код добавлен на гистограмму (ее кст тоже для наглядности можно посмотреть).

  • Вопросы можно вывести в датафрейм так:

questions = pd.DataFrame(df.set_index('client_code').columns, columns=['question'])

  • Можно конечно для полученных факторов по теме вопросов придумать названия, но мне кажется, что лучше этого не делать. Эти факторы не всегда просто охарактеризовать однозначно, и они скорее характеризуют некую общность между вопросами, чем конкретно какую-то конкретную тематику.

Можно попросить показать как именно "Аномальными оказались 4%, исключим их их набора данных."?

Мы сохранили аномальных в список outliers, исключить их из основного df можно так:

outliers = distribution[(distribution > (Q3+1.5*IQR)) 
                        | (distribution < (Q1-1.5*IQR))].reset_index()
outliers = outliers['client_code'].to_list()
#исключаем:
df = df.query('client_code != @outliers')

Sign up to leave a comment.

Articles