Как стать автором
Обновить

Комментарии 5

Было бы интересно узнать почему предпочитаете Pandas а не Polars. Во многих случаях можно было бы и не профилировать

Спасибо за наводку. Ознакомлюсь с Polars.

Вот у вас фрейм Результат, первая строка вывода, два уникальных значения - yes,no. И что?
А если категорий пятьдесят, вы их все будете выводить?
Вторая строка, str 100%, и что?
Иначе говоря, не видно смысла анализа.
Намного сильнее, думаю, когда анализ указывает разработчику на варианты дальнейших действий. Если ваш результат анализа отметит некий признак как мусор - вероятно, надо удалять. Если пропущенных значений запредельно много, или признак статический, или сработал increasing/decreasing - мусор, видимо. Если пропусков допустимо - то отметить для замены. Если признак временнОй или строка хитрого формата - отметить для дальнейшего парсинга. Богатый разветвленный анализ, исполненный в таком ключе, я бы с удовольствием присмотрел к своей работе.

Добрый день. Мне кажется в вопросе анализа и интерпретации результатов у каждого свои внутренние потребности, что хочется увидеть. Конкретно у меня была потребность обзорно посмотреть на столбцы все разом и решить для себя стоит обратить внимание на конкретный столбец или нет.

Вопрос: первая строка вывода, два уникальных значения - yes,no. И что? А если категорий пятьдесят, вы их все будете выводить?

Ответ: в данном случае это мне говорит, о содержание значений в столбце и не каких дополнительных действий для нормализации данных в общем, то и не требуется. Там могло быть например ['Yes' ,''yes', 'NO', 'Nope'] и тогда возможно я бы причесал значения. В алгоритме больше 5 уникальных выводиться не будет. Например для столбца MothlyCharges 1585 уникальных без их перечисления.

Вопрос: Вторая строка, str 100%, и что?

Ответ: это мне говорит, что в столбце нет сборной солянки и отдельно мне проверять не нужно, что не так. А например в столбце TotalChange состав следующий 'float':6708(95%),'int':324(5%),'str':11(0%). В этом столбце нужно разбираться. Добавлю, что алгоритм анализирует только тип object, остальные не смотрит. Так в object именно может быть сборная солянка.

Комментарий: Намного сильнее, думаю, когда анализ указывает разработчику на варианты дальнейших действий.

Ответ: Абсолютно согласен и поддерживаю. Поэтому смотрел изначально в сторону pandas-profiling. Анализ хороший, но отчет мне показался сильно нагруженным. Мой кодик пробегает по верхам и просто говорит "обрати внимание" или "не обращай и так все понятно". Возможно действительно стоит добавить 4-ый столбец с выводом по строке, чтобы вопросов как это понимать не возникало. Так же старался разработать код, чтобы туда можно было легко дописать новые функции и в конечном итоге получился индивидуальный отчет у пользователя. В целом с вами согласен, если дальше развивать код, то вполне может получится симпатично.

Ответ: это мне говорит, что в столбце нет сборной солянки...

Я вот об этом. - если нет, то и выводить не надо, в ваших результатах 90% вывода не требует вашего внимания.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории