Comments 6
Привет. Ну очень скромно описал Базовый знания.
Очень сильно сомневаюсь, что только это достаточно работать на Джуне. Прошу описать, что входит в задачи, что используешь на практике.
Привет, конечно, данная статья содержит лишь частичку информации, которую необходимо знать джуну)
Разделила весь текст на несколько частей, скоро выложу еще)
Спасибо за статью.
Как истинный зануда, не могу не дополнить своими соображениями.
Pandas
Стоит знать, что pandas очень мощный инструмент, который имеет возможности по работе с данными, аналогичные SQL: эта страница документации раскрывает подробнее. (Особенно интересная работа с группировками).
Ещё интересны могут быть базовые функции по визуализации (pandas включает в себя интерфейсы к matplotlib), что позволяет "лениво" рассматривать данные (порой это очень полезно). А если ещё и seaborn использовать, вообще красота получается. Документация.
Кстати, pandas имеет отдельный тип данных categorical, в который стоит переводит столбцы с категориальными переменными для использования соответствующей функциональности.
Categorical Feature Encoding
Касательно работы с категориальными данными, мне кажется, также не лишним будет знать и другие методы (также это поможет дополнить ответ на великий вопрос о разнице трёх библиотек градиентного бустинга):
Binary Encoder и Hash Encoder -- по сути тот же OneHot, но вектор итоговый получается меньше, хотя пишут, что часть информации может потеряться;
Target Encoder (по-моему, едва ли не лучший вариант, если есть целевые значения) -- кодирует значения категориального признака с учётом их встречаемости с конкретными метками классов;
Frequency Encoder -- кодирует на основе частоты встречаемости значения категориального признака в выборке;
CatBoost Encoder (shout out to the mighty Yandex) -- как target encoder, но, кажется, учитывает только значения, которые были встречены перед текущим примером из выборки.
Кстати, если работать на python, есть целая библиотека с интерфейсами, как у sklearn: category_encoders. При взгляде в ReadMe можно увидеть огромный простор для изучения методов кодирования категориальных данных.
Разделение датасета
Мне кажется, немало практиков валидационное множество берут всё же, отрезая от тренировочного. Это, на мой взгляд, более осмысленно, так как тест после отрезания вообще не стоит трогать (а на соревнованиях он, например, вообще недоступен).
Также новичкам стоит знать про методы кросс-валидации, зачем она вообще нужна и когда её использовать не стоит.
А ещё отдельно про валидацию последовательностей (time series), мне кажется, это довольно популярный формат данных.
Надеюсь, это будет полезной информацией.
Ещё ещё ещё!
Путь от стажера до junior Data Scientist