Yury Kashnitsky @yorko
Staff GenAI Field Solution Architect, Google Cloud
Information
- Rating
- Does not participate
- Location
- Den Haag, Zuid-Holland, Нидерланды
- Works in
- Date of birth
- Registered
- Activity
Staff GenAI Field Solution Architect, Google Cloud
Но state-of-the-art в классификации графовых данных — это ядерные методы, в большинстве из которых все равно надо часто проверять изоморфизм подграфу.
Там помимо чистых введений в R и Python есть материалы по визуализации, хранению данных, по алгоритмам и структурам данных, по машинному обучению и Kaggle, а также по анализу больших данных с Apache Spark (к которому обертка есть и на R).
Хотя согласен можно было и в документации DecicionTreeClassifier написать, что это CART.
У Scikit-learn документация отличная, исходники мне не приходилось прямо читать и править. Так что для начинающих — то что надо. Но API несложный, свой класс Estimator можно быстро написать.
А уж потом допиливать решения для продакшн — это другое дело. Возможно, тут скоро изменятся приоритеты — TensorFlow
Могу добавить, что не стоит браться за курс, если потом не собираешься использовать полученные знания. Звучит банально, но я прошел 4 курса из специализации Data Science, когда-то разбирался в языке R, но все равно предпочитаю Python, и по сути многие часы про ggplot и прочие детали визуализации в R прошли для меня почти впустую.
Есть какие-то рекомендации, где научиться экономить время на подготовку данных, или это уже только с опытом приходит?
Причина «провалов» таится, во-первых, в округлении, а во-вторых, в слишком подробных гистограммах.
Если посмотреть на изначальные данные в дюймах, то получится вот что:
Как видно, дробные значения люди указывают намного реже. Это известный прикол в статистических исследованиях. Демографы всегда делают поправки на округление данных.
Ну и если рисовать слишком подробные гистограммы, то конечно, они получаются более рваные.
2. Вручную перебирать или автоматически генерить такие комбинации признаков — вряд ли перспективно, хотя точно не знаю. Просто SVM и нейронные сети как раз это и делают — строят очень сложную нелинейную функцию от входных признаков. А нужная комбинация найдется в процессе оптимизации.