Pull to refresh

Хотите стать «учёным по данным»? Тогда не начинайте с машинного обучения

Reading time 4 min
Views 9.4K
Original author: Terence Shin

Многие люди, когда они впервые слышат термин Data Science, обычно в первую очередь думают о машинном обучении.

Так было и со мной. Мой интерес к data science возник потому, что я впервые столкнулся с идеей «машинного обучения», которая показалась мне действительно крутой. Поэтому когда я начал искать место, где можно бы начать узнавать о data science, не трудно догадаться, откуда я начал. (Подсказка: оно рифмуется с bean churning.)

Это было моей самой большой ошибкой, которая привела меня к этой мысли:

Если вы хотите изучать data science, не начинайте с машинного обучения.

Просто поймите. Понятное дело, чтобы стать "полноценным" data scientist, когда-то придётся узнать о концептах машинного обучения. Но вы удивитесь, как далеко вы сможете продвинуться без него.

Так почему бы не начать с машинного обучения?

1. Машинное обучение - это только одна (и очень небольшая) часть data scientist'а

Иллюстрация оригинального автора
Иллюстрация оригинального автора

Data science и машинное обучение - это как квадрат и прямоугольник. Машинное обучение - (часть) науки о данных, но наука о данных не обязательно является машинным обучением, подобно тому, как квадрат является прямоугольником, но прямоугольник не обязательно является квадратом.

На самом деле, я бы сказал, что моделирование машинного обучения составляет только 5–10% работы data scientist'а, тогда как бо́льшая часть времени тратится в другом месте, о котором я расскажу позже.

Вкратце: сосредоточившись в первую очередь на машинном обучении, вы потратите много времени и энергии и мало получите взамен.

2. Для полного понимания машинного обучения сначала необходимы предварительные знания по нескольким другим предметам

По своей сути машинное обучение построено на статистике, математике и вероятности. Точно так же, как вы сначала изучаете грамматику, образный язык и т.д. Чтобы написать хорошее эссе, вы должны иметь эти высеченные в камне строительные блоки, прежде чем вы сможете изучать машинное обучение.

Приведу несколько примеров:

  • Линейная регрессия, первый «алгоритм машинного обучения», которому в первую очередь обучают большинство учебных курсов, на самом деле является статистическим методом.

  • Метод главных компонент возможен только с идеями матриц и собственных векторов (линейная алгебра)

  • Наивный байесовский классификатор - это модель машинного обучения, полностью основанная на теореме Байеса (вероятность).

Так что, я закончу двумя вещами:

  1. Изучение основ облегчит изучение более продвинутых тем.

  2. Изучив основы, вы усвоите несколько концепций машинного обучения.

3. Машинное обучение - не ответ на каждую проблему data scientist'а

Многие data scientist'ы (в том числе и я) борются с этим. Возвращаясь к моей первоначальной мысли, многие data scientist'ы думают, что data science и машинное обучение идут бок о бок. Так что, когда они сталкиваются с проблемой, первое решение, которое они рассматривают - это модель машинного обучения.

Но не для каждой проблемы в data science требуется модель машинного обучения.

В некоторых случаях анализа с помощью Excel или Pandas вполне достаточно, чтобы решить возникшую проблему.

В остальных же случаях проблема не будет связана с машинным обучением. Вам может понадобиться очистить и управлять данными с помощью скриптов, построить конвейеры данных или создать интерактивные информационные панели, все из которых не требуют машинного обучения.

Так что мне тогда делать?

Если вы читали мою статью "Как изучить data science, если пришлось начать сначала", вы, возможно, могли заметить, что я предлагал изучить математику, статистику и основы программирования. Я всё ещё придерживаюсь этого мнения.

Как я уже говорил ранее, изучение основ облегчит изучение более продвинутых тем, а изучив основы, вы усвоите несколько концепций машинного обучения.

Я знаю, что вы можете себя чувствовать, будто вы не совершенствуетесь, чтобы стать data scientist, изучая математику, статистику или основы программирования, но изучив эти основы вы только ускорите ваше обучение в будущем.

Вы должны научиться ходить, прежде чем сможете бегать.

Если вы хотите начать с каких-то осязаемых следующих шагов, то вот вам несколько идей:

  1. Начните со статистики. Я считаю, что из трех строительных блоков наиболее важным из них является статистика. И если вы боитесь её, то data science, вероятно, не для вас. Я бы посмотрел курс Технологического института Джорджии "Статистические методы", или серию видео от Khan Academy.

  2. Изучите Python и SQL. Чем лучше вы будете знать Python и SQL, тем легче будет ваша жизнь, когда дело дойдет до сбора, обработки и реализации данных. Я также был бы знаком с библиотеками Python, такими как Pandas, NumPy и Scikit-learn. Я также рекомендую вам изучить двоичные деревья, поскольку они служат основой для многих сложных алгоритмов машинного обучения, таких как XGBoost.

  3. Изучите основы линейной алгебры. Линейная алгебра становится экстремально важной, когда вы работаете с чем-то связанным с матрицами. Она часто встречается в рекомендательных системах и приложениях глубокого обучения. Если вам кажется, что вы хотите изучить эти вещи в будущем, то не пропускайте этот шаг.

  4. Изучите обработку данных. Она занимает до половины работы data scientist'а. В частности, узнайте больше о проектировании функций, исследовательском анализе данных и подготовке данных.


Спасибо за прочтение!

В этой статье я высказал своё личное мнение, так что берите от неё всё, что хотите. Общий совет заключается в том, что машинное обучение не должно быть в центре внимания ваших исследований, потому что это не очень полезное использование времени, и мало что поможет вам стать успешным dat scientist'ом в рабочем мире.

С учетом всего сказанного, желаю удачи в ваших начинаниях!

Автор фото обложки: Will Porada

Tags:
Hubs:
If this publication inspired you and you want to support the author, do not hesitate to click on the button
+8
Comments 22
Comments Comments 22

Articles