company_banner

Почему не стоит читать статьи о том, как за несколько месяцев стать специалистом по Data Science

Автор оригинала: Madison Hunter
  • Перевод

Когда я приступила к изучению Data Science (сейчас автор статьи CAN | Geoscience BSc undergrad student | Software Dev graduate), — прим. перев.), я читала практически каждую статью по этой теме, которая попадала в мои руки. В большинстве случаев это были вдохновляющие статьи других людей, которые смогли обучиться профессии дата-сайентиста самостоятельно.

В этих статьях было полным-полно информации о счастливчиках, которые, не имея IT-образования, преодолели все преграды и проблемы и стали дата-сайентистами в течение нескольких месяцев. Само собой, большинство авторов таких статей затем устраивались в крупные компании класса FAANG.

Статей подобного рода в интернете много. «Как я стал дата-сайентистом за 6 месяцев», «Как я стал дата-сайентистом и устроился в Google» — в них описываются подробности успеха.

Но как человеку с образованием в сфере разработки программного обеспечения и университетским уровнем знания математики мне хорошо заметны очевидные проблемы таких статей. А ведь такие статьи пытаются вдохновить людей без образования, убедив их в том, что стать дата-сайентистом можно менее чем за год, без предварительного опыта работы или полученных ранее знаний.

Возможности — это все


Никто не говорит, что статьи, о которых идет речь, неправдивы. Нет, вполне возможно, что во многих из них действительно правдивые истории. Но то, что обходится стороной в таких историях, — это возможности, доступные немногим, которые действительно помогают быстро получить необходимый опыт и знания.

Например, возможность учиться по 8 часов в день, что может позволить себе далеко не каждый, возможность платного участия в буткемпах и MOOC, проживание в каком-нибудь tech hub. Все это позволяет ускорить процесс обучения.

Никто не говорит, что люди с подобными преимуществами не работали, не старались. Конечно, нет, они много месяцев долго и упорно трудились, не будем приуменьшать их заслуги. Но проблема в том, что статьи об успешных новичках в индустрии обычно не раскрывают эти подробности, а ведь рассчитаны подобные материалы на самую широкую целевую аудиторию. У 90% из читающих нет возможности ни учиться целыми днями, ни платить за буткемпы.

Поэтому, читая эти статьи, стоит понимать, что поданный в них материал — лишь вершина айсберга. Все остальное читатель не видит.

В общем, если у вас не получается за полгода стать дата-сайентистом, не ругайте себя, сравнивая с теми, у кого получилось.

Эффект выжившего или «то, что сработало для кого-то, не означает, что оно сработает для всех»


Авторы некоторых статей о Data Science предлагают идеальный, по их мнению, план, который позволит любому читателю стать профессионалом в этой сфере за короткий период времени.

Но как бы понятно, что если это сработало для автора, то этот же план может оказаться неподходящим для другого человека. Все это — хорошо известный «эффект выжившего», только в отношении обучения.

Начинающим специалистам по данным следует отнестись к этим статьям с большой долей скептицизма. Тот факт, что один метод сработал для одного человека, не означает, что он будет работать для всех.

И нет, если вы задумали написать такую статью, не отказывайтесь от своего намерения. В них много полезнейшей для начинающих дата-сайентистов информации. Но такие статьи могут быть лишь вспомогательным инструментом, а не основным руководством.


Кстати, большинство авторов, которые пишут такие материалы, часто считают само собой разумеющимся базовое образование в сфере разработки ПО или любой другой IT-отрасли. И для айтишника это действительно само собой разумеется. Но ведь читают-то такие статьи вовсе не только IT-специалисты.

Для подготовки лучше всего использовать лучшие предложения из разных статей, и составить собственный план обучения, исходя из собственных возможностей, предпочтений и распорядка дня.

Стать дата-сайентистом менее, чем за год? Это можно считать чудом


Год — не такой и большой промежуток времени. Достичь чего-либо за год — это сложно, особенно, если мы говорим о том, чтобы стать специалистом в сфере больших данных.

Можно, конечно, поставить временные рамки вроде полугода или года, но в процессе обучения вам быстро станет понятен истинный срок, за который можно стать начинающим дата-сайентистом.

Когда я училась в университете, и приступила к изучению разработки ПО, не имея предшествующего опыта программирования (за исключением небольшого опыта HTML и CSS, что нельзя, собственно, считать программированием), то мне понадобился целый семестр, чтобы изучить хотя бы базовые основы работы с C#. Целых четыре месяца.

Шести месяцев или года будет недостаточно для того, чтобы освоить базовые вещи, которые необходимы IT-специалисту, не говоря уже о самой дата-сайенс. Но, конечно, это в том случае, если у вас нет специального образования. На то, чтобы разобраться в абстрактных концепциях и научить свой мозг думать о вещах иначе, может понадобиться куча времени.

А время идет, дедлайн все ближе, и все это может здорово вас расстроить. Здесь снова стоит подчеркнуть, что дедлайны — важны, но вам нужно понимать свой собственный путь. Да, человек, который в состоянии посвятить обучению 8 часов в день, вполне может справиться за год, возможно, и за полгода. Но если выкраивать на обучение 1-2 ежедневно после основной работы? Сомневаюсь.

По моему мнению, для того, чтобы получить работу в отрасли дата-сайенс, необходимо потратить на обучение минимум год. Этот минимум — очень зыбкий, поскольку, скорее всего. Понадобится больше времени. Если у вас получится — отлично, нет — не стоит переживать, поскольку даже год можно считать почти невозможным сроком. А полгода — и подавно.

Спросите любого дата-сайентиста, и он или она вам подтвердят, что это сложная тема для обучения. Не усложняйте все еще больше. Вместо фокусирования лишь на дедлайне, просто учитесь, получая наслаждение от самого процесса. Сделайте полезным каждый день, изучая небольшой кусочек информации, и через какое-то время паззл сложится, а вы станете дата-сайентистом.

В сухом остатке



Снова подчеркну — я не хочу сказать, что статьи об успехе в обучении дата-сайенс все сплошь ложь и разочарование. Нет, с ними все в порядке, но каждая такая статья — описание опыта одного конкретного человека, опыта, который не подходит всем остальным.

Относитесь к таким статьям с изрядной долей скептицизма. А популярны они потому, что в них рассказывается об успехе. Вряд ли кто-то с радостью возьмется читать статью про обучение дата-сайенс в течение нескольких лет, верно? А вот именно такие статьи и стоит читать, жаль только, что их мало.

Ваш собственный путь в дата-сайенс может занять всего полгода (что вряд ли) или больше года (скорее всего так и будет). Но это ваш личный путь. И если все получится — то о своем опыте стоит написать, указав все сложности и проблемы, которые встречаются на пути.

От переводчика. Если вы — представитель этой отрасли, расскажите в комментариях, за какое время вам удалось стать хотя бы начинающим специалистом и получить работу (в любой компании, не обязательно крупной).

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Cколько вы потратили время на то, чтобы стать специалистом по дата-сайенс?

  • 13,9%До 1 года20
  • 14,6%1-2 года21
  • 16,7%2-4 года24
  • 7,6%5 лет и больше11
  • 47,2%Я работаю в отрасли много лет, но по-прежнему понимаю, что до совершенства далеко68
Selectel
IT-инфраструктура для бизнеса

Комментарии 57

    +3

    Мне дата сайнс зашел как штука поиграть). С детства имею тягу анализировать, находить закономерности. Занимаюсь мелким бизнесом уже 20 лет. С учетом бесплатных курсов, которые есть, порог вхождения в тему достаточно низкий. Это вообще касается всех инструментов современных по программированию. Пришлось пайтон изучить. У меня за плечами было только С++. Эффект от питона был, "а что так можно было", хотя этот язык подойдет скорее как второй, для быстрого написания. Если как первый, много дров можно наломать… Мат аппарат можно по ходу изучать. Основное что нужно — тяга, чтоли, к этому. Поружение. Вот это всё ковыряние. Так посмотреть, этак, такой метод, другой. Здесь данные отнормализовать… На входе ведь просто данные, зачастую не полные, ошибочные.Это такое своеобразное занятие, датасеты по интересной тематике берите и погружайтесь, а еще лучше самому собрать и проанализировать. Скажу, что деньги я другим зарабатываю, здесь мне интересно было посмотреть как это, вообще, и я открыл для себя новый мир. Еще нужно нормально эту аналитику научиться собирать.
    А так да. Было очень забавно находить корреляции в, казалось бы, несвязанных вещах. Поиграл несколько месяцев и понял что инструмент даже из коробки просто супер(матаппарат у меня с натяжкой, мозг скрипел на теории аж жена пошла петли в дверях смазывать), и нужно собирать данные. Чем больше, тем лучше. На столько не реально крутая штука.

      +2

      Если вы поиграться решили то это совсем не про устроиться на работу после этого. Игрунов не берут. Это очень поверхностные знания.

        0

        Я здесь больше как заказчик-исполнитель ( как заказчик недорос пока) Я не смогу и нет у меня столько времени, чтобв погрузиться настолько глубоко, как профи, но должен понимать о чем речь.Да и не буду я так крут. Я хочу правильно ставить задачи. И я хочу на одном языке говорить. А что касаемо мотивации, я видел спецов за идею, за интерес, за кайф, и не видел ни одного за бабло. У меня в основе мотивации по жизни игра, во всём. Всё что на самом деле получается, играючи. И коллег я подбираю так -же. Детская игра и интерес. Я в себе это берегу.

        0
        Потому что это сублимация.
          +3
          Сначала все же стоить выучить математическую базу, статистику и теорию автоматического управления. Поняв ТАУ будет намного легче понять нейронки.
          • НЛО прилетело и опубликовало эту надпись здесь
            +9
            Дата сайентистом за несколько месяцев может легко стать лишь тот кто выучил с++ за 21 день
              0

              Кто выучил с++ за 21 день, выучит и DS за 21 день.
              А так дается 11 недель: https://www.coursera.org/learn/machine-learning/home/welcome

                0

                Вот только этого курса не обязательно достаточно, чтобы стать data scientist. Я бы даже сказал, скорее недостаточно.


                Его все еще читают на октаве, да?

                  0

                  Octave или MATLAB. Раньше был Python, но его знали не все студенты и на нем сложнее, на фреймворках легче.

                    0

                    Забавно, конечно, как наша с вами информация отличается. Я вот, например, думаю, что Octave — это не фреймворк, а язык программирования (и лично мне на нем было сложнее, чем на питоне, даже с учетом того, что питон я учил по ходу). Ну и да, занятно, что в более новой специализации по Deep Learning от того же Andrew Ng используется Python.

                      0

                      Octave мне показался не сложным.


                      в более новой специализации по Deep Learning от того же Andrew Ng используется Python.

                      Там, как вижу, Tensor Flow используется.

                        0
                        Octave мне показался не сложным.

                        Я не говорю, что он сложный. Я говорю, что мне на нем было сложнее, чем на питоне.


                        Там, как вижу, Tensor Flow используется.

                        Ну да. И это, собственно, иллюстрация того, почему делать вводный курс в ML на октаве нынче странно. Впрочем, если мне память не изменяет, где-то во вводных занятиях к DL эта аргументация и озвучивается.

                          0

                          Andrew Ng в начале курса и объясняет почему Octave, а не Python. Не все желающие изучать этот курс по ML знают Python настолько хорошо, чтобы выполнять упражнения на нем. Octave в этом плане намного проще. Курс по ML можно читать студентам первого курса.

                            0

                            Я знаю мотивацию к применению Octave. Просто это применение делает — для меня — курс менее пригодным к тому, чтобы сразу после него идти этим заниматься.

                    0
                    Если вопрос не риторический, то да, все еще на октаве (курс не менялся с момента выхода 8-9 лет назад). Однако, его можно проходить на MATHLAB (дают бесплатный доступ на 11 недель к онлайн версии) и все задания обновлены до последней версии. Кроме того, в каждом задании есть доп материалы от MathWorks, которые показывают какие есть встроенные функции и надстройки у MATHLAB по изучаемой теме.

                    ИМХО, курс для тех, кто хочет понять что вообще такое машинное обучение и разобраться с терминологией (как раз прохожу сейчас). Далее уже копать глубже (в статистику, calculus, и т.п.) и решать задачи (kaggle).
                      0
                      Если вопрос не риторический, то да, все еще на октаве (курс не менялся с момента выхода 8-9 лет назад). Однако, его можно проходить на MATHLAB (дают бесплатный доступ на 11 недель к онлайн версии) и все задания обновлены до последней версии.

                      Будем честными, одно другого не лучше.

                        0
                        Будем честными, одно другого не лучше.

                        Я понимаю, что вы хотите сказать, но не согласен с формулировкой. Я тоже «балуюсь» с Python уже какое-то время и предпочел бы не изучать новый язык а научиться применять знакомый инструмент. Однако, MATHLAB мне как пользователю понравился своей интуитивностью и простотой + графический интерфейс и документация. Запустить нейросеть в несколько кликов без написания кода — это мечта. Его огромный минус — дороговизна, поэтому ему судьба быть в корпоративной среде.

                        P.S. Представьте, если бы Kaggle добавил поддержку MATHLAB… Вообще, MATHLAB'у стоило бы дать бесплантые лицензии на онлайн версии для студентов, возможно открыть для некоммерческого использования (по типу Unity). Бомба была бы, если бы они запилили свой Kaggle и дали доступ к onlinе версии для участников.
                          0
                          Однако, MATHLAB мне как пользователю понравился своей интуитивностью и простотой + графический интерфейс и документация. Запустить нейросеть в несколько кликов без написания кода — это мечта.

                          Гм, у меня были представления, что матлаб — это не про "запустить нейросеть в несколько кликов".


                          Его огромный минус — дороговизна, поэтому ему судьба быть в корпоративной среде.

                          Что важнее — не в каждой корпоративной среде. У нас вот корпоративная среда, но никто матлаб покупать не станет. Да и нафига, если результат в продакшн все равно так просто потом не выкатишь?


                          Представьте, если бы Kaggle добавил поддержку MATHLAB… Вообще, MATHLAB'у стоило бы дать бесплантые лицензии на онлайн версии для студентов, возможно открыть для некоммерческого использования (по типу Unity). Бомба была бы, если бы они запилили свой Kaggle и дали доступ к onlinе версии для участников.

                          Смысл-то в этом для конечного пользователя какой?

                            0
                            Мы, очевидно, спорим о разных вещах. Я попробовал MATHLAB впервые в жизни 4 недели назад в рамках упомянутого курса. Мне он показался мощным, интуитивным и наглядным инструментом.

                            По поводу корпоративной среды — согласен, не в каждой. Но тут как спор о лучшем языке или о лучшей среде разработки. Python крут и, как пример, можно взять сырые данные, обработать, и выдать в графики/таблицы. Но в Alteryx + Tableau существенно проще старт и их покупают (и много). Также и MATHLAB вполне себе инструмент для инженеров + есть надстройки для ML, Deep Learning и анализа. Имхо, если с нуля, то может и проще чем Python.

                            Смысл-то в этом для конечного пользователя какой?

                            Порог входа разный. При прочих равных (если цена = 0), MATHLAB среда в данном виде интуитивнее чем даже Jupyter. (P.S. стандартный дисклеймер про разные фломастеры). А если подсадить на свой продукт всех студентов, то они же потом в свои конторы и купят.
                              0
                              А если подсадить на свой продукт всех студентов, то они же потом в свои конторы и купят.

                              Или нет. Мы просто не берем тех, кто хочет матлаб.

                    0
                    Во-первых, это только 1 курс, и как бы что бы считаться полноценным специалистом этого мало.
                    Во-вторых, каким боком машин лёрнинг к датасаенс?
                      0
                      1. Он там не один: https://www.coursera.org/browse/data-science
                        И вот тот вышеупомянутый курс здесь в первых рядах.
                      2. https://en.wikipedia.org/wiki/Data_science
                        Data science is an inter-disciplinary field that uses scientific methods, processes, algorithms and systems to extract knowledge and insights from structured and unstructured data,[1][2] and apply knowledge and actionable insights from data across a broad range of application domains. Data science is related to data mining, machine learning and big data.

                      Я в том плане, что программистам быстрее и проще идти в DS через ML.

                0

                Не могу представить себе размеров и масштабов бизнеса\задач в котором требуется выделение отдельной роли DataScience-специалиста. Как правило, программисты с хорошей головой могут решить большинство задач из этой сферы самостоятельно по готовым гайдам.

                  0

                  вы пускали что-либо в прод, сделанное по готовым гайдам? обычно на реальных данных гайды не работают, надо погружаться в данные, в алгоритмы, в тонкости валидации, делать пайплайны и др.


                  бизнес может быть вообще небольшим, если он делает деньги с помощью моделей, там будет ds-специалист. я работал в небольшой логистической компании как data scientist (сейчас в другой industry), и скажу что работы всегда завались.

                    0

                    А какие конкретно задачи вы решили в логистике?

                      0

                      за 3 года всякие разные. все под NDA. вообще, не так уж сложно сообразить будучи в теме ds)


                      таблички, ряды, картинки и тексты — все это встречается не только в логистике. на них можно кучу задач ставить и решать. байесовские фреймворки, нейросетки, в основном. это помимо стандартных оптимизационных, которые наверное пришли в голову.


                      вообще лично мое мнение, в бизнесе самый топ — обладать более-менее неплохим цифровым двойником. с ним можно проектировать будущее.

                        0

                        Моя точка зрения сводится к тому, что если подход из датасайенса рабочий, как, например, A/B тестирование, то он быстро входит в арсенал предметных специалистов (маркетологи его уже в обязательном порядке осваивают).
                        Нейросетки, да, требуют отдельного к ним подхода, но все равно, задачи там в большинстве случаев утилитарные — перебрать разные подходы, прикрутить\дообучить существующую сетку.

                    –1

                    Не могу представить себе размеров и масштабов бизнеса\задач в котором требуется выделение отдельной роли программиста. Как правило, инженеры с хорошей головой могут решить большинство задач из этой сферы самостоятельно по готовым гайдам.

                      0

                      Программисты это те же инженеры, только для разработки программного обеспечения.

                        +1

                        DataScience-специалисты это те же инженеры, только для анализа данных.

                      0
                      Как правило, программисты с хорошей головой могут решить большинство задач из этой сферы самостоятельно по готовым гайдам.

                      Могут. Но все же проще разделить труд.
                        0
                        программистам обычно это не интересно. у нас штук 5 аналитиков/DS, лабают скоркарды. там 95% это ковыряние в кривых данных и переписка с клиентом, почему тут какие-то дубли, а тут транзакции без суммы.

                      Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

                      Самое читаемое