Как стать автором
Обновить
198.28
Рейтинг
Инфосистемы Джет
Системный интегратор

Чужая среди своих, своя среди чужих: из социологии в Data Science

Блог компании Инфосистемы ДжетМашинное обучениеКарьера в IT-индустрииИскусственный интеллект

Мне давно хотелось написать пост о том, как в тридцать лет, с образованием в совершенно «гуманитарной сфере» и изрядным опытом работы по специальности, я придумала, кем хочу стать, когда вырасту. И вот мне тридцать четыре, и уже пару лет как я работаю дата-сайнтистом — это оказалось работой моей мечты (конечно, если в сорок лет не наступит пора пересмотреть интересы! ;).

Решив поменять сферу деятельности, я прочитала много таких рассказов и поняла: универсального рецепта нет. Тем не менее, мне всё еще хочется поделиться своей историей — вдруг она кого-то вдохновит?

Итак, мне двадцать восемь, и полгода назад родилась дочка. «Какая-то ты грустная, — сказал мой муж, сам программист. — Может быть, тебе изучить какой-нибудь язык программирования, чтобы развеселиться?» О том, чтобы сменить профессию, речи пока не шло — просто немного хобби, какой-нибудь язык, полезный в моей основной работе — социологических исследованиях.

Бэкграунд чек

Логичный вопрос, который задают читатели успешных историй о приходе в ИТ-сферу из других отраслей: не лукавит ли автор, и, может быть, его условия изначально облегчили для него этот переход?

Не буду лукавить, я много думала о том, что мне помогло из «прошлой жизни», и составила примерно такой список:

1. Английский язык

Спасибо маме, папе и абсолютно гуманитарной школе с углубленным изучением английского языка. Да, сейчас материалов на русском всё больше, но я даже не буду тратить время на мотивационную часть — просто английский нужен. Как минимум, уверенное чтение.

2. Знание статистики

На факультете социологии предполагалось и два семестра высшей математики с экзаменом в конце, но подавалась она в стиле «вы, гуманитарии, всё равно в ней ничего не понимаете». Справедливости ради — многие действительно выбирали факультет социологии по критерию «не нужно сдавать математику», так что нельзя сказать, что это было безосновательное предубеждение.

На блоке курсов по статистике требования были выше, нужно было как минимум знать основные понятия и уверенно решать задачи. Всё это изрядно пригодилось, когда я перешла от «какого-то языка программирования, чтобы не было грустно» к вводным курсам уже непосредственно по Data Science — вообще не представляю, как бы я справилась без этой базы.

3. Большой опыт работы с табличными данными

С точки зрения эксплоративного анализа табличные данные социологических исследований практически не отличаются от табличных данных, которые приносят для работы дата-сайнтисту. Но главное, что я вынесла из этого большого опыта — даже не сам навык, а понимание, что мне интересно искать в данных инсайты, места, где данные поломаны, и разбираться в предметной области, которая могла на эти данных повлиять.

Если у вас такого опыта нет, то очень советую попробовать, прежде чем решать, является ли наука о данных наукой вашей мечты. Знаю примеры, когда привлеченные в Data Science мемом про «зарплаты 300К в секунду» ребята очень быстро перегорали: оказывалось, что для них это просто скучно. Мне никогда не бывает с данными скучно.

4. SQL

С базовым SQL я познакомилась практически случайно, при очередном повышении своей академической квалификации. Оказалось, полезнейшая вещь. Заодно на курсе рассказали про основы работы баз данных.

С чем я училась

Сейчас ситуация совсем не та, что была пять лет назад: выбор курсов, онлайн-тренажеров, тематических телеграм-каналов просто огромный. Контекстная реклама постоянно предлагает мне наконец изучить Python, стать дата-сайнтистом и изменить свою жизнь к лучшему. Почти все курсы и источники, на которых я училась, пересмотрели свое содержание или пересматривают сейчас, так что я уже не на 100% уверена, так ли они хороши…

Тем не менее, я намеренно останавливаюсь только на том, с чем имела опыт сама.

  1. Основы статистики Анатолия Карпова на Степике. Отлично подойдет как начинающим, так и желающим освежить какие-то редко используемые знания или разобраться, как объяснить что-то из статистики бизнесу понятным языком.

  2. Что-то базовое про гит и контроль версий. Я проходила The Data Scientist’s Toolbox из курса по программированию на R. Не могу утверждать, что будет полезно брать конкретно этот курс, если вы изначально не решили изучать R вместо Python (я решила, но в процессе передумала).

  3. learnpythonthehardway.org — это книга, на русский переведена как «Легкий способ выучить Python». Она, правда, хороша, и лучше изложенной основы мне нигде не встречалось. Если вы не имеете программистского бэкграунда и начинаете с нуля, как b я, — даже не надейтесь, что в любых вводных лекциях для «честное слово, совсем для начинающих» вам расскажут так же хорошо.

  4. «Python для всех» от Университета Мичигана. Курсы не специфичные для дата-сайнтистов (что вообще хорошо для начала, на мой взгляд), проходятся по верхам основных применений языка в задачах джуниор-уровня. Весьма упрощенно, но задания хорошо легли на книжную базу.

  5. Книга «Python для сложных задач: наука о данных и машинное обучение» с обзором базовых библиотек.

  6. Конспекты открытого курса ODS здесь, на Хабре.

Отдельно — пара слов о том, что мне захотелось подтянуть уже после перехода в Data Science:

  1. Курс «ООП и паттерны проектирования в Python». Это часть большого общего курса по программированию на Python, проводимого на русском языке. Но как курс для начинающих я его не советую: на мой вкус, перескакивания от простого к сложному, пропуская средний уровень, случаются чаще, чем это допустимо для новичка. Я хотела писать более понятный код и говорить на одном языке с настоящими программистами, занимающимися внедрением моделей в уже работающие на продакшене приложения. В этом курс помог мне идеально.

  2. Специализация «Машинное обучение и анализ данных». Коллеги часто называли ее «машинное обучение для самых маленьких», я с ними не соглашусь: в специализации нередко происходит переход «это гвозди, это молоток, теперь строим синхрофазатрон». Но поверх уже набранной базы очень хорошо помогает упорядочить знания и понять, где есть дыры.

Банальные хинты для обучения

Я часто давала эти советы своим подругам, решившим проходить полноценные курсы (а педагоги этих курсов ничего об этом не говорили). Так что немного хинтов Капитана Очевидность на случай, если у вас что-то не ладится:

  1. Если вам не понятно, что происходит — выводите на печать то, что происходит в вашем коде. Нередко банальность типа print (‘it works’) в нужном месте может помочь разобраться с тем, куда и как доходит (или нет) исполнение кода.

  2. Google it. Несмотря на шутки про stackoverflow development — ввести в поисковик ‘smth wrong error text stackoverflow’ может сэкономить часы разбирательств. Если это недокументированная особенность работы библиотеки или хорошо известный, но неисправленный баг — почти наверняка кто-то уже это обсудил. Если это типовая операция, то наверняка кто-то уже бился в попытках этого достичь. Нередко опытные пользователи из комьюнити языка будут объяснять лучше, чем документация.

Важные замечания к пункту (2):

а) чтобы не стать героиней анекдота, действительно разбирайтесь, а не просто копируйте;

б) Google правда помогает лучше Яндекса в поиске почти для всего, кроме специфически русских сообществ (вроде 1С ;), из-за особенностей индексации англоязычного интернета.

«Женский вопрос»

Меня нередко спрашивают, были ли у меня специфические проблемы, связанные с тем, что я девушка в профессии, где больше мужчин. После гуманитарной сферы мне кажется, что весь ИТ-мир очень дружелюбен и не делит авторов кода на мужчин и женщин — но пройдусь по тому, что мне кажется интересным.

Статистика — страшная штука. Если рассматривать, например, наш отдел Data Science: в обезличенном виде, то легко может оказаться, что треть женщин-дата-сайнтисток являются руководителями отдела, треть — тим-лидами (а еще треть — это я, как вы наверняка уже догадались).

Тем не менее, перекос в соотношении мужчин и женщин в нашей профессии отрицать сложно. Год назад я интереса ради анализировала пропорцию среди участников ежегодного опроса Kaggle, и в целом получалось, что среди отечественных дата-сайнтистов он выражен даже сильнее, хотя и для других стран несомненен.

Если вы девушка и чувствуете себя неуверенно, вот несколько хороших ссылок, где начинающая свой путь в Data Science может найти поддержку или интересную информацию:

  1. Петербургское сообщество PyLadies. Оно не специализированно дата-сайнтисткое, но, как можно догадаться по названию, объединяет девушек, пишущих на Python и живущих в Петербурге. Кажется, во времена, когда ковида еще не было, бывали и оффлайн-встречи (но кто теперь вспомнит? ;).

  2. Серия событий Women in Data Science. Во-первых, это ежегодное соревнование на Kaggle, приуроченное к конференции. Соревнование проводится в режиме «для начинающих», сопровождается воркшопами и является хорошим поводом попробовать свои силы. Во-вторых, многим могут быть кстати вдохновляющие примеры женщин-дата-сайнтистов со всего мира — и не все из них начинали с серьезных математических специальностей.

Как вообще добиться своего и не приуныть в процессе?

Если пересказывать мою историю просто и цинично, то вот два пункта для достижения успеха:

  1. Заводи друзей (возможно, однажды они позовут тебя на собеседование).

  2. Выходи замуж за программиста (не поможет с обучением, так поддержит финансово).

Хорошо бы, чтобы всё было так просто! Тем не менее, вот несколько серьезных советов по смене карьеры:

  1. Хорошо, если новая область как-то стыкуется со старой. Так можно набрать много опыта в простых операциях — например, я старалась перевести столько обработки табличных данных социологических исследований, сколько могла, в код на python. А для многих специфичных отраслей вроде металлургии или племенного сельского хозяйства опыт начинающего дата-сайнтиста в предметном поле будет очень важен.

  2. Переход в другую область на начинающую позицию если не уронит доход совсем (у меня получилось, что зарплата опытного социолога практически равнялась доходу дата-сайнтиста-джуниора), то дообучение всё равно начнет занимать столько свободного времени, сколько сможет. Подумайте, где ваш источник денег и времени (а также сил). Без поддержки семьи я бы никогда не нашла достаточно свободного времени, а без поддержки лида — не структурировала бы желание «чему-то учиться дальше» во внятный план (и тут повезло, что моя работа в «Инфосистемы Джет» крайне поощряет желание учиться дальше).

  3. Не расстраивайтесь, если кажется, что вас никуда не берут. Честно говоря, я до сих пор не знаю, что поможет рекрутерам выбрать именно твое резюме из всего потока. А уж положительный ответ от будущего начальника — это не только про реальные навыки, но и про то, возникнет ли между вами «химия», поверит ли он в то, что конкретно с этим джуниором будет жить долго и счастливо. Хорошо, если ваше резюме не будет иметь сообщения «я 10 лет работал в другой области, а потом узнал, что в ИТ платят лучше» (в этом, кстати, поможет исполнение пункта 1). А чтобы подсветить хорошие моменты в вашем резюме — еще два полезных пункта из моего опыта ниже.

  4. Подумайте, в чем ваша прошлая сфера выгодно отличает вас от коллег в новой. Например, я выяснила, что, когда маркетологи со стороны заказчика закатывали глаза «что ваши математики вообще могут понимать в тонких душевных терзаниях наших покупателей!», внезапным контраргументом становилось «а это Саша, она не математик, а социолог, и отлично понимает тонкие душевные терзания». Да, «гуманитарии» тоже нередко думают, что «математики» ничего в их сфере понять не могут ;)

  5. Наверняка прошлая сфера научила вас чему-то полезному. Меня, например, гуманитарная сфера приучила к тому, чтобы рассказывать про результаты исследований максимально простым языком — и эта привычка очень пригодилась, чтобы убедить бизнес в том, что в Data Science не связан с вытаскиванием кролика из шляпы или банальным подбором коэффициентов до получения приемлемого результата.

Долго и счастливо

На этом в целом заканчивается история о том, как я стала тем, кем хотела стать, когда вырасту. Реальный мир Data Science несколько отличался от моих представлений (в частности, я никогда не думала, что в конечном счете основная часть моей работы будет связана с анализом данных металлургии, а не каким-нибудь клиентским спросом и удержанием клиентов).

Теперь мне бы хотелось стать более хорошим дата-сайнтистом, и по этому поводу у меня множество планов. Надеюсь однажды написать что-то вроде «как хорошо разобраться в математике, если упустил этот шанс в вузе». У меня целый список тем и инструментов науки о данных, работу которых я бы хотела понимать лучше или использовать эффективнее.

Теги:карьера в it-индустрииdata scienceмашинное+обучениеискусственный интеллект
Хабы: Блог компании Инфосистемы Джет Машинное обучение Карьера в IT-индустрии Искусственный интеллект
Всего голосов 23: ↑21 и ↓2+19
Просмотры3.6K
Комментарии Комментарии 5

Похожие публикации

Лучшие публикации за сутки