Comments 32
с нуля до Senior за два года
Я бы выкинул слово Senior или заменил бы чем-то нейтральным. Оно имеет слишком неопределенный смысл, различный в разных компаниях. За два года можно много чего добиться, но при этом всегда будут люди, у которых либо просто больше опыта, либо реально больше умеющие.
Ну или можеть быть — конкретизировать, чему научились. Скажем, такая типовая проблема именно для области DS — сколько ваших моделей дошли до практического применения, и начали приносить прибыль, а сколько было выкинуто (некоторые источники называли процент выкинутых моделей более 90)?
У всех других языков программирования какие-либо специализированные библиотеки для машинного обучения есть только в зачаточном состоянии.
Вот тут я не понял. Есть же tensorflow, у которого есть API для массы самых разных языков. Ну т.е. очевидный вариант — одна реализация на C/C++, и API для кучи языков, которые не лень было написать.
И есть Spark ML, на котором у нас куча моделей в проме, и который поддерживает благодаря спарку Java, Scala, Python и R (не говоря уже про кучку языков под JVM).
Кто из них в зачаточном состоянии?
Ага, после прочтения этого пассажа стало окончательно понятно, что автор отнюдь не Senior.
Тут у нас явно разные взгляды на то, что есть все необходимое, потому что я лично изучаю SQL (в разных его диалектах) где-то с 20 века, и все еще не могу сказать, что я знаю все тонкости. Так что 20 часов — и вы еще будете плавать во многих вопросах (я бы сказал — в большинстве вопросов). И наверняка не будете знать тонкости даже для одной конкретной СУБД.
Я чаще всего вижу, что ML-code пишут на python, хотя всё вокруг может быть написано на других языках. Для львиного большинства открытых позиций — знаний Python достаточно. И не будет достаточно других языков, т.е. без Python никуда.
Но потом, когда это доходит до прома, большая часть этого переписывается на спарк (java или scala), потому что в исходном виде просто на реальных объямах не работает, а сложность большинства практических моделей обычно небольшая, и Spark ML покрывается из коробки. Объемы же при этом у нас большие, так что производительность в целом важна.
Ну или в крайнем случае — тоже спарк, но код остается на питоне (редко бывает, так как есть ряд неудобств и просадка производительности местами).
Тренируем модели в локальном режиме (т.е. на отдельных серверах). Это происходит не быстро, но нам нравится что их намного легче контролировать (например, shap) чем на моделях из spark-ml. Мы spark ML попробовали и отказались, в итоге.
Для непосредственного скорринга моделей — да, на отдельном сервере это медленнее. Но не критично, пока это не реал-тайм модели. У нас таких пока нет. Максимум раз в день скоринг делаем.
Итого:
вне кластера модель намного легче (для человека) обучать и инспектировать — больше библиотек. Медленнее идёт сам процесс фиттинга модели, да, но на наших объемах (обычно всего несколько миллионов записей и меньше тысячи атрибутов) это компенсируется большей скоростью работы человека, по разработке и изменению моделей. Ну и у нас очень мощные отдельные сервера, на которых модель обучается.
Вот если бы от «кассира пятёрочки»…
Список неплохой, не хватает «Python for everybody» и списка литературы по математике — помимо восстановления школьной программы.
Казалось бы — начинающий. Но ничего такого — эти 10 лет очень даже сказались, в частности весьма неплохой опыт SQL. Ну т.е. да, человек может многого и не знал, но годы в разработке все-таки не прошли даром, пусть даже в другой области.
Спасибо.
Какая-то циничная самореклама. Помогать другим — это действительно здорово и достойно уважения. Но вот почему-то многие имеют превратное представление об айти. В частности, убило, что математика не нужна. Ну, да, можно и без математики вообще. Брать готовую модель, тренировать данные, кидать в продакшен. И пофиг. Только к датасайенс это имеет такое же отношение, как я — к Пушкину. И нужно отделять ремесло и профессию.
Чем больше я в айти ( а я очень не хотел идти в него ) — тем больше я убеждаюсь, что это какая-то кротовая нора. И чтобы быть синьором недостаточно просто охватить и изучить какую-то конкретную технологию или инструмент, а нужно системное видение всего решения и используемого в него с полным пониманием что и где можно менять и к каким последствиям это приведёт. К сожалению, даже у бизнеса не всегда есть понимание, что ему нужны прям спецы-спецы, в результате тяп-ляп и в продакшен и «так сойдёт»
Для DS матан оч нужен.
да, именно так. Прошу прощения некорректно выразился — не то, что математика не нужна, а то, что многие так думают.
Почему? А куда хотели?
в более консервативные сферы, где нужно каждые 2 года переучиваться почти полностью (по крайней мере так казалось снаружи) на новые фреймворки. А потом оказывается, что все эти фреймворки для разработки абсолютно однотипные...
Да просто бизнес считает деньги, а не качество.
+
и качество роляет только в том случае, если это является конкурентным преимуществом...
Интересно, а в соревнованиях на Kaggle участвовали? Как нашли первую работу без опыта в data science?
а вот тут вероятно таки синьйор) https://vas3k.ru/blog/machine_learning/
Если ради интереса, то есть, особенно если хорошая базовая математическая подготовка и сможете читать на английском. Вполне вероятно через пару лет у вас будет средняя, для ИТ-шников со стажем, зарплата, но работа может приносить большее удовольствие.
Хорошую карьеру в DS в вашем возрасте сделать уже будет сложно, скорее всего.
Почитайте Datasmart и решите сами — возбуждает ли вас это, и легко ли вы понимаете основы? Если да — имеет смысл двигаться дальше. Хотя бы для развития кругозора
Статья хорошая, на 10, уверен что кому нибудь поможет. Продолжайте в том же духе, но соглашусь что позиция сеньора не особо о многом говорит. Но мысль что бесплатно и эффективно лучше учить это очень верна, большинство курсов берут деньги за рекламу.
Странная статья) Тема не раскрыта…
Автор кроме SQL и Python ещё что-то учил? И где здесь DS?
Самообучение в Data science, с нуля до Senior за два года