Comments 12
Спасибо за полезную статью!
+1
Статья была бы суперполезной если бы добавили хотя бы на свой взгляд ссылки на наиболее подходящие курсы применительно к основых вехам и этапам, иначе время которое указано в скобках выглядит как-то непонятно.
0
Если внимательно читать статью, то можно заметить упоминание о планируемой к написанию статье со ссылками на курсы и книги.
0
Я решил разбить весь материал на логические части. Также чтобы статьи были не слишком длинными. В следующей (через неделю, наверное) напишу уже книги и курсы. С тех пор как сам учился вышли новые, я хочу всё пробежать глазами чтобы отобрать самое актуальное.
Кажется, что почти всем рекомендую сначала читать Datasmart. Замечательно написанная книжка.
Кажется, что почти всем рекомендую сначала читать Datasmart. Замечательно написанная книжка.
+1
Внутри Spark устроен сильно не так, как обычные базы данных
Техническое замечание: Spark это вообще не база данных. И даже Hive это не база данных в том смысле, как этот термин обычно используется. Это движок, который может выполнять SQL-запросы (но не только — потому что есть RDD и Dataset API, например, второй из которых был скопирован с pandas, но адаптирован к параллелизму) на кластере, распределяя вычисления между узлами. При этом данные будут лежать в условно, куче файлов json, и никакой базой это вообще не будет, никогда. И работать со спарком как с базой данных не стоит — ничего хорошего не получится.
Что же до почти всего остального — то это можно, мне кажется, сформулировать в двух словах — изучите программирование. Data Science, по большому счету, это программирование с большим довеском математики, или наоборот. И тут уже либо вы будете программистом, и тогда все нужные библиотеки вы освоите рано или поздно, по мере надобности, и другие языки, а если не будете — то каждый новый язык программирования или библиотека будет вызывать у вас проблемы.
0
spark предоставляет высокоуровневую абстракцию, которая позволяет работать с ним, практически, как с обычной субд. Поэтому это упрощение сильно помогает объяснить что это, и снимает психологический барьер на освоение новой технологии.
То, что data science это в львиной части программирования — однозначно, я и в первой статье поэтому про Питон писал больше, чем про дата сайенс. Более того, я хочу об этом отдельную статью написать (о важности умения хорошо программировать).
Но я не ставлю знак равенства осознанно, т.к., например, программистом я бы не хотел быть (скучно, т.к. обычно это выполнение идей Других людей), а дата сайентистом — мне нравится, т.к. это более высокая автономности и большая часть похожа на исследование и творчество, субъективно — значительно меньше рутины. И задачи, потенциально, high impact
То, что data science это в львиной части программирования — однозначно, я и в первой статье поэтому про Питон писал больше, чем про дата сайенс. Более того, я хочу об этом отдельную статью написать (о важности умения хорошо программировать).
Но я не ставлю знак равенства осознанно, т.к., например, программистом я бы не хотел быть (скучно, т.к. обычно это выполнение идей Других людей), а дата сайентистом — мне нравится, т.к. это более высокая автономности и большая часть похожа на исследование и творчество, субъективно — значительно меньше рутины. И задачи, потенциально, high impact
0
> практически, как с обычной субд.
Ну, да. SQL. Но только до тех пор, пока производительность вас вообще не волнует. Ну и внутри это ну совсем не база. Типовая СУБД — это демон, который выполняет запросы. Спарк — это короткоживущий процесс, который для выполнения запроса запускает еще кучу процессов на разных узлах, там где лежат данные. Если всего этого не учитывать — получается ну как-то совсем не эфффективно.
Ну и потом, есть и другие API, чуть ниже уровнем, при использовании которых все становится уже вообще непохоже на СУБД.
>Но я не ставлю знак равенства осознанно
А его и нет. Это разные виды деятельности. Мне не скучно (потому что мне нравится доводить проект до внедрения, не говоря уже про получение премии за результаты этого внедрения ;), но я согласен, что кому-то может быть интереснее заниматься чем-то более творческим.
Ну, да. SQL. Но только до тех пор, пока производительность вас вообще не волнует. Ну и внутри это ну совсем не база. Типовая СУБД — это демон, который выполняет запросы. Спарк — это короткоживущий процесс, который для выполнения запроса запускает еще кучу процессов на разных узлах, там где лежат данные. Если всего этого не учитывать — получается ну как-то совсем не эфффективно.
Ну и потом, есть и другие API, чуть ниже уровнем, при использовании которых все становится уже вообще непохоже на СУБД.
>Но я не ставлю знак равенства осознанно
А его и нет. Это разные виды деятельности. Мне не скучно (потому что мне нравится доводить проект до внедрения, не говоря уже про получение премии за результаты этого внедрения ;), но я согласен, что кому-то может быть интереснее заниматься чем-то более творческим.
0
FFelix, а что думаете по поводу ML.Net от майкрософт?
0
Нужен ваш совет или подсказка куда копать:
Поступают данные о товарах и их нужно разбивать по категориям. Насколько понимаю это близко к подходу Data mapping. В каком инструменте можно получить некатегоризированные данные, проассоциировать их с категорией руками, а далее такая ассоциация занеслась в реестр и ассоциирование шло автоматически?
И такую задачу выполнять ежедневно пополняя реестр.
Поступают данные о товарах и их нужно разбивать по категориям. Насколько понимаю это близко к подходу Data mapping. В каком инструменте можно получить некатегоризированные данные, проассоциировать их с категорией руками, а далее такая ассоциация занеслась в реестр и ассоциирование шло автоматически?
И такую задачу выполнять ежедневно пополняя реестр.
0
Похоже на задачу кластеризации. При превышении предела метрики сходства может формироваться новый кластер или категория «unsorted».
0
Я не знаю готовых инструментов, которые смогут адекватно это сделать вот так просто, без программирования и просто кликанием.
Нужно изучать основы дата-саенс для этого, т.к. иначе вы можете неверные данные в этот инструмент скормить, или неожиданно получить в какой-то момент сломанные категории.
Книга datasmart даёт близкие примеры сделанные в эксель. С неё можно начинать практически любое изучение
Нужно изучать основы дата-саенс для этого, т.к. иначе вы можете неверные данные в этот инструмент скормить, или неожиданно получить в какой-то момент сломанные категории.
Книга datasmart даёт близкие примеры сделанные в эксель. С неё можно начинать практически любое изучение
0
Спасибо за отличный план, во первых стало понятнее на каком я этапе, и о каких навыках надо говорить на собеседовании, потому что SQL и Excel к примеру мне казались настолько базовыми (SQL разумеется подтянуть всегда можно и можно это делать бесконечно, но базовые вещи знаю), я на собеседовании не считала важным о них упомянуть, но теперь для большей убедительности получу ка я сертификаты, хорошо много курсов, где можно порешать задачки и сертификат готов.( я про stepik.org)
0
Sign up to leave a comment.
Изучение data science c нуля: этапы и вехи