Как стать автором
Обновить

Письмо начинающему изучать Data Science

Время на прочтение 2 мин
Количество просмотров 63K

Я бы хотел получить такое письмо три года назад, когда только начинал изучать Data Science (DS). Чтобы там были необходимые ссылки на полезные материалы. Статья не претендует на полноту охвата необъятной области DS. Однако для начинающего специалиста будет полезна.


Нейронные сети – это...


В DS наиболее часто используются следующие технологии:


  • свободное владение английским языком;
  • операционная система Ubuntu Linux (так исторически сложилось);
  • язык программирования Python (но лучше Anaconda Python);
  • интегрированная среда разработки (IDE) PyCharm (Community Edition бесплатная);
  • инфраструктура (framework) для машинного обучения (ML machine learning), глубокого обучения (DL deep learning) и создания нейросетей (PyTorch, TensorFlow и десятки других);
  • если нет своей мощной видеокарты (GPU graphical processing unit), тогда следует пользоваться бесплатными облачными технологиями на основе Jupyter Notebook;
  • умение пользоваться распределенной системой управления версиями Git (GitHub, GitLab, Bitbucket и т.д.);
  • иметь учетную запись на StackOverflow и всех его ответвлениях.

Также со временем вам понадобятся множество различных дополнительных к Python библиотек и инструментов обработки изображений и данных. Их десятки. Наиболее полезные для меня (обработка изображений) в порядке убывания важности:


  • Virtual Environment – виртуальная среда разработки для различных проектов, которая инкапсулирует в себе разные версии библиотек и инструментов.
  • NumPy – работа с матрицами, линейная алгебра.
  • OpenCV – множество различных алгоритмов для работы с изображениями.
  • Jupyter Notebook – веб-приложение для разработки и выполнения программ Python в браузере и в облаке.
  • Tensorflow-gpu – конфигурация нейронных сетей и вычисления на графических картах.
  • iPython – более удобная консольная работа с командами Python, советую использовать её вместо консоли по-умолчанию.
  • Matplotlib – рисование графиков и диаграмм.
  • Pillow – работа со всеми популярными форматами изображений.
  • Pandas – работа с данными.
  • SciPy – продвинутая работа с алгоритмами, бесплатная альтернатива программе MatLab.
  • Scikit-learn – алгоритмы машинного обучения.
  • Scikit-image – продвинутая обработка изображений.
  • K3D – работа с трехмерными графиками и изображениями в Jupyter Notebook.

Машинное обудение (ML machine learning), а особенно глубокое обучение (Deep Learning) невозможны без данных. Необходимые базы данных (датасеты, datasets) можно поискать через сервис Google Dataset Search или среди 25-ти тысяч датасетов Kaggle.


Ну, давай, покажи нам примеры


Что у меня есть:



Спасибо за внимание!

Теги:
Хабы:
+28
Комментарии 21
Комментарии Комментарии 21

Публикации

Истории

Работа

Python разработчик
131 вакансия
Data Scientist
62 вакансии

Ближайшие события

PG Bootcamp 2024
Дата 16 апреля
Время 09:30 – 21:00
Место
Минск Онлайн
EvaConf 2024
Дата 16 апреля
Время 11:00 – 16:00
Место
Москва Онлайн
Weekend Offer в AliExpress
Дата 20 – 21 апреля
Время 10:00 – 20:00
Место
Онлайн