Data Science: книги для начального уровня

    Data Science — наука о данных, возникшая на стыке нескольких обширных направлений: программирования, математики и машинного обучения. Этим обусловлен высокий порог вхождения в профессию и необходимость постоянно получать новые знания.

    Ключевыми навыками для начинающих специалистов являются:

    • умение писать код (Python);
    • способность визуализировать свои результаты;
    • понимание того, что происходит «под капотом».

    На эти три категории разделены книги, которые специалисты Plarium Krasnodar подобрали для читателей с начальными знаниями в Data Science.



    Python


    Некоторые люди ищут себя в R, но путь истины лежит через Python. Отличным выбором для изучения будут следующие книги.



    Python Tricks: The Book
    Dan Bader


    Книга о различных трюках и полезностях, которые помогают становиться продуктивнее и программировать более качественно.

    Речь тут идет об основных типах данных языка Python и подходах к написанию кода — от ООП до работы с зависимостями. Стоит почитать как новичкам, так и всем, кто хочет освежить память типовыми pythonic-конструкциями.



    High Performance Python: Practical Performant Programming for Humans
    Micha Gorelick, Ian Ozsvald


    Книга описывает язык на внутреннем уровне. В ней приведены пояснения работы интерпретатора и механик кода, основные типы данных и способы их взаимодействия с памятью. Также это руководство поможет понять, как эффективно использовать скрытые возможности Python.

    Визуализация


    Каждый Data Scientist однажды сталкивается с необходимостью представить результат своей работы. И как известно, нет способа лучше, чем качественная визуализация. Тут-то и возникают причудливые pie charts…



    Storytelling with Data: A Data Visualization Guide for Business Professionals
    Cole Nussbaumer Knaflic


    Прекрасная книга о том, как качественно визуализировать свои результаты. В ней еx-googler детально описывает все этапы создания правильных графиков и приводит контрпримеры.

    Также можно посетить сайт автора, на котором собрано огромное количество вариантов представления данных от лучших специалистов. Конечно, пошаговой инструкции для создания безупречной работы здесь не найти — да и где ее найдешь!



    The Big Book of Dashboards. Visualizing Your Data Using Real-World Business Scenarios
    Steve Wexler, Jeffrey Shaffer, Andy Cotgreave


    Визуализация данных — кропотливая работа, но когда знаешь, как должен выглядеть идеал, то понимаешь, к чему нужно стремиться.

    Это отличная подборка дашбордов на все случаи жизни, в которой рекомендованы решения почти для любой задачи бизнеса. К сожалению, тут ничего не сказано о реализации в Tableau — только визуальные составляющие и объяснение, как лучше и почему лучше.

    ML-алгоритмы


    Та самая область, где относительно легко понять, что делают алгоритмы, но очень сложно достичь мастерства.



    Hands-On Machine Learning with Scikit-Learn and TensorFlow: Concepts, Tools, and Techniques to Build Intelligent Systems
    Aurélien Géron


    Книгу можно смело рекомендовать всем, кто хочет понять, как строятся модели — от линейных до деревьев. В первой части доступным языком изложены принципы работы алгоритмов. Она будет особенно полезна тем, кто только входит в профессию. Вторая часть посвящена TensorFlow.



    Глубокое обучение. Погружение в мир нейронных сетей
    С. Николенко, А. Кадурин, Е. Архангельская


    Почти вся IT-литература в современном мире издается на английском языке, и область Data Science не исключение. Есть даже выражение: «Хочу стать программистом, какой язык выучить? Выучи для начала английский».

    Это единственная стоящая книга по Deep Learning и Neural Networks, написанная российскими авторами на русском языке. Причем очень выразительно, с кучей примеров, различных историй из науки и ссылок на источники (один список литературы в этой работе полезнее многих изданий).



    The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Second Edition
    Trevor Hastie, Robert Tibshirani, Jerome Friedman


    Просто must-read в любой подборке по Data Science. Фундаментальный труд об алгоритмах машинного обучения, который можно использовать как настольную книгу. Требует определенной подготовки, подойдет и для продвинутого уровня.

    Дополнительно




    Statistics Fundamentals Succinctly
    Katharine Alexis Kormanik


    В серии Succinctly часто встречаются жемчужины, и это одна из них. В начале книги приведены основные определения с картинками и комментариями, а остальная часть посвящена значимости тестов (T- и Z-tests).

    Доступный язык и минимум математики (количество, необходимое для понимания) делают это руководство отличным введением в статистику именно с практической точки зрения.



    Deep Work: Rules for Focused Success in a Distracted World
    Cal Newport

    Автор рассказывает о своем опыте и опыте коллег при работе над задачей с предельной концентрацией. Книга читается довольно легко и состоит из описания самого подхода, различных примеров и правил.

    Основная идея — такое состояние мозга позволяет достичь предельной работоспособности и вывести результаты на качественно новый уровень. Лимит мозга, к сожалению, ограничен, но тренируем. Рекомендуем к прочтению всем.
    • +17
    • 23,4k
    • 7
    Plarium
    145,00
    Разработчик мобильных и браузерных игр
    Поделиться публикацией

    Комментарии 7

      +5
      Вы уверены, что The Elements of Statistical Learning — это книга для начального уровня? Логичнее тогда уж начать с An Introduction to Statistical Learning (хотя там и нет всех тем). А еще стоит упомянуть, что эти книги доступны легально и бесплатно с оф. сайта: ISLR и ESLII. Тоже самое и с Statistics Fundamentals Succinctly (нужен прокси или впн). Возможно, что и другие где-то можно взять легально и бесплатно.
        +1
        а зачем прокси и впн?
        –2
        Вы уверены, что The Elements of Statistical Learning — это книга для начального уровня?

        Да, уверены: для уровня junior вполне подходит.

        Спасибо за ссылки и дополнения по литературе.
          0
          Только если этот «junior» хорошо знаком с теорией вероятностей (в т.ч. многомерные нормальные распределения, условные мат. ожидания, условные распределения и т.д.) и мат. статистикой (хотя бы на уровне полугодового университетского курса).
          0
          Кайф, огромное спасибо!
            0
            Некоторые люди ищут себя в R, но путь истины лежит через Python.
            Очень громкое заявление. Почему тогда такие вещи, как WinBUGS/OpenBUGS доступны для работы в R, но не доступны через Python? Вы можете отдавать предпочтение Python как более близкому лично Вам языку программирования. И в ряде задач из области Data Science он действительно подходит лучше по сравнению с R. Но лучше не делать таких резких заявлений, поскольку сообщество пользователей языка R огромно, и во многих отраслях Python не столь популярен и востребован.
              0
              Я не собираюсь разводить флейм по поводу R vis Python, но просто отмечу, что сам BUGS это программа, причём изначально чисто под Windows. И написана она на C. А уж какой на него интерфейс можно навесить снаружи, это дело десятое. И да, есть же PyMC, более гибкий.

            Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

            Самое читаемое