«Анализ данных. Как стать профессионалом». Обзор книги / Хабр

Издательская практика в настоящее время требует оценивать англоязычные книги, а в идеале — отлавливать бестселлеры — задолго до выхода, по первым черновикам. Занятие увлекательное, но порой рискованное. Поэтому в потенциальной переводной книге мы ищем сочетание «широкого контекста» и заключённой внутри него «необходимой новизны». Книга должна быть понятна и интересна широкой аудитории, но не перемалывать в очередной раз широко известные вещи, к тому же разобранные в блогах, а серьёзно облегчать повседневный труд и при этом предлагать ступеньку для роста.

Книга Дэвида Эсбота в оригинале называется «The Well-Grounded Data Analyst. Solve messy data problems like a pro», а в нашем переводе — «Анализ данных. Как стать профессионалом». Это давно назревшее произведение, в котором работа с данными наконец-то показана не как сооружение стройных таблиц и «выпас» структурированной информации, а как не терпящая промедлений прикладная деятельность, в которой что-то обязательно пойдёт не по плану, а рано или поздно вам придётся реанимировать заброшенный кем-то с виду безнадёжный проект.

Как правило, каждая наша книга в какой-то степени продолжает и развивает темы, затронутые в уже имеющихся. Базой для книги «Анализ данных. Как стать профессионалом» являются три книги:

Джоэл Грас, «Data Science. Наука о данных с нуля», 2-е издание; вышла в 2020 году, последняя допечатка – март 2025

Питер Брюс, Эндрю Брюс, Питер Гедек, «Практическая статистика для специалистов Data Science», 2-е издание; вышла в июне 2021, последняя допечатка - октябрь 2025

Джозеф Гонсалес, Сэм Лау, Дебора Нолан, «Изучаем Data Science: обработка, исследование, визуализация и моделирование данных с помощью Python»; вышла в июле 2025.

В книге «Анализ данных. Как стать профессионалом», в отличие от трёх вышеприведённых, введение в data science сведено к минимуму (предполагается, что этот материал вы уже знаете). В приложении автор предлагает вводный курс по Python для data science, но и этот материал посвящён не столько изучению языка Python, сколько подбору библиотек и распутыванию узлов.

Например, во второй главе автор поднимает столь непростую тему, как определение границ Лондона. Допустим, вы анализируете охват вашей целевой аудитории, поскольку заказчику важно понимать, насыщен ли предлагаемым товаром большой город, в котором базируется компания, либо пора расширяться и на пригород/область? Как ограничить город – административными границами, зоной действия общественного транспорта, зоной притяжения, в которой наблюдается массовая миграция? Как проанализировать привязку клиентов на местности, исходя из данных о том, откуда чаще всего оформляются заказы?

Глава 4 посвящена изучению релевантных метрик товара. Какие параметры предлагаемых товаров нужно обязательно учитывать, а какие – желательно? Как ранжировать метрики? Здесь же разобран проект, помогающий собрать минимум признаков, чётко коррелирующих с успешностью товара. Эта тема развивается в главе 6, посвящённой категориальным данным, искусству опроса, а также соотнесению данных, полученных методом опроса и методом замеров.

Вообще в книге максимально внимательно разобраны темы отбора и фильтрации данных. Отбор данных должен быть как можно более непредвзятым, чтобы не вводить в иллюзии себя и заказчика, но и аккуратным, чтобы неизбежная зашумленность данных не искажала результат и не перегружала аналитические инструменты. Работа с данными из необычных источников разобрана в главе 5.

Подчеркну важность той части книги, которая окончательно убедила нас её лицензировать задолго до выхода. Это главы 8 и 9 общим объёмом 90 страниц, посвящённые анализу временных рядов (Time Series). Тема временных рядов незаслуженно слабо рассмотрена в русскоязычной литературе, причём, если рассмотрена – то в «сисадминском» ключе, когда эти данные воспринимаются как технические и диагностические, а также сравнительно дешёвые — ведь при эксплуатации налаженной системы их свежую порцию не составляет труда получить из структурированных логов.

В книге Эсбота временные ряды используются для анализа загруженности транспортной сети как основа для создания инфраструктуры велодорожек. Трафик есть трафик, однако физическую транспортную сеть требуется прокладывать без расчёта на скорый «редизайн», а развивать поступательно, непрерывно и безопасно. Это редкий пример практического переосмысления, казалось бы, рутинной задачи, которая в привычных контекстах хорошо поддаётся автоматизации.

Наконец, всем известно, что создавать новые продукты вам придётся на порядок реже, чем дорабатывать уже существующие. Такая потребность может быть связана как с простым обновлением (изменились обрабатываемые категории данных, схема данных, нагрузка приложения), так и с тем, что порученный вам проект прозябает в заброшенном виде и структурно оставляет желать лучшего. Главы 12-13, завершающие книгу, посвящены итеративному улучшению чужой работы, причём, описывают такой процесс с точки зрения data science и преемственности данных. Автор пропагандирует просто хирургический по аккуратности подход и рассматривает проблему такой доработки как с точки зрения анализа данных, так и для правильной сегментации пользовательской аудитории.

Неброское, но ключевое достоинство книги заключается в том, что она создавалась уже в эпоху развитого искусственного интеллекта. Автор рассказывает, что и как можно автоматизировать при помощи умных алгоритмов, какие подключить библиотеки и каких сюрпризов при этом можно ждать. На эту тему есть и более специализированные книги – например, у нас готовится к выходу «Hands-On API for AI and Data Science» Райана Дэя (переведена, отредактирована, ушла в вёрстку), но базовые знания об участии искусственного интеллекта вы почерпнёте уже из книги Эсбота.

Для наших читателей, пришедших с Хабра — промокод HABRBHV . Приятного чтения и лёгкого вам пути в реальном анализе данных!

«Анализ данных. Как стать профессионалом». Обзор книги

Публикации

Информация