katherins 5 мар 2019 в 14:23

«Анализ данных на Python» в двух частях

5 мин

57K

Блог компании Образовательные проекты JetBrainsData Mining*

Курсы по анализу данных в CS центре читает Вадим Леонардович Аббакумов — кандидат физ.-мат. наук, он работает главным экспертом-аналитиком в компании Газпромнефть-Альтернативное топливо.

Лекции предназначены для двух категорий слушателей. Первая — начинающие аналитики, которым сложно начинать с изучения, например, книги The Elements of Statistical Learning. Курс подготовит их к дальнейшей работе. Вторая — опытные аналитики, не получившие систематического образования в области анализа данных. Они могут заполнить пробелы в знаниях. С прошлого года на занятиях используется язык программирования Python.

Чтобы понимать материал, достаточно когда-то прослушанных курсов математического анализа, линейной алгебры и теории вероятностей и базовых знаний языка Python.

Приятного просмотра!

Часть 1

1. Описательные статистики. Квантили, квартили. Гистограммы. Ядерные оценки плотности.

2. Описательные статистики. Ящики с усами. Выбросы. Медиана и среднее арифметическое как типичные наблюдения. Диаграмма рассеивания. Матрица диаграмм рассеивания.
Столбиковая и круговая диаграмма.

3. Иерархический кластерный анализ. Кластер, расстояния между объектами, расстояния между кластерами. Алгоритм построения дендрограммы. Каменистая осыпь/локоть. Стандартизация данных. Типичные ошибки при подготовке данных. Интрепретация результатов.

4. Метод к-средних. Примеры (теоретическая часть лекции пропущена).

5. Проверка статистических гипотез (теоретическое введение).

Гипотезы согласия, однородности, независимости, гипотезы о параметрах распределения.
Ошибки первого и второго рода, р-значение и уровень значимости, алгоритм проверки статистической гипотезы и интерпретация результатов. Гипотеза о нормальности распределения. Критерии Шапиро-Уилка и Колмогорова-Смирнова. Несущественные отклонения от нормальности. Сравнение выборок. Независимые и парные выборки. Выбор между t-критерием Стъюдента, критерием Манна-Уитни-Вилкоксона и критерием Муда. Разновидности t-критериев Стъюдента и сравнение дисперсий. Визуализация при сравнениях. Односторонние и двусторонние тесты.
Независимость. Коэффициенты корреляции Пирсона, Кендалла и Спирмена, типичные ошибки при изучении связи между двумя явлениями. Визуальная проверка выводов.

6. Проверка статистических гипотез (процедуры Python).

Критерий Шапиро-Уилка. Критерий Манна-Уитни-Вилкоксона. t-критерий Стъюдента. Критерий Флигнера-Килина.

Независимые и парные выборки. Критерий хи-квадрат. Критерий Пирсона.

7. A/B тестирование. Тест для пропорций.

8. Линейный регрессионный анализ. Модель, интерпретация оценок коэффициентов, множественный коэффициент детерминации. Интерпретация множественного коэффициента детерминации, ограничения на область его применения. Выявление наиболее значимых предикторов и оценка вклада каждого предиктора. Алгоритмы корректировки построенных моделей. Коллинеарность.

9. Прогнозирование на основе регрессионной модели с сезонными индикаторными (фиктивными, структурными) переменными. Тренд, сезонные составляющие, смена характера ряда, выбросы. Логарифмирование – прием для преобразования мультипликативной сезонности в аддитивную.
Индикаторные переменные. Переобучение.
Случай нескольких сезонных составляющих.

10. Распознавание образов/классификация.
Параметры модели, внутренние и внешние.
Критерии качества. Обучающая и тестовая выборки.
Деревья классификации CART. Геометрическое представление. Представление в виде набора логических правил. Представление в виде дерева. Узлы, родители и потомки, конечные узлы. Пороговые значения. Меры чистота узла (impurity measures): джини, энтропия, ошибки классификации. Правила останоки обучения дерева. Информативность переменных.
Деревья классификации в задачах регрессии.

11. Случайные леса. Bagging. Ключевые параметры модели. Out-of-bag error. Информативность переменных. Анализ несбалансированных выборок. Определение числа деревьев.

12. Boosting. Gradient boosting machine. Ключевые параметры модели.

Часть 2

1. Модель нейрона. Активационная функция. Сети прямого распространения (FeedForward Neural Network). Архитектура нейронной сети. Коннективизм (connectionism).

2. Обучение нейронной сети. Обратное распространение ошибки. Метод скорейшего спуска (Gradient descent) и его обобщения. Эпохи и batch'и. Введение в Keras и TensorFlow. Инициализация весов нейронной сети. Стандартизация данных предотвращает насыщение. Обучение нейронной сети прямого распространения. Оптимизация (optimizers)в Keras. Формулы для поправок весов при обучении нейронной сети. Пример обучения нейронной сети.

3. Пример обучения нейронной сети. Критерии качества в Keras. Инициализация весов нейронной сети в Keras.

4. Нейронные сети для прогнозирования. Сведение задачи прогнозирования к регрессионной задаче. Прогнозирование рядов с сезонной составляющей.

5. Распознавание изображений. Каскад Хаара для выделения лица на картинке.
Свертки. Сверточные слои (convolution layer). Padding. Stride. Pooling.
Dropout и декорреляция. Дообучение нейронных сетей. Пример: распознавание рукописных цифр, 1-е решение.

6. Пример: распознавание рукописных цифр, 2-е решение. Augmentaiton. VGG-16 архитектура нейронной сети. Регуляризация, ее назначение. Регуляризация в линейном регрессионном анализе. Нормальные уравнения линейного регрессионного анализа. Добавление регуляризационного слагаемого в нормальные уравнения. Особая роль свободного члена. Пример: аппроксимация точек многочленом. Выборка валидации. Варианты регуляризационного слагаемого (ridge regression, lasso, elastic net). Почему Lasso позволяет сократить число предикторов.

7. Теоретическое обоснование метода. Пример решения задачи в Python с использованием XGboost. Несбалансированные выборки. Precision, Recall, F1. Информативность переменных (Importance). Подбор параметров в XGboost.

8. Подбор параметров в XGboost. GridSearch для подбора параметров. Факторный анализ. Задачи, решаемые с помощью факторного анализа.

9. Математические модели анализа главных компонент и факторного анализа. Интерпретация факторов. Пример проведения факторного анализа в Python. Факторные нагрузки, факторные метки, их интерпретация. Вращения факторов.

10. Пример проведения факторного анализа в Python.
Математические модель SVD разложения. SVD разложение и анализ главных компонент. SVD разложение как основа латентно — семантического анализа (LSA). SVD разложение матрицы данных, содержащей пропуски. Метод Simon'a Funk'a Регуляризация в методе Simon'a Funk'a. SVD разложение при построении рекомендательной системы.

11. Особенности применения SVD разложения (Singular Value Decomposition) для данных с большим числом пропусков. Калибровка классификаторов. Изотоническая регрессия (isotonic regression). Калибровка Платта (Platt calibration).

12. Анализ несбалансированных выборок. Accuracy, precision, recall, F1. ROC кривая (ROC curve) для определения порогового значения. ROC кривая (ROC curve) для сравнения классификаторов. Area under curve (AUC). Логистическая регрессия (Logistic regression)

Теги:

Хабы:

«Анализ данных на Python» в двух частях

Часть 1

Часть 2

Публикации

Информация

Истории