Как стать автором
Обновить

Kaggle titanic dataset. Анализ данных с помощью SQL запросов

Время на прочтение 28 мин
Количество просмотров 8.4K
Python *SQL *Машинное обучение *
Из песочницы

Не смотря на то, что Python был бы предпочтительным инструментом для исследовательского анализа, я хотел посмотреть, смогу ли я провести весь исследовательский анализ с помощью SQL-запросов. Моя цель - показать, насколько сильно может помочь SQL для рабочего процесса.

Хотя SQL имеет ограничения с визуализацией данных, всё равно, можно получить больше выгоды, быстро написав запросы и выведя результаты.

Читать далее
Всего голосов 5: ↑5 и ↓0 +5
Комментарии 0

HalvingSearch: ускорение поиска по сетке (grid search). Библиотека sklearn

Уровень сложности Средний
Время на прочтение 5 мин
Количество просмотров 2.3K
Машинное обучение *
Из песочницы
🤖 Сезон machine learning

Подбор гиперпараметров модели – одна из самых распространенных задач в data science. Если заранее неизвестно, какими могут быть оптимальные значения, приходится искать по сетке значений. Если у нас есть m гиперпараметров и для каждого задано n возможных значений, то число вариантов равно mn и для каждого нужно обучить модель и определить ее точность. Если мы используем перекрестную проверку (cross-validation), то это число надо умножить на число частей, на которые мы разбиваем набор данных.

Есть ряд алгоритмов оптимизации поиска, например байесовский – «осмысленный» поиск, при котором рассматриваются не все возможные сочетания гиперпараметров.

Относительно недавно sklearn был реализован еще один метод – halving search.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Комментарии 4