Pull to refresh
8
0
Роман Вишневский @rvishnevsky

Пользователь

Send message

Helena.4.0 – новый алгоритм для подбора гиперпараметров

Level of difficultyMedium
Reading time6 min
Views9.4K

С целью автоматизации процесса подбора гиперпараметров автором данной статьи разработан алгоритм Helena.4.0. Конечной целью является создание автоматической системы построения моделей (auto-ML), которая бы подбирала гиперпараметры за минимальное время.

С помощью алгоритма Helena.4.0 можно подбирать гиперпараметры для моделей градиентного бустинга, нейросетей, и более того – для генетических алгоритмов. Автор считает, что алгоритмы Helena могут заменить в генетических алгоритмах генеративную часть – т.е. уйти от биологических аналогий, заменив псевдобиологическую генерацию признаков путем процедур «скрещивания» и «мутаций» на генерацию с помощью указанных алгоритмов.

Для поиска максимума функции алгоритм Helena.4.0 использует только ее значения, и  не используют первые и последующие производные. Таким образом, этот алгоритм не требуют ни дифференцируемости, ни непрерывности максимизируемой функции.

Сравнение алгоритма Helena.4.0 с наиболее популярными конкурентами (Optuna, HyperOpt, RandomSearch) показывает его высокую конкурентоспособность.

В отличие от других алгоритмов, не использующих градиент для максимизации функции, алгоритмов Helena.4.0 способен успешно противостоять комбинаторному взрыву. Т.е. алгоритм Helena.4.0 достаточно стабильно работает, несмотря на увеличение размерности пространства. Время, необходимое алгоритму Helena.4.0 для поиска максимума функции, оценивается как квадратичная функция от размерности пространства.

Ниже в статье приведено подробное описание алгоритма Helena.4.0 и результаты сравнительных тестов с алгоритмами-конкурентами.

Читать далее
Total votes 13: ↑10 and ↓3+11
Comments17

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 3

Level of difficultyEasy
Reading time10 min
Views1.2K

В предыдущей части вы узнали, что качество модели Data Science в первую очередь зависит от исходных данных: растет, если у вас больше исходных переменных и уровней градации каждой из них, более равномерно распределены значения каждой из переменных; если у вас меньше пропущенных значений и они менее скоррелированы друг с другом. И наконец, если ваша модель распознает события из прошлого, а не предсказывает будущее.

В третьей, заключительной части статьи я дам ответы по рисункам из предыдущей части. И для дата-сайентистов приведу общий код Python, который использовался для получения всех представленных ниже изображений.

Читать далее
Total votes 1: ↑1 and ↓0+1
Comments0

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 2

Level of difficultyEasy
Reading time11 min
Views2.2K

В первой части статьи я остановился на проблемах дата-сайентистов и на моделях, а в конце показал пары картинок, где нужно было отличить кошку от собаки. В этой части я приведу ответы и расскажу, что и в какой степени влияет на качество моделей. А также для дата-сайентистов приведу код Python, который был использован для получения картинок в задании. Все исходные изображения, использованные в статье, взяты из бесплатных фотостоков.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments7

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 1

Level of difficultyEasy
Reading time6 min
Views3.5K

Этот материал начинает серию из трех постов о том, как объяснить проблемы дата-сайентистов сотрудникам вашей компании, которые ничего не понимают в data science. В первой части я доступно расскажу о нынешнем положении специалистов, их проблемах и типичных запросах, с которыми они сталкиваются.

Читать далее
Total votes 9: ↑7 and ↓2+8
Comments29

Градиентный бустинг: как подобрать гиперпараметры модели в 5 раз быстрее, чем обычно?

Level of difficultyHard
Reading time36 min
Views4.8K

В этой статье я расскажу, как, используя недокументированные возможности фреймворка Apache Spark, качественно подобрать гиперпараметры для модели градиентного бустинга всего за один человеко-день вместо обычных пяти.

Читать далее
Total votes 4: ↑4 and ↓0+4
Comments4

Борьба с Covid-2019: наступает Великий перелом

Reading time4 min
Views8.7K

Часть 1. Сколько же людей убьет коронавирус?


С момента написания моей первой статьи о прогнозировании эпидемии коронавируса прошло чуть больше недели, но многое изменилось.

В первую очередь, произошел перелом в динамике мировой эпидемии: кривая новых смертей в достигла своего пика. Это значит, что завершен первый период мировой эпидемии, когда каждый день количество новых смертей росло почти экспоненциально.

Еще неделю назад я бы обрадованно заявил, что теперь эпидемия также быстро пойдет на спад. Но новые данные, накопленные за последнюю неделю, развеяли этот оптимизм. Действительно, в некоторых странах (таких как Китай, и, возможно, Германия), развитие эпидемии описывается логистической кривой. Но другие страны меня разочаровали.

Свежий прогноз числа жертв эпидемии и красивые картинки под катом.
Читать дальше →
Total votes 39: ↑7 and ↓32-19
Comments41

Коронавирус: мы все умрём?

Reading time17 min
Views55K
Что мы говорим Богу смерти? — Не сегодня.
Сирио Форель, сериал «Игра престолов».


Насколько действительно опасен коронавирус COVID-19? Сколько людей умрёт от коронавируса в мире? А сколько – в России? Так ли необходимы жесткие меры, принимаемые для борьбы с коронавирусом в большинстве стран мира? Что принесет больше ущерба: смерть людей от коронавируса или падение экономики, вызванное ограничительными мерами?

Чтобы ответить на эти актуальные вопросы, необходимо провести математическое моделирование и спрогнозировать ущерб от коронавируса для отдельных стран и для мира в целом. Построению таких прогнозов посвящена данная статья.

Чтобы сделать материал доступным для всех читателей, в начале статьи мы сконцентрируемся на качественном анализе, и красивых картинках. А в самом конце для интересующихся приведем исходный код для расчетов, выполненных на языке Python.
Читать дальше →
Total votes 142: ↑93 and ↓49+77
Comments601

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity