Комментарии / Профиль belyalova / Хабр

Мария Белялова @belyalova

Data Scientist

Копнём поглубже: сравниваем популярные алгоритмы оптимизации с менее известными

belyalova 26 июл 2021 в 07:48

Я отпишусь вам, когда мы выложим код. Скорее всего, это случится, когда мы выложим вторую часть этой статьи и код для нее.

Посмотреть

Копнём поглубже: сравниваем популярные алгоритмы оптимизации с менее известными

belyalova 21 июл 2021 в 11:29

Спасибо за замечание! Для данных в таблице с расстояниями (по ней же строилась таблица с группами) усредняли по 10 заходов, но все они стартовали из одной точки. Учтём.

Посмотреть

Копнём поглубже: сравниваем популярные алгоритмы оптимизации с менее известными

belyalova 21 июл 2021 в 11:19

Задача классификации цифр на MNIST существенно проще чем задачи, которые встречаются в реальной практике. Этот датасет сам по себе простой и очень распространённый. Именно из-за этого исследователи используют его в качестве бенчмарка. Мы тоже решили сначала провести эксперименты на нем, а уже потом на реальной задаче. Для подобных задач существует термин toy task. В компьютерном зрении это классификация на MNIST или, к примеру, на Fashion MNIST. Для классического ML тоже есть игрушечные датасеты.
По поводу кода — для этой части статьи мы не стали его выкладывать, так как он не сильно отличается от кода, ссылку на который я привела в тексте. Отличие в том, что я добавила туда алгоритмы из torch.optim, поигралась с сеткой для learning rate, и вывела на графики дополнительную информацию. Эту часть можно рассматривать как вступление ко следующим, мы оформили ее в отдельную статью для того, чтобы не нагружать читателей сразу большим количеством информации. Мы выложим код для экспериментов из следующих частей.

Посмотреть

Копнём поглубже: сравниваем популярные алгоритмы оптимизации с менее известными

belyalova 21 июл 2021 в 10:40

Мы уже провели эксперименты для следующих статей, один на MNIST, другой для мультилейбловой классификации реальных изображений. Даже для MNIST они очень затратны по времени — нужно с каждым оптимайзером обучить модельку с разными размерами батча и с разными learning rate, то есть, если у нас есть 39 оптимайзеров, 5 размеров батча и 4 learning rate, то это уже 780 экспериментов. Помимо этого, мы еще пробовали разные расписания для learning rate. Когда выйдет следующая статья, мы выложим код, который прогоняет все эксперименты для неё. Если у вас будет время и желание, можете использовать его для экспериментов, на которые вам интересно посмотреть:)

Посмотреть