Очень сильный материал именно потому, что в нем нет попытки любой ценой “доказать победу RL” над классической оптимизацией. Показан куда более ценный результат — где у обучения с подкреплением сегодня проходят реальные практические границы. Особенно понравилось, что сравнение сделано не по внутренним метрикам обучения, а по отношению к нормальному оптимизационному baseline, и из-за этого выводы выглядят честными, а не маркетинговыми. Классно то, что статья хорошо демонстрирует важную вещь - в детерминированных задачах с прозрачными ограничениями RL пока чаще интересен не как замена солверу, а как потенциальный компонент гибридной схемы (типа warm start, выбора эвристик, быстрое приближенное решение). ИМХО, здорово, что показано, насколько сильно итог зависит не только от архитектуры сети, сколько от формулировки среды, reward и способа представления задачи!
Очень сильный материал именно потому, что в нем нет попытки любой ценой “доказать победу RL” над классической оптимизацией. Показан куда более ценный результат — где у обучения с подкреплением сегодня проходят реальные практические границы. Особенно понравилось, что сравнение сделано не по внутренним метрикам обучения, а по отношению к нормальному оптимизационному baseline, и из-за этого выводы выглядят честными, а не маркетинговыми. Классно то, что статья хорошо демонстрирует важную вещь - в детерминированных задачах с прозрачными ограничениями RL пока чаще интересен не как замена солверу, а как потенциальный компонент гибридной схемы (типа warm start, выбора эвристик, быстрое приближенное решение).
ИМХО, здорово, что показано, насколько сильно итог зависит не только от архитектуры сети, сколько от формулировки среды, reward и способа представления задачи!
Довольно хорошая статья от авторов SCIP
https://www.researchgate.net/publication/337127039_Presolve_Reductions_in_Mixed_Integer_Programming