Я привёл IRL для примера того, что RL не всегда предпологает только использование данных среды. В данном случае reward function восстанавливать нам не нужно, да.
Что касается ускорения обучения, то я очень сомневаюсь, что в данном случае исследование поведения людей вам что-то даст.
Ну вот и посмотрим =) С первым и вторым, четвёртым пунктами согласен. Не понял, при чём тут третий.
Reinforcement learning разный бывает. Есть даже Inverse Reinforcement Learning, где имея данные о том, как вёл себя человек, мы должны восстановить reward function.
Что касается нашего случая, то мы собираемся проверить, насколько использование данных о поведении людей в exploration фазе, позволит ускорить обучение.
Добавить больше игр не проблема, только тогда данных по каждой игре будет меньше, и это плохо скажется на обучении. Если наберём много данных, то добавить еще игру дополнительно — дело одного часа.
Ужасно стало то, что на экране блокировки теперь нет значков уведомлений. То есть, если я включаю телефон, появляется экран блокировки, на нём не видно, прислали мне письмо или нет. А вот после разблокировки значки уведомлений сверху появляются. (xperia z3 compact)
Сейчас пишу диплом, целью которого является разделение большого выравнивания на небольшие кластеры, которые более пригодны для анализа, чем полное выравнивание. Выложу код в открытый доступ после защиты. Если интересно, можем поговорить на эту тему.
Случилось то, чего я боялся. Раньше, в меню быстрого доступа подержав палец на иконке «wifi» можно было открыть список доступных сетей. Теперь же нужно открыть настройки, потом wifi, а потом выбрать доступную сеть. Неудобно.
Меню всех вкладок хрома с наезжающей на всё кнопкой «закрыть всё» — это вообще какой-то вырвиглаз из 90-х.
Кнопка набора номера, отображающаяся поверх списка номеров — вообще издевательство. Если промахиваешься по ней, то начинаешь звонить другому человеку. Раньше, когда она была на нижней панели, промах открывал лишь другую вкладку меню, теперь телефон ведет себя неадекватно.
Курячий крут, прошёл его курс в этом семестре. Единственное, что не понравилось. Когда edjudge говорит, что мой код не проходит по времени выполнения, то непонятно к чему стремиться. Он не проходит в несколько раз, или просто не хватает пары миллисекунд. Отсюда больше попыток и общий результат хуже. Было бы здорово показывать за сколько выполняется каждый тест на эталонной программе и за сколько выполняется твой код.
Ну вот и посмотрим =) С первым и вторым, четвёртым пунктами согласен. Не понял, при чём тут третий.
Что касается нашего случая, то мы собираемся проверить, насколько использование данных о поведении людей в exploration фазе, позволит ускорить обучение.
Это баг или так и задумано?
Меню всех вкладок хрома с наезжающей на всё кнопкой «закрыть всё» — это вообще какой-то вырвиглаз из 90-х.
Кнопка набора номера, отображающаяся поверх списка номеров — вообще издевательство. Если промахиваешься по ней, то начинаешь звонить другому человеку. Раньше, когда она была на нижней панели, промах открывал лишь другую вкладку меню, теперь телефон ведет себя неадекватно.