Comments / Profile of sim0nsays / Habr

Семен Козлов @sim0nsays

Пользователь

ProfileArticles19PostsNewsComments218

MCMC-сэмплинг для тех, кто учился, но ничего не понял

sim0nsays Mar 21 2016 at 16:33

Спасибо за подробный ответ!
Хочу прояснить два момента

В приведенных примерах есть какие-то данные до и после измерения (предшествующие рейтинги кандидатов, броски монетки итд). Но что делать, когда более ранних данных вообще нет? Вот только сейчас мы вообще получили нового кандидата, про которого ничего не знаем. Или начали сэмплировать новое распределение, которого раньше не видели (так что даже не знаем, в каком диапазоне может быть скажем среднее). Откуда берется интуиция в этом случае?
Был сделан вывод, что в качестве prior для theta может подойти распределение, которое похоже на распределение случайного процесса с параметром theta. Вот здесь тонкий момент — то что есть некое распределение, у которого есть параметр, формально не дает права утверждать, что значение параметра распределено похожим образом. Или в этом и заключается стандартный баейсовский переход? Я не чтобы спорить, а чтобы понять.

Look

Deep Reinforcement Learning (или за что купили DeepMind)

sim0nsays Mar 21 2016 at 15:18

Чем игра сложнее, тем хуже все это работает. Для игры должно быть достаточно исключительно состояния экрана и она должна играться на рефлексах.
Но вот новая версия алгоритма уже в 3d что-то делает: https://www.newscientist.com/article/2076552-google-deepmind-ai-navigates-a-doom-like-3d-maze-just-by-looking/

Это замечательно, что у нас столько прекрасных тренажеров есть :)

Look

Deep Reinforcement Learning (или за что купили DeepMind)

sim0nsays Mar 21 2016 at 15:16

Unless вы про него что-то знаете, чего нет в видео на youtube, сложность и масштаб достижений не сравнимы.
Во-первых, в MarI/O есть код, который распознает экран в уже готовый грид объектов — стен, монстров, итд, что принципиально облегчает задачу обучения из пикселей.
Во-вторых, Марио детерминирован, поэтому сетка в MarI/O, насколько я понимаю, учит прежде всего уровень, а не игру вообще. Если уровни делать случайно, она ничему не научится.
Собственно, это в каком-то виде понятно, сравнив количество нодов и нейронов в нейросетях. Десятки против сотен тысяч, кажется.

Look

Deep Reinforcement Learning (или за что купили DeepMind)

sim0nsays Mar 21 2016 at 15:13

Да, аналогия с рефлексами — по-моему, хорошая.

Look

MCMC-сэмплинг для тех, кто учился, но ничего не понял

sim0nsays Mar 20 2016 at 17:57

И вопрос немного в сторону — а как вообще не практике выбирают prior distribution для параметров, т.е. распределение до того как мы вообще хоть какие-то данные видели? В статье так весело сказали, что мол возьмем для мю нормальное с центром в нуле и с неким std, но разве это не означает уже некоторое откуда-то взявшееся предположение?
Какие распределения используют для prior на практике и почему?

Look

MCMC-сэмплинг для тех, кто учился, но ничего не понял

sim0nsays Mar 20 2016 at 17:32

Спасибо за пост, прочитал и кажется что-то понял про MCMC!
Небольшой вопрос — выглядит, что начальная точка может сбить сэмплинг posterior distribution, если она далека от его центра. В посте немного говорится о выборе proposal width, но ведь и начальную точку надо где-то выбирать. Или типа на практике где значение по умолчанию довольно очевидно?

Look

MCMC-сэмплинг для тех, кто учился, но ничего не понял

sim0nsays Mar 19 2016 at 18:37

Ах, нетривиально! Спасибо!

Look

MCMC-сэмплинг для тех, кто учился, но ничего не понял

sim0nsays Mar 19 2016 at 18:09

Стесняюсь спросить, а где ссылка на оригинал?

Look

AlphaGo на пальцах

sim0nsays Mar 15 2016 at 02:36

Мне кажется там one-off encoding на все, поэтому это всего на 8 ходов :)

Look

AlphaGo на пальцах

sim0nsays Mar 13 2016 at 19:11

Ага, было известно что у них только онлайн-матчи в изначальной выборке для тренировки, но я как-то думал, профессионалы в онлайне тоже играют

Look

AlphaGo на пальцах

sim0nsays Mar 13 2016 at 07:41

Привет :)

Только сразу заводит в правильный кружок.

Look

Учимся у машинного обучения (субботнее, философское)

sim0nsays Mar 12 2016 at 19:48

Есть такой анекдот про Джеффри Хинтона:
Приходит Хинтон вечером домой и с порога говорит — "Наконец-то! Я понял, как на самом деле работает мозг!"
Дочка — "Папа, опять?"

Look

AlphaGo на пальцах

sim0nsays Mar 12 2016 at 17:31

Кто бы сомневался! Мы, кстати на http://closedcircles.com смотрим каждую игру в чате, сочувствующие — присоединяйтесь.
Вот инвайт

Look

AlphaGo на пальцах

sim0nsays Mar 12 2016 at 17:25

Им нужна обучающая выборка как можно больше, поэтому они просто берут все игры, до которых могут дотянуться.

Look

AlphaGo на пальцах

sim0nsays Mar 12 2016 at 05:34

Очень странная разметка у тебя :)
Насколько я понимаю, про успехи тотального reinforcement learning ничего не понятно. Демис из Deepmind только несколько раз упоминал, что прикольно было бы сделать без бутстрапа с человеческими партиями (он описан в Шаге 1 в этом посте).

Выбирать оптимальные гиперпараметры (это не только параметры сети, их в любом процессе много) — это отдельная специальная наука. Наиболее перспективны на сейчас — так называемые Gaussian Processes. Грозятся, что с некоторыми допущениями получается гарантировать близость к глобальному оптимуму за некоторое число шагов. Я статьи сам еще не прочитал, прочитаю — доложусь.

Look

AlphaGo на пальцах

sim0nsays Mar 12 2016 at 04:06

Кстати, в продолжение разговора —

Distributed version is only ~75% win rate against single machine version! Using distributed for match but single machine AG very strong also
https://twitter.com/demishassabis/status/708489093676568576

Даже на одной машине с ней могут соревноваться не больше 100 человек в мире поди

Look

AlphaGo на пальцах

sim0nsays Mar 12 2016 at 00:44

И даже в этом направлении идёт прогресс, следите за публикациями!

Look

AlphaGo на пальцах

sim0nsays Mar 11 2016 at 23:37

В каком переводе?.. То что у меня — это скорее вольное изложение :)

Про время — это что AlphaGo нужно принимать решение, сколько дозволенного времени тратить на ход. В статье про это было написано очень расплывчато, а потом Demis Hassabis в каком-то интервью сказал, что они обучили для этого какую-то модель

Look

AlphaGo на пальцах

sim0nsays Mar 11 2016 at 23:34

О, про это есть немного информации в статье. Проход по дереву выполняется всего на одной машине, кластер из 280 GPUs и 1500 чтоли CPU занимается исключительно вычислением policy и value networks + rollouts для новых годов дерева. Т.е. основная нагрузка перебора — это именно нейросети. Если бы они сужали перебор лучше, нужно было бы меньше перебирать.

Про второе — ну да, будет играть неплохо даже просто с SL-policy, но Lee Sedol не выиграет :)

Look

AlphaGo на пальцах

sim0nsays Mar 11 2016 at 22:10

Второе, кстати, прямое следствие выбранного алгоритма — так как все метрики оперируют бинарным reward (победил или нет), то максимальным score будет обладать ветка, которая максимизирует именно это, а не margin.
Вообще говоря, можно натренировать версию, которая будет стремиться именно подавлять оппонента разгромным счетом :)

Look

1 2 ...

5 6

8 9 10 11