MrNereof Apr 25 2019 at 15:59

Как я нейронку в «динозаврика» играть учил

2 min

6.2K

Data Mining*Browsers

From sandbox

Comments 31

VereVa Apr 25 2019 at 16:02

а где-нибудь код посмотреть можно?

loony_dev Apr 25 2019 at 16:06

Поддерживаю, было бы интересно посмотреть и самому поиграться.

deepblack Apr 25 2019 at 17:13

Болтовня ничего не стоит. Покажите мне код. © Линус Торвальдс

MrNereof Apr 26 2019 at 20:11

Спасибо за интерес! Вряд ли в одном комментарии можно описать весь код, как по мне, лучше написать 2 часть статьи. Если будет свободное время и если это кому-то будет интересно, то я постараюсь написать более подробно.

gasizdat Apr 25 2019 at 16:10

ГА никаким боком к нейроалгоритмам не относятся.

usdglander Apr 25 2019 at 16:45

Это один из методов настройки весов.

tchspprt Apr 25 2019 at 18:09

Тем не менее это не нейроалгоритм. Максимум — один из алгоритмов для машинного обучения. Без критики к самому методу ГА, он очень крутой (либо я обыватель, что более вероятно).

usdglander Apr 25 2019 at 18:12

Ну если так рассуждать, то тогда "нейроалгоритм" — это матричное умножение.

barkalov Apr 25 2019 at 18:48

Как по мне, «нейроалгоритм» это, как минимум, backpropagation (в том или ином виде).

Иначе и random-guess-on-each-epoch можно за способ настройки весов принять…

kuza2000 Apr 26 2019 at 20:12

Как по мне, «нейроалгоритм» это, как минимум, backpropagation (в том или ином виде).

Backpropagation это лишь метод быстрого получения частных производных от функции ошибки по весам нейронной сети. Далее полученные производные используются для корректировки весов другими алгоритмами, например стохастическим градиентным спуском. Но, на самом деле, не только им, этих методов очень много…

Кстати, градиентный спуск — это он тогда «нейроалгоритм»? :))

gasizdat Apr 26 2019 at 09:17

Если так рассуждать, то конечно. Но тогда к НА относятся языки, на которых они реализуются, ЦП, на которых выполняются, прослойки между клавиатурой и креслом и т.п. вещи. Автор банально не разбирается в матчасти, заявляя, что «внутри у ней нейронка», не понимая, что кросинговер, мутации и отбор по фитнесс-функции — это имитация «генетики» и «естественного отбора», а не обучения с подкреплением и нейропластичности.

stalker1984 Apr 25 2019 at 16:43

Y==Z?

MrNereof Apr 26 2019 at 20:12

Нет, Z, как показано, отражает дистанцию (красная линия), а X — это высота (зелёная линия).

j8kin Apr 25 2019 at 17:04

А что под капотом? Как управляли? webDriver ом?
Я тоже думал об этом во время отсутствия интернета)))), но мне виделось, что это можно реализовать без стратегии просто анализом того, что есть на экране.

old_bear Apr 25 2019 at 17:04

Я, конечно, сильно извиняюсь, но статья получилась вида: «нарисовать сову очень просто — сначала рисуем два кружочка, а потом дорисовываем остальную сову».
А, я понял. Это банальная попытка раскрутки своего канала на youtube. Картинка из одной статьи с Вики, ссылка на другую статью, минимальный набор пустого текста, и в конце ссылка на свой канал. Бяка, в общем.
Плохо, что такие пустышки стали на Хабр пролезать. Надеюсь, что вас отправят в хабро-яму за использование сайта в рекламных целях.

loony_dev Apr 25 2019 at 17:09

Из-за новой политики Хабра в отношение статьей и контента, качество контента, как по мне, сильно пострадало. Может я просто раньше не столько времени сидел на хабре, но сейчас в тред попадают откровенное «пустые» или даже «рекламные» статьи.

Exosphere Apr 25 2019 at 19:56

Добрый день! Сообщите, пожалуйста, что именно в статье вам кажется рекламой?

old_bear Apr 26 2019 at 02:17

Добрый.
Мне показалось, что я достаточно подробно изложил свою точку зрения в своём предыдущем комментарии. Фактически, единственным уникальным содержанием статьи является ссылка на канал youtube. Ну и ещё пара кадров, предположительно из единственного видео на этом канале.

MrNereof Apr 26 2019 at 20:13

Спасибо за ваше мнение! Статью я не старался сделать рекламной, но видно вам кажется иначе. В следующие разы постараюсь писать более насыщенный текст.

QtRoS Apr 28 2019 at 23:07

А я подумал, что интернет включили и на этом все оборвалось…
А ведь вкладка провисела несколько дней в очереди на чтение в надежде увидеть что-то интересное.

vyo Apr 25 2019 at 18:31

Показалось, что где-то видел, полез искать. Нашлось это (за авторством code bullet):

видео

Pochemuk Apr 25 2019 at 20:51

Показалось, что где-то видел, полез искать. Нашлось это ...

А тут симпатичнее:

vyo Apr 25 2019 at 22:34

Забавно, только это не динозаврик :-)

MrNereof Apr 26 2019 at 20:16

Спасибо, я это видео видел. Но меня вдохновила другая работа.

MrNereof Apr 26 2019 at 20:14

Здорово! Спасибо за наводку.

MrNereof Apr 26 2019 at 20:14

Alex_ME Apr 25 2019 at 21:19

В чем преимущества использование ГА в этой задаче перед специальными методами для Deep Reinforcement Leqrning? Q-learning, Policy Gradients и еще over9000 ~~появляющихся постоянно хитрых методов, которые я не знаю~~? Хотя здесь, думаю, хватило бы и Q-Learning.

MrNereof Apr 26 2019 at 20:33

С этим трудно поспорить, да и незачем… Ведь в этом вы правы. Просто на момент создания я был заинтересован в создании ГА. А так Q-Learning подойдёт лучше.

kuza2000 Apr 26 2019 at 01:21

Принцип работы нашей программы (как мы уже говорили) основаны на машинном «обучение с подкреплением». Описать принцип работы я постараюсь в нескольких словах:

В каждом поколении выбираются несколько лучших представителей. На их основе создаётся новое. На основе различного «веса» нейронных связей и входной информации (дистанция до преграды, и её высота) принимается решение о действие конкретного представителя вида.

Да уж… :))) Посмеялся :) срочно уберите в черновики ЭТО, пока живы :)))

MrNereof Apr 26 2019 at 20:16

Можете подробней описать, что вам не понравилось в данном куске текста? Заранее спасибо за помощь в улучшение моей первой статьи!

kuza2000 Apr 27 2019 at 04:47

Хорошо. Напишу :)
Во первых, это не просто «кусок текста», а отрывок Вашей стати. Про свою статью я не напишу «кусок текста». Все же надо писать не «куски текста», а делиться чем-то, что может быть интересно и другим.

Насчет этого отрывка. Если честно, я с ходу влепил минус статье и в карму минус тоже. Вообще, думал, что заминусуют жестко и сразу, но Вы, похоже, подкупаете всех какой-то наивностью что ли :)
По этому отрывку. Что бы писать слова «основаны на машинном <обучение с подкреплением>», стоит хотя бы немного ознакомится с темой, что значат эти слова. На самом деле, это невероятно крутая вещь, с которой довольно много кто играется, но результаты довольно противоречивы. Если начнете вникать в тему, поймете о чем я. Для начала рекомендую прочесть азы, это «Саттон Ричард С., Барто Эндрю Г. Обучение с подкреплением».

В общем и целом, обучение с подкреплением не связано с нейронными сетями, с генетическими алгоритмами тоже. В классическом виде оно строится на таблице. Но нейронную сеть «прикрутить» можно, что несколько лет назад доказали ребята, достигнув очень много удивительных результатов. Оказалось, что можно прикрутить сверточные сети, подав изображения с экрана аркадной игры (atari), и алгоритм учится, и начинает играть очень неплохо. Проводились хакатоны, даже в Физтехе (https://habr.com/ru/post/264871/). Конечно, в «контуре обучения» с подкреплением были не только сверточные сети, на эту тему было написано немало научных публикаций.
Сам я тоже экспериментировал и с табличным Q-лернингом, и с использованием нейросетей, и со многим другим тоже.

По статье. Тут, на хабре, народ, которому нужна конкретика. Это по телевизору можно рассказать про летающих дракончиков. А тут нужен реальный программный код, что бы каждый мог взять и запустить дракончика сам. Посмотреть, как летает, (поговорить с ним :), изменить код и улучшить результаты :)

Минус в карму сменил на плюс, к сожалению, ноль сайт не позволяет сделать. Надеюсь, следующая статья будет лучше :)

Кстати, генетические алгоритмы мне очень нравятся, возможно, я скоро о них напишу статью)

Show the best of all time