Итак, пока наши новые повелители отдыхают, давайте я попробую рассказать как работает AlphaGo. Пост подразумевает некоторое знакомство читателя с предметом — нужно знать, чем отличается Fan Hui от Lee Sedol, и поверхностно представлять, как работают нейросети.
Языковая проблема искусственного интеллекта
Translation
Тема языковой проблемы искусственного интеллекта широко раскрывается в статье Уилла Найта, главного редактора AI MIT Technology Review, которую специалисты PayOnline, системы автоматизации приема онлайн-платежей, старательно перевели для пользователей Хабрахабра. Ниже представляем сам перевод.
Примерно в середине крайне напряженной игры в Го, проходившей в южнокорейском Сеуле, участниками которой были один из лучших игроков всех времен Ли Седоль и созданный Google искусственный интеллект под названием AlphaGo, программа сделала загадочный шаг, продемонстрировавший пугающее преимущество над своим человеческим оппонентом.
Ограничения глубинного обучения и будущее
Translation

Статья рассчитана на людей, у которых уже есть значительный опыт работы с глубинным обучением (например, тех, кто уже прочитал главы 1-8 этой книги). Предполагается наличие большого количества знаний.
Ограничения глубинного обучения
Глубинное обучение: геометрический вид
Самая удивительная вещь в глубинном обучении — то, насколько оно простое. Десять лет назад никто не мог представить, каких потрясающих результатов мы достигнем в проблемах машинного восприятия, используя простые параметрические модели, обученные с градиентным спуском. Теперь выходит, что нужны всего лишь достаточно большие параметрические модели, обученные на достаточно большом количестве образцов. Как сказал однажды Фейнман о Вселенной: «Она не сложная, её просто много».
AlphaGo Zero совсем на пальцах
Завтра искусственный интеллект поработит Землю и станет использовать человеков в качестве смешных батареек, поддерживающих функционирование его систем, а сегодня мы запасаемся попкорном и смотрим, с чего он начинает.
19 октября 2017 года команда Deepmind опубликовала в Nature статью, краткая суть которой сводится к тому, что их новая модель AlphaGo Zero не только разгромно обыгрывает прошлые версии сети, но ещё и не требует никакого человеческого участия в процессе тренировки. Естественно, это заявление произвело в AI-коммьюнити эффект разорвавшейся бомбы, и всем тут же стало интересно, за счёт чего удалось добиться такого успеха.
По мотивам материалов, находящихся в открытом доступе, Семён sim0nsays записал отличный стрим:
А для тех, кому проще два раза прочитать, чем один раз увидеть, я сейчас попробую объяснить всё это буквами.
Сразу хочу отметить, что стрим и статья собирались в значительной степени по мотивам дискуссий на closedcircles.com, отсюда и спектр рассмотренных вопросов, и специфическая манера повествования.
Ну, поехали.
19 октября 2017 года команда Deepmind опубликовала в Nature статью, краткая суть которой сводится к тому, что их новая модель AlphaGo Zero не только разгромно обыгрывает прошлые версии сети, но ещё и не требует никакого человеческого участия в процессе тренировки. Естественно, это заявление произвело в AI-коммьюнити эффект разорвавшейся бомбы, и всем тут же стало интересно, за счёт чего удалось добиться такого успеха.
По мотивам материалов, находящихся в открытом доступе, Семён sim0nsays записал отличный стрим:
А для тех, кому проще два раза прочитать, чем один раз увидеть, я сейчас попробую объяснить всё это буквами.
Сразу хочу отметить, что стрим и статья собирались в значительной степени по мотивам дискуссий на closedcircles.com, отсюда и спектр рассмотренных вопросов, и специфическая манера повествования.
Ну, поехали.
Глубинное обучение с подкреплением пока не работает
Translation
Об авторе. Алекс Ирпан — разработчик из группы Brain Robotics в Google, до этого работал в лаборатории Berkeley Artificial Intelligence Research (BAIR).
Здесь в основном цитируются статьи из Беркли, Google Brain, DeepMind и OpenAI за последние несколько лет, потому что их работы наиболее заметны с моей точки зрения. Почти наверняка я что-то упустил из более старой литературы и от других организаций, так что прошу прощения — я всего лишь один человек, в конце концов.

Однажды в Facebook я заявил следующее.
К сожалению, в реальности эта штука пока не работает.
Но я верю, что она выстрелит. Если бы не верил, то не варился бы в этой теме. Но впереди куча проблем, многие из которых фундаментально сложны. Прекрасные демки обученных агентов скрывают всю кровь, пот и слёзы, что пролились в процессе их создания.
Здесь в основном цитируются статьи из Беркли, Google Brain, DeepMind и OpenAI за последние несколько лет, потому что их работы наиболее заметны с моей точки зрения. Почти наверняка я что-то упустил из более старой литературы и от других организаций, так что прошу прощения — я всего лишь один человек, в конце концов.

Введение
Однажды в Facebook я заявил следующее.
Когда кто-то спрашивает, может ли обучение с подкреплением (RL) решить их проблему, я сразу отвечаю, что не может. Думаю, что это верно как минимум в 70% случаев.Глубинное обучение с подкреплением сопровождается массой шумихи. И на то есть хорошие причины! Обучение с подкреплением (RL) — невероятно общая парадигма. В принципе, надёжная и высокопроизводительная система RL должна быть прекрасна во всём. Слияние этой парадигмы с эмпирической силой глубинного обучения очевидно само по себе. Глубинное RL — это то, что больше всего похоже на сильный ИИ, и это своего рода мечта, которая подпитывает миллиарды долларов финансирования.
К сожалению, в реальности эта штука пока не работает.
Но я верю, что она выстрелит. Если бы не верил, то не варился бы в этой теме. Но впереди куча проблем, многие из которых фундаментально сложны. Прекрасные демки обученных агентов скрывают всю кровь, пот и слёзы, что пролились в процессе их создания.
Обучение с подкреплением никогда не работало
Translation
TL;DR: Обучение с подкреплением (RL) всегда было сложным. Не волнуйтесь, если стандартные техники глубинного обучения не срабатывают.
В статье Алекса Ирпана хорошо изложены многие современные проблемы глубинного RL. Но большинство из них не новые — они существовали всегда. На самом деле это фундаментальные проблемы, лежащие в основе RL с момента его создания.
В этой статье я надеюсь довести до вас две мысли:
В статье Алекса Ирпана хорошо изложены многие современные проблемы глубинного RL. Но большинство из них не новые — они существовали всегда. На самом деле это фундаментальные проблемы, лежащие в основе RL с момента его создания.
В этой статье я надеюсь довести до вас две мысли:
- Большинство недостатков, описанных Алексом, сводятся к двум основным проблемам RL.
- Нейросети помогают решить только малую часть проблем, одновременно создавая новые.
Примечание: статья ни в коем случае не опровергает претензии Алекса. Наоборот, я поддерживаю большинство его выводов и считаю, что исследователи должны более чётко объяснять существующие ограничения RL.
Искусственный интеллект впервые в мире победил профессионального игрока в го
Это был AlphaGo от компании Google
Подразделение DeepMind компании Google заявило о том, что искусственный интеллект компании смог победить европейского чемпиона по настольной игре го. Система AlphaGo обыграла человека в 5 из 5 игр. До этого го была одной из немногих логических игр, профессиональные игроки в которую выигрывали у компьютеров.
Чемпион мира по го после матча с AlphaGo больше никогда не будет играть с компьютером

Разбор полетов во время игры от профессионалов
В первой игре матча по го компьютерная система AlphaGo, разработанная сотрудниками DeepMind, победила сильнейшего в мире игрока в го Кэ Цзе. Чемпион из Китая ранее заявлял, что считает возможным переиграть компьютер. Но пока что у него это не получилось сделать. Спустя четыре часа и 15 минут после старта матча 19-летний мастер го был вынужден признать поражение. Сейчас счет 1-0 в пользу компьютера.
Глава компании DeepMind заявил, что сейчас с чемпионом играла обновленная система, архитектура которой была существенно модифицирована. Благодаря этому AlphaGo постоянно учится, причем, в основном, обучение происходит при игре с собой же. Так что от информации по результатам матчей чемпионов-людей система сейчас зависит гораздо меньше. В теории, платформа от DeepMind может обучиться почти всему, далеко не только игре в го.
AlphaGo уходит из го после победы «всухую» в серии матчей с чемпионом мира

Пять профессиональных игроков в го не смогли ничего противопоставить натиску AlphaGo
Представители компании DeepMind на днях заявили о том, что игра с Кэ Цзе была последним сражением компьютерной системы AlphaGo с человеком. После победы во всех трех матчах подряд стало понятно, что с компьютером человеку уже не совладать, поэтому для системы играть с другими чемпионами в го просто нет смысла, исход будущих матчей можно считать предрешенным. По словам главы DeepMind Демиса Хассабиса, AlphaGo достигла уже всех возможных высот в го, поэтому время сменить профиль и попробовать себя в новой сфере.
Впервые весь мир услышал о компьютерном игроке в го чуть больше года назад, когда компьютер выиграл со счетом 4:1 у Ли Седоля, одного из чемпионов го. Никто не ожидал такого результата, поскольку эта игра считалась ранее сложной для компьютеров. Здесь огромное количество вариантов выбора хода, гораздо больше, чем в шахматах. По этой причине го считалась прерогативой человека. Но все меняется, компьютеры становятся совершеннее, так что современные программно-аппаратные платформы умеют то, чего не умели компьютеры всего пару-тройку лет назад.
AlphaGo против Кэ Цзе: оценки профессиональных игроков в го

Год назад южнокорейский игрок 9-го профессионального дана проиграл компьютерной системе подразделения Google, и в восприятии многих го перешла в разряд игры, в которую машины играют сильнее лучших из людей. Больше AlphaGo почти никак не «светилась». В апреле этого года DeepMind разразилась объявлением: AlphaGo сыграет с игроком первой строчки рейтингов Кэ Цзе. Сам он сообщал о намерении сыграть против ИИ ещё летом прошлого года, но лишь в этом году была объявлена точная дата матча. DeepMind пообещала, что программа дополнительно сыграет против сразу пяти мастеров.
Игры прошли в запланированные дни, и их результат окончательно показал, что уровень AlphaGo значительно выше человеческого. Та четвёртая игра матча Ли Седоль — AlphaGo, наверное, останется последней победой человека над этим ИИ: по завершении игр разработчики заявили об уходе системы из го.
Мы обсудили с двумя профессиональными игроками уровень этой версии программы, а также будущее отношений человека и систем компьютерного го.
На фото: почти готовые признать поражение пять мастеров го недоумевают — система AlphaGo, их оппонент, начала играть лениво, словно предчувствуя победу.
ИИ-платформа AlphaGo Zero отточила мастерство игры в го без участия человека

DeepMind, подразделение холдинга Alphabet, продолжает работу над совершенствованием искусственного интеллекта. Именно специалисты DeepMind создали чемпиона мира по игре в го — платформу AlphaGo. Ей удалось выиграть у нескольких чемпионов мира по го, после чего стало ясно, что человек уже никогда не сможет победить машину.
Недавно DeepMind сообщила о появлении ещё более сильной системы компьютерного го, способной играть в го лучше, чем все предыдущие версии AlphaGo. Новинка получила название AlphaGo Zero. Эта платформа научилась играть в го без обучения на партиях, сыгранных человеком, сама по себе.
В «базе знаний» AlphaGo Zero — правила го и больше ничего. Тем не менее, программа очень быстро совершенствуется, играя сама с собой. Разработчики утверждают, что Zero освоила правила игры всего за несколько часов. Спустя три дня самообучения AlphaGo Zero победила AlphaGo Lee, версию ИИ, которая победила Ли Седоля со счетом 4:1 в 2016 году.
Есть ли шанс у AlphaGo в матче против Ли Седоля: мнения и оценки профессиональных игроков в го
В марте состоится матч го-профессионала 9 дана и искусственного интеллекта компании Google

Тем не менее у профессиональных игроков и знакомых с го возникли вопросы по качеству игры. Хуэй — трёхкратный чемпион, но он чемпион Европы, где уровень игры не слишком высок. Вызывает вопросы не только выбор игрока для демонстрации силы AlphaGo, но и некоторые ходы в партиях.
Система AlphaGo выиграла третью, решающую игру у Ли Седоля
Третья победа искусственного интеллекта в исторической серии из пяти игр в го

Так эксперты говорили до появления AlphaGo. Разработка от DeepMind (в 2014 году компанию купила Google) использует метод Монте-Карло. Лучшие из современных систем компьютерного го используют эту технологию. Но в AlphaGo ходы также помогают выбрать нейросети политики и ценности. Их можно назвать близкими родственниками нейросетей, которые распознают изображения и речь. Систему сначала научили игре на 160 тысячах партий с сервера KGS. Затем AlphaGo тренировалась в играх против самой себя.
AlphaGo выиграл первую игру у Ли Седоля
ИИ компании Google оказался сильнее одного из лучших игроков в го

AlphaGo выиграл у Ли Седоля и вторую игру
ИИ Google продолжает побеждать

Эта фотография не с матча, просто демонстрация доски и игровой ситуации
Компьютерные системы уже давно превосходят человека в ряде игр. Те же шахматы — чемпионам уже очень сложно, если вообще возможно, обыграть компьютер. Но есть также игры, в которых человек все же превосходит компьютерные системы. В основном, это игры, где нужно совершать нелогичные действия или пользоваться интуицией.
Одной из игр, где пока что человек был сильнее компьютера, считалась го. Как уже сообщалось, у игры очень ограниченное количество правил. Два игрока размещают камни двух цветов на доске определённого размера, стандартное поле — это 19×19 линий. Цель игры проста: нужно отгородить на доске камнями своего цвета территорию большего, чем соперник, размера. При этом число вариаций просто огромное количество.

Эта фотография не с матча, просто демонстрация доски и игровой ситуации
Компьютерные системы уже давно превосходят человека в ряде игр. Те же шахматы — чемпионам уже очень сложно, если вообще возможно, обыграть компьютер. Но есть также игры, в которых человек все же превосходит компьютерные системы. В основном, это игры, где нужно совершать нелогичные действия или пользоваться интуицией.
Одной из игр, где пока что человек был сильнее компьютера, считалась го. Как уже сообщалось, у игры очень ограниченное количество правил. Два игрока размещают камни двух цветов на доске определённого размера, стандартное поле — это 19×19 линий. Цель игры проста: нужно отгородить на доске камнями своего цвета территорию большего, чем соперник, размера. При этом число вариаций просто огромное количество.
Ли Седоль выиграл четвёртую игру у системы AlphaGo
Прошлые три игры исторического матча выиграл ИИ

Огромный плюс победы человека: мы увидели, как в интерфейсе AlphaGo выглядит признание поражения.
Сегодня прошла четвёртая партия матча Ли Седоль — AlphaGo. Играют известный 33-летний обладатель девятого профессионального дана и система компьютерного го от подразделения DeepMind компании Google. Сегодня Седоль выиграл.
AlphaGo против Ли Седоля: итоги и оценки профессиональных игроков в го

Играл Ли Седоль, обладатель девятого профессионального дана, один из лучших мастеров го в мире. Его оппонентом стала система компьютерного го AlphaGo, разработка Google DeepMind. До начала матча считалось, что ни один продукт не способен обыграть мастера высокого уровня. Но ИИ одержал победу со счётом 4:1.
Интересна скорость, с которой AlphaGo отточила го. Ещё в прошлом октябре системе для показательного матча скормили игрока куда слабее. Спустя пять месяцев она обходит одного из лучших. Похоже, что мы достигли 1997 года в шахматах, когда компьютер впервые обыграл действующего чемпиона в матче. С того момента шахматные программы улучшили навыки до такого уровня, что человек больше не способен выиграть у них в нормальных условиях.
Ожидает ли подобное го? Стоит ли бояться силы искусственного интеллекта? Мне удалось получить комментарии и ответы, которые предоставили вице-президент «Российской федерации го» и президент «Спортивной федерации го Санкт-Петербурга» Максим Подоляк, профессиональные игроки в го и многократные чемпионы Европы Илья Шикшин (первый профессиональный дан) и Александр Динерштейн (третий профессиональный дан).
AlphaGo сыграет в го с чемпионом из Китая Кэ Цзе
Сможет ли человек победить искусственный интеллект в го на этот раз?

Будет ли Кэ Цзе выглядеть таким же довольным после игры с компьютером?
В марте этого года один из лучших игроков мира в го Ли Седоль провел несколько игр с AlphaGo, системой компьютерного го. Эта система состоит, грубо говоря, из комбинации метода Монте-Карло и нейросетей политики (policy networks) и ценности (value networks). Для того, чтобы выйти на текущий уровень мастерства, AlphaGo играла в го сотни тысяч раз (речь идет примерно о 160 тысячах уже сыгранных партий). Сами партии брались с сервера KGS, где играют мастера от шестого до девятого дана. Система самообучалась, причем во многом — благодаря оригинальной системе обучения с подкреплением. Первая сеть политики играла с людьми, вторая — играла с первой, оптимизируя ее. Это делалось для того, чтобы система стремилась выиграть, а не просто предсказывать ходы. И такая система вполне себя оправдала.
Дело в том, что го — это игра с огромным числом возможных позиций камней на стандартной доске. Таких позиций примерно в гугол (10100) раз больше, чем в шахматах. Это даже больше, чем число атомов во всей Вселенной. Именно поэтому го считалась игрой, обучить которой искусственный интеллект очень сложно, если вообще возможно. Но, как видим, вполне возможно. А на первый взгляд все очень просто = на доске 19*19 линий игроки располагают камни двух цветов, и начинают попытки занять камнями своего цвета площадь больше, чем соперник. Надо сказать, что до AlphaGo были и другие программы — но они играли на уровне любителя, а не мастера, тем более, 9 дана. Но AlphaGo удалось победить чемпиона Европы, а также одного из пяти сильнейших игроков мира Ли Седоля.

Будет ли Кэ Цзе выглядеть таким же довольным после игры с компьютером?
В марте этого года один из лучших игроков мира в го Ли Седоль провел несколько игр с AlphaGo, системой компьютерного го. Эта система состоит, грубо говоря, из комбинации метода Монте-Карло и нейросетей политики (policy networks) и ценности (value networks). Для того, чтобы выйти на текущий уровень мастерства, AlphaGo играла в го сотни тысяч раз (речь идет примерно о 160 тысячах уже сыгранных партий). Сами партии брались с сервера KGS, где играют мастера от шестого до девятого дана. Система самообучалась, причем во многом — благодаря оригинальной системе обучения с подкреплением. Первая сеть политики играла с людьми, вторая — играла с первой, оптимизируя ее. Это делалось для того, чтобы система стремилась выиграть, а не просто предсказывать ходы. И такая система вполне себя оправдала.
Дело в том, что го — это игра с огромным числом возможных позиций камней на стандартной доске. Таких позиций примерно в гугол (10100) раз больше, чем в шахматах. Это даже больше, чем число атомов во всей Вселенной. Именно поэтому го считалась игрой, обучить которой искусственный интеллект очень сложно, если вообще возможно. Но, как видим, вполне возможно. А на первый взгляд все очень просто = на доске 19*19 линий игроки располагают камни двух цветов, и начинают попытки занять камнями своего цвета площадь больше, чем соперник. Надо сказать, что до AlphaGo были и другие программы — но они играли на уровне любителя, а не мастера, тем более, 9 дана. Но AlphaGo удалось победить чемпиона Европы, а также одного из пяти сильнейших игроков мира Ли Седоля.
Тё Тикун и Deep Zen Go: ещё одна попытка превзойти человека в го

27 января 2016 года подразделение Google DeepMind впервые публично заявило о успехах своей новой разработки. Британская компания искусственного интеллекта, которую Google купила в 2014 году, пыталась покорить древнюю азиатскую игру го. В начале этого года статус го как игры, неподвластной компьютерам, был ещё непоколебим. Системы компьютерного го существовали, но играли на уровне любителей. Профессионалы проигрывали им только со значительной форой.
DeepMind построила AlphaGo на комбинации метода Монте-Карло и искусственных нейронных сетей. После создания системы, настройки её параметров и обучения нейросетей её испытали против других программ компьютерного го и чемпиона-человека. AlphaGo одолела европейского чемпиона 2013, 2014 и 2015 годов Фань Хуэя.
В Европе уровень владения го традиционно ниже, чем на родине игры, в Азии. В силе AlphaGo возникли вполне обоснованные сомнения. Но Google сразу объявила, что следующий поединок AlphaGo проведёт с обладателем 9-го профессионального дана Ли Седолем, одним из лучших игроков за последнее десятилетие. В марте прошла серия из пяти игр… и человек проиграл вновь со счётом 4:1. За шоком сообществ искусственного интеллекта и игроков в го последовало полное молчание о будущих матчах. Новых матчей против AlphaGo не запланировано.
Попытку одолеть AlphaGo осуществит команда японского проекта Deep Zen Go, которая пока учит свою систему играть против людей. На 19, 20 и 23 ноября запланированы три игры против Тё Тикуна, мастера 9-го дана из Японии. Интересен прогноз Ая Хуаня, работника DeepMind, который в марте в рамках исторического матча сидел напротив Ли Седоля и расставлял камни на доске за AlphaGo. Хуань считает, что новая версия Zen победит со счётом 3:0 или 2:1.
DeepMind объявила о матче AlphaGo с чемпионом мира по го Кэ Цзе

Компания DeepMind, сейчас входящее в состав холдинга Alphabet, несколько лет работает над программной платформой AlphaGo. В прошлом году она выиграла в го у одного из чемпионов мира Ли Седоля. Таким образом, разработчики этой нейросети смогли доказать, что компьютер вполне в состоянии соревноваться с человеком в сферах, которые считались ранее прерогативой людей.
Та же игра го входила в рейтинг сложнейших для «понимания» компьютером игр. Эксперты считали, что в ближайшее время ИИ (слабая его форма) не сможет победить не то, что чемпионов мира, но и обычных игроков высокого уровня. Тем не менее, случилось то, что случилось, Alpha Go побил Ли Седоля в четырех партиях из пяти. А сейчас настал черед сразиться с еще одним чемпионом, Кэ Цзе, игроком в го 9 дана. Цзе занимает первую строчку рейтинга Китая и мира по набранным баллам.