Горький урок отрасли ИИ / Хабр

Об авторе. Ричард Саттон — профессор компьютерных наук в университете Альберты. Считается одним из основателей современных вычислительных методов обучения с подкреплением.

По итогу 70-ти лет исследований в области ИИ главный урок заключается в том, что общие вычислительные методы в конечном счёте наиболее эффективны. И с большим отрывом. Конечно, причина в законе Мура, точнее, в экспоненциальном падении стоимости вычислений.

Большинство исследований ИИ предполагали, что агенту доступны постоянные вычислительные ресурсы. В этом случае практически единственный способ повышения производительности — использование человеческих знаний. Но типичный исследовательский проект слишком краткосрочен, а через несколько лет производительность компьютеров неизбежно возрастает.

Стремясь к улучшению в краткосрочной перспективе, исследователи пытаются применить человеческие знания в предметной области, но в долгосрочной перспективе имеет значение только мощность вычислений. Эти две тенденции не должны противоречить друг другу, но на практике противоречат. Время, потраченное на одно направление, — это время, потерянное для другого. Есть психологические обязательства инвестировать в тот или иной подход. И внедрение знаний в предметной области имеет тенденцию усложнять систему таким образом, что она хуже подходит для использования общих вычислительных методов. Было много примеров, когда исследователи слишком поздно усваивали этот горький урок, и полезно рассмотреть некоторые из самых известных.

В компьютерных шахматах система, которая победила чемпиона мира Каспарова в 1997 году, была основана на глубоком поиске вариантов. Тогда большинство исследователей компьютерных шахмат с тревогой смотрели на эти методы, потому что они применяли человеческое понимание предметной области — особой структуры шахматной игры. Когда более простой, основанный на поиске, подход со специальным оборудованием и программным обеспечением оказался значительно более эффективным, эти исследователи отказались признавать поражение. Они сказали, что метод «грубой силы», возможно, сработал один раз, но не является общей стратегией. В любом случае, люди не так играют в шахматы. Эти исследователи хотели победы методов, основанных на человеческом понимании игры, но их ждало разочарование.

Аналогичная ситуация сложилась в исследованиях игры го, только с задержкой на 20 лет. Огромные первоначальные усилия были направлены на то, чтобы избежать поиска, а использовать человеческие предметные знания или особенности игры, но все эти усилия оказались бесполезными, когда был эффективно применён глубокий поиск вариантов с массивными параллельными вычислениями. Важным оказалось и самообучение для усвоения функции ценности, как и во многих других играх и даже в шахматах, хотя эта функция не играла большой роли в программе 1997 года, которая впервые победила чемпиона мира. Обучение в игре с самим собой и обучение в целом подобны поиску в том смысле, что позволяют использовать массивные параллельные вычисления. Поиск и обучение — наиболее важные применения вычислительной мощи в исследованиях ИИ. Как и в компьютерных шахматах, в разработке программы для игры го исследователи сначала сконцентрировались на применении человеческого понимания предметной области (что требовало меньше поиска), и гораздо позже пришёл большой успех, когда они применили поиск и обучение.

В 1970-е годы DARPA провела конкурс систем распознавания речи. Конкурсанты предложили множество специальных методов, которые использовали знание предметной области — знание слов, фонем, человеческого голосового тракта и т. д. С другой стороны, были представлены новые методы, более статистические по своему характеру. Они делали гораздо больше вычислений, основанных на скрытых марковских моделях (HMM). И опять статистические методы одержали победу над методами, основанными на знаниях предметной области. Это привело к значительным изменениям во всей обработке естественного языка. Постепенно с годами статистика и вычисления стали доминировать в этой области. Недавний рост глубокого обучения в распознавании речи — последний шаг в этом направлении. Методы глубокого обучения ещё меньше полагаются на человеческие знания и используют ещё больше вычислений вместе с обучением на огромных наборах данных. Это позволило значительно улучшить системы распознавания речи. Как и в играх, исследователи всегда пытались создавать системы, которые работают по образцу их собственных умов: они пытались перенести своё знание предметной области в свои системы. Но в конечном счёте это оказалось контрпродуктивным и стало колоссальной тратой времени, когда закон Мура сделал доступными массивные вычисления и были разработаны инструменты для их эффективного использования.

В компьютерном зрении аналогичная картина. Ранние методы рассматривали зрение как поиск границ объектов, обобщённых цилиндров или в терминах SIFT-признаков. Но сегодня всё это отброшено. Современные нейронные сети глубокого обучения используют только понятия свёртки и некоторых инвариантов, при этом работают намного лучше.

Это большой урок. В целом по отрасли мы ещё не до конца усвоили его, поскольку продолжаем совершать те же ошибки. Чтобы эффективно противостоять этому, следует понять, в чём привлекательность этих ошибок. Мы должны усвоить горький урок: построение модели человеческого разума не работает в долгосрочной перспективе. Горький урок основан на нескольких исторических наблюдениях:

Исследователи часто пытались встроить свои знания в агентов ИИ
Это всегда помогает в краткосрочной перспективе и лично удовлетворяет исследователя, но
В долгосрочной перспективе такой подход упирается в потолок и даже тормозит дальнейший прогресс.
Прорывной прогресс в конечном итоге приходит благодаря противоположному подходу, основанному на массивных вычислениях путём поиска и обучения.

Конечный успех окрашен горечью и часто не до конца принимается, потому что это победа над привлекательным, ориентированным на человека подходом.

Из этого горького опыта нужно извлечь один урок: нужно признать огромную силу общих методов, которые продолжают масштабироваться с увеличением вычислительной мощности, даже когда требуются огромные объёмы вычислений. Кажется, поиск и обучение способны неограниченно масштабироваться.

Второй общий момент, который следует извлечь из горького урока, заключается в том, что реальное человеческое мышление чрезвычайно, безвозвратно сложно. Нам следует прекратить попытки найти простой способ представить содержимое ума как простые модели пространства, объектов или множественных агентов. Всё это часть внутренне сложного внешнего мира. Это невозможно смоделировать, поскольку сложность бесконечна. Вместо этого следует развивать мета-методы, способные найти и захватить эту произвольную сложность. Для этих методов важно то, что они могут найти хорошие приближения, но этот поиск осуществляется самими методами, а не нами. Нам нужны ИИ-агенты, которые могут сами вести исследования, а не использовать обнаруженные нами знания. Построение системы ИИ на человеческих знаниях только затрудняет её обучение.