Введение
Данная статья посвящена критическому анализу развития области, называемой искусственный интеллект. Разница между критикой и критиканством крайне велика. Цель критиканства — обесценить достижения, убедить в бесплодности и бессмысленности дальнейшей деятельности в данном направлении. Задача критики — провести рефлексию. Результаты этого процесса я и изложу.
Статья носит философский характер — это значит, что она не обременена математической строгостью изложения, а пытается оформить в виде понятий базовые представления и ощущения. Автор статьи не является специалистом в искусственных нейронных сетях (знакомство с ними исчерпывается прочтением книги «Глубокое обучение. Погружение в мир нейронных сетей» С. Николенко, А. Кадурин, Е. Архангельская) и генетических алгоритмах (знакомство с ними также ограничено прочтением нескольких книг), поэтому перед каждым утверждением, по‑хорошему, надо добавлять фразу «как мне кажется», «на сколько я понимаю»..., но я опущу эти вводные обороты, чтобы излишне не раздувать текст. Тем не менее взгляд человека «со стороны» может быть полезен, поскольку, образно выражаясь, создает возмущение, которое может вывести специалиста из локального экстремума.
Постановка проблемы
Фундаментальность понятия информации была осознана довольно давно. Например, такие физики как Уиллер и Вейцзекер рассматривали способы ввести информацию в физику, но осязаемых результатов достигнуто не было. Информация в физике рассматривается как определяемая энтропией величина и поэтому лишена семантической составляющей, которая имеет наибольшую ценность. В инженерном деле напротив, работа с информацией была крайне плодотворна и привела к разработке алгоритмов кодирования, коррекции данных, методов модуляции и демодуляции, множеству архитектур и концепций построения устройств обработки данных, разработке языков программирования и многому другому.
Поэтому вполне естественно, что современные модели ИИ базируются на инженерных концепциях и методах. Но одно дело работать с символьной составляющей информацией, которую можно относительно несложно формализовать, другое дело — пытаться применить эти методы к мышлению, к области, в которой отсутсвуют формализованные термины и процедуры. Данная ситуация очень напоминает науку времен алхимии, когда различные манипуляции (химические реакции) давали удивительные процессы преобразования веществ, но начисто отсутсвовало целостное понимание происходящего, что приводило к эзотерическим трактовкам, повышенному интересу к показушным и эффектным экспериментам, и заведомо мошенническому поведению деятелей (поиск философского камня и прочее). Конечно, сбор экспериментальных данных и счастливые случаи (например, открытие секрета производства фарфора в Европе) не делали подобную деятельность бессмысленной, но человечество, уже пройдя этот путь, вряд ли должно его повторять. Например, встретившись с необычным миром квантовых процессов, наука довольно быстро и эффективно сумела интегрировать его в себя. Того же хочется и от активно развивающей области, претенциозно называемой, ИИ.
Создадим список основных слабых мест, «ковыряя» которые, скорее всего, можно заметно повысить качество этой молодой области исследования.
Отсутствие глубокой основополагающей идеи или концепции.
Поскольку наиболее продвинутое развитие и использование информация получила в инженерных дисциплинах, которые занимаются аппроксимацией реальных процессов и модельными построениями, то аналогичная методика стала основополагающей и в ИИ. Искусственная нейронная сеть должна выполнять функцию универсального аппроксиматора и классификатора.
Но столь масштабная задача имеет слишком прямолинейную реализацию. Например, одна из популярных функций активации ReLU по сути формирует обычный табличный аппроксиматор с линейной интерполяцией меду значениями (точки излома задают опорные значения входных данных для таблицы).
Другим показательным примером является построение сверточной сети. Сверточная сеть реализует на архитектурном уровне пространственную инвариантность. Такая архитектура является частным случаем искусственной нейронной сети общего вида, в связи с чем возникает, почему при «обучении» веса не сходятся к пространственно инвариантной структуре? Почему приходится «руками» вносить это свойство? Насколько я могу предположить, это связано с тем, что при независимой вариации и инициализации параметров вероятность попасть в такое удачное сочетание крайне близка к 0, а численные ошибки при градиентном спуске быстро разрушат пространственно‑инвариатную структуру, даже если она возникнет. Образно я это представляю как глубокую яму диаметром в иголку на фоне горных хребтов (высота задает значение целевой функции).
Текущий прогресс в ИИ на основе искусственных нейронных сетей похож на кашу из топора, так как по большей части основан на высоком уровне программистов и затраченных часах работ, нежели на плодотворности идеи. Отсутствие глубокой идеи частично компенсируется заимствованием подходов их других областей. Например, использование метода отжига при поиске экстремума, байесова преобразования условной вероятности для обоснования метода дропаута. В связи с этим можно предложить развить использование концепции симметрии относительно преобразования. В физике микромира концепция симметрии является путеводной звездой и рабочим аппаратом генерации моделей и теорий. Каждая симметрия связана с сохраняющимся при взаимодействии инварианте (теорема Нетер). Для нейронной сети каждой симметрии можно сопоставить некую абстракцию. Например, инвариантность относительно сдвига порождает представление о пространстве.
Слаборазвитая процедура оценка качества моделей.
Если в естественных науках имеется отдельная дисциплина — метрология, которая позволяет более‑менее независимо от теории проверять согласованность теории и практики, то для ИИ ничего подобного мне не известно. Спекулятивный тест Тьюринга (и подобные тесты, всеобъемлюще опирающиеся на человека), конечно же для этих целей не подходит.
В качестве возможного пути развития этого направления можно предложить подход, основанный на анализе случайности остаточных данных, полученных после обработки тестируемой системой исходного набора данных. В идеале тестируемая система должна вычленить из исходных данных все структуры, а то, что останется — является шумом. Но при такой формулировке тестирования структуры для наилучшей системы, скорее всего, будут носить неосмысленный вид, вроде вейвлет функций. Поэтому более логичным будет анализировать разницу между предсказанными данными системы и реальными.
Проиллюстрируем эту мысль. Системе подается набор последовательных кадров (или один кадр), на которых изображена кошка в движении и пара покоящихся вещей за ней. Задача — построить кадр через 1 сек. Затем построенный кадр (или набор возможных кадров) сравнивается с реальным. Если система хорошо выделяет объекты, то кошка сместится, а картины — нет.
Основная мысль состоит в сведении метрологии к анализу шума и случайностей, которым посвящены много работ (например, можно найти целую главу в книге Кнута о генерации случайной последовательности и что вообще есть случайность). В теоретическом плане, наверное, наиболее полно случайность формализована энтропией Колмогорова‑Синая. Практическая реализация анализа случайности тесно переплетена с архиваторами (например, уравнения эволюции можно рассматривать как архиватор, описывающий всю историю системы ее начальным состоянием)
В том или ином виде эта мысль используется при «обучении» алгоритмов, но ее следует выделить в отдельную область «метрология в теории информации» для создания более объективных тестов, чем те, которые используются сейчас.
Отметим, что при таком анализе информации, мы оцениваем только ее «научную» и познавательную сторону. Нетронутым аспектом является инженерная сторона информации, при которой требуется не только предсказывать и классифицировать, но и синтезировать и управлять.
Отсутствие времени.
Последнее замечание, на котором хочется заострить внимание — это использование времени как параметра, например в рекурсивных сетях. Параметричность времени означает, что зависимость данных от времени рассматривается точно также как и зависимость от координат или от другой переменной. Никакой выделенности временной зависимости не предусматривается. В замечании 2 подчеркнуто, что ценность информации в значительной мере определяется возможностью предсказывать. Но формулировка «предсказать» сама по себе является не простой. В том же примере с кошкой у предсказания имеется несколько масштабов рассмотрения: детальный (положения ног, хвоста,...), на ближайшую секунду, описание траектории — секунд 5, и долгосрочный, описывающий область возможного положения. Согласованное рассмотрение процессов на различных масштабах, насколько я понимаю, абсолютно не реализовано в существующих концепциях искусственных нейронных сетей и генетических алгоритмов.
В частности этот недостаток, наверное, приводит к разделению фаз «обучения» и функционирования. Если настолько же интенсивно настраивать алгоритм при функционировании, как и при обучении, то он быстро «переобучится» на наиболее частый сценарий и нивелирует обработку альтернативных сценариев. У человека, конечно, тоже имеется такая особенность, например, не мало взрослых уже не вспомнят ни химию, ни физику, если не сталкиваются с этим в повседневной деятельности. Но благодаря абстракциям и моделям человек существенно сдерживает забывание прошлого опыта. Причем абстракции имеют свои временна жизни, чем более они детализированы, тем быстрее забываются.
Пример построения концепции
Критика значительно лучше воспринимается, если предлагается какая‑нибудь конструктивная альтернатива, так как переводит критикующего из роли судьи в роль соучастника. Поэтому здесь будет представлено простое схематичное философское построение для демонстрации того, что хотелось бы получить от полноценной теории информации.
Для начала, как и положено при построении теории, введем базовое понятие. В нашем случае это будет СИСТЕМА. Базовое понятие вводится с помощью демонстрационных примеров, общность которых выявляет понятие, и описания мотивации использования этой общности в качестве базы.
В классической механике под системой будем подразумевать совокупность объектов, подчиняющимся общим законам эволюции. В квантовой механике система определим как совокупность объектов, имеющую общую волновую функцию. Например, в споре о парадоксе ЭПР Бор отвечал, что некорректно рассматривать разнесенные частицы по отдельности, поскольку у них общая волновая функция, что обеспечивает выполнение соотношения неопределенностей.
Сущность квантовомеханических систем имеет аналогии в мышлении. Например, математическое соотношение, использующее переменные, схоже с квантовомеханической суперпозицией, при которой внешние операции (не разрушающие запутанность) осуществляются сразу над всеми «реализациями». Вообще любое абстрагирование в этом плане схоже с квантовой системой, поэтому выделение понятия системы видится фундаментальным.
Следующим шагом будет наполнение базового понятия «жизнью», подобно тому как это делается в механике Ньютона введением понятия силы. Мне видится наиболее плодотворным использование постановки задачи оптимального регулирования для описания эволюции систем. т. е. система стремится перейти в стационарное состояние, минимизируя некий функционал, сущность системы состоит в слаженности действий всех ее составляющих. Математический аппарат такой задачи разработан в принципе максимума Понтрягина.
Мотивация использования такой технической задачи в качестве фундаментального принципа эволюции состоит в наблюдении, что информация неразрывно связана с деятельностью и прикладными задачами и сильнее связана с инженерными дисциплинами, нежели с отстраненными теоретическими построениями. Семантическая составляющая информации является производной от закона эволюции системы, которая выступает ее носителем.
Принцип максимума содержит весьма любопытные следствия:
Работа регулятора приводит к появлению Гамильтоновости эволюции системы. Причем в отличии от «принципа наименьшего действия» принцип максимума действительно описывает оптимальное движение.
Управление, оптимальное по времени, состоит из скачкообразных переключений.
Первое следствие имеет непосредственную аналогию с физикой, а появление скачкообразности — возможно как‑то соотносится с явлением дискретности в квантовом мире. Таким образом, будем считать, что системой является множество объектов, имеющих общий закон регулирования, оптимизирующий некоторый функционал при движении в заданное стационарное состояние.
Стоит добавить отступление о роли математического уравнения. Основной мечтой науки является мечта о неком все описывающем уравнении. Но любое уравнение само по себе — не более, чем нацарапанные каракули. Хорошо известна разница между тем, чтобы написать уравнение и тем, чтобы научиться его использовать. Конструкция не рассчитывает уравнения теории упругости, но теория упругости позволяет людям интегрировать твердые тела в свою жизнедеятельность. Аналогично целочисленный арифметический модуль контроллера ничего не знает о модульной арифметике, но модульная арифметика позволяет программистам и проектировщикам использовать и разрабатывать процессоры. Поэтому, предлагаемая здесь теория оптимального регулирования, видится мне как достаточно гибкая конструкция, которая может в значительной мере унифицировать процессы, которые мы связываем с информацией.
Продолжая мысль, каждый объект, составляющий систему, сам по себе является системой, которая формирует закон его движения, учитываемый более широкой системой. Таким путем можно формировать иерархичность, при которой различные уровни абстракции взаимодействуют между собой.
Самым интересным и не формализуемым является процесс создания систем. Предложим возможный механизм их эволюции. Взаимодействие системы с внешним миром можно разделить на два типа:
Отработка внутренним регулятором внешнего возмущения.
Учет состояния внешних факторов в минимизируемый функционал. т. е. архитектурную эволюцию системы.
Естественно предположить, что первый тип взаимодействия частично сказывается на втором подобно тому, как настраиваются веса и коэффициенты связи в искусственных нейронных сетях или параметры в генетических алгоритмах. При удачном учете внешних факторов в функционал, система стабильно отрабатывает динамику изменений и таким образом переходит в новое стационарное состояние. т. е. то, что раньше вызывало внешнее возмущение, стало частью системы. В частности, как мне видится, такой подход решает проблему с переобучением при часто повторяющихся внешних стимулах, поскольку предыдущий опыт уже учтен в функционале и никуда не пропадает. Чтобы не заниматься дальнейшими спекуляциями на этом окончим демонстративное построение.
Я думаю бессмысленно ожидать готового алгоритма или уравнения, который опишет генерацию новых алгоритмов или полную эволюцию информации. В этом и состоит ключевое отличие теории информации от естественных наук. Поэтому направление, по которому движутся существующие попытки работы с информацией — поиск наиболее универсального подхода описания и структурирования «знаний», а не поиск уравнения эволюции, мне видится правильным и единственно возможным. Например, встречал такую заметку, что математическое обоснование искусственных нейронных сетей основано на теореме Колмогорова‑Арнольда в теории приближений и ее обобщениях. Но использование столь общего метода для структурирования информации аналогично использованию таблиц Тихо Браге вместо законов Кеплера. Я думаю более эффективный путь работы с информацией должен включать инженерную составляющую, а не только описательную (теория приближений). Выше я привел поясняющий пример такого подхода.
Заключение
Я надеюсь, что теория информации вырвется из узких рамок вычислительных схем и кодирования данных и станет полноценной наукой, такой же как естественные науки. Но для этого необходимо искать новые идеи и построения, а не зацикливаться на расширении вычислительных мощностей. Возможно более глубокое рассмотрение информации с инженерной, деятельной, а не только с описательной и классифицирующей точки зрения позволит найти новые идеи и подходы, которые сделают семантическую составляющую теории информации пригодной для практики.