Сильный искусственный интеллект (AGI, искусственное мышление) - это Священный Грааль современной компьютерной науки. Его поиском занимается множество людей и на него направляются миллиарды денег.

Бурное развитие нейросетей в последние годы, кажется, сформировало представление, что путь от слабого ИИ к сильному будет эволюционным - то есть, за счёт только лишь развития нейросетей мы получим систему, которая будет понимать смысл и чувствовать красоту.

Однако, этот тезис не доказан ни теоретически, ни практически. А что, если он и вовсе ошибочен? Чтобы увереннее размышлять об этом, давайте зададим простые, базовые вопросы: что такое понимание и зачем оно нужно? Что такое эстетика и зачем она нужна?

Мы не сможем избежать этих вопросов на пути к искусственному мышлению, а значит попробуем дать предельно содержательные ответы на эти вопросы. Сделав это максимально честно и старательно, посмотрим, не смогут ли ответы нам чем-то помочь, сделать перспективы сильного ИИ сколько-нибудь яснее?

Данная статья - это в первую очередь приглашение вместе подумать.


1.1. Что такое понимание?

Прежде всего, давайте уточним терминологию. В современном дискурсе слово "понимание" используется в одном из трёх смысловых вариантов:

  • Понимание (I) - способность к пониманию (II)
    "Сильный ИИ должен обладать пониманием"

  • Понимание (II) - восприятие новых знаний
    "Я долго не мог понять квантовую механику"

  • Понимание (III) - знания, воспринятые в результате понимания (II)
    "Твоё понимание математики неполно"

Отсюда, цель понимания - восприятие знаний и работа с ними. Данная классификация отсылает нас к термину "знания", в отношении которого нам остаётся задать те же исходные вопросы - что это такое и для чего они нужны?

1.2. Знания

1.2.1. ЧТО ТАКОЕ ЗНАНИЯ?

В бытовом, интуитивном смысле, со знаниями всё ясно: это то, что мы помним, содержимое нашего разума. В более строгом смысле, компонентами знаний являются:

  • Структура
    Из каких элементов это состоит и как эти элементы связаны?

  • Информация
    Где находятся элементы? (и другие численные параметры)

Современная компьютерная наука сконцентрирована вокруг обработки информации, но, по всей видимости, именно наличие структуры отличает знания от информации и обеспечивает возможность сознавать и мыслить - возможность, которая есть у человека и отсутствует у компьютера.

Что немаловажно, структура и информация - не два несвязанных параметра, а тесно переплетённые артефакты, вместе составляющие знания. Характерно, что структура имеет доминирующее положение относительно информации: именно она отвечает на вопрос, ЧТО это за объект, на который мы смотрим.

Пример: именно структура говорит нам, что 1+1 и 2 - это разные объекты, хотя они оба вычисляются в равное значение. Действительно, 1+1 это алгоритм (действие, преобразование, функция), а 2 это просто число. Различие в структуре влечёт за собой и различие в информации: в первом случае это два численных параметра, во втором - один.

Итак, в первом приближении мы ответили на вопрос "что такое знания?" - это структура плюс информация. Что бы, какой бы объект мы не описывали, всё что мы о нём можем знать, будет или структурой, или информацией. Вопрос "для чего нужны знания?" тоже не сложный, по крайней мере в рамках этой статьи: знания дают возможность создать модель мира, а она позволяет много чего - в частности, ориентироваться, ставить цели, принимать решения и так далее.

Давайте порассуждаем про модель мира. Если её информационный аспект не вызывает особенных вопросов (мы хорошо умеем работать с информацией), то структурный аспект хорошо бы обсудить подробнее.

1.2.2. ЯЗЫК vs ЯВНАЯ СТРУКТУРА

Человек настолько погружён в свой язык общения (естественный язык, ЕЯ), что ему кажется, будто его модель мира "написана" непосредственно на нём. Однако, есть веские основания полагать, что это не так. В первую очередь из-за такого свойства разума, как ярлыки.

Возьмём для примера алюминий. Само слово "алюминий" это лишь ярлык (алиас) для понятия алюминия как части модели мира. Слово есть элемент языка, то есть объект, который легко запомнить и воспроизвести. Но по структуре этот объект не совпадает с тем, что он обозначает: слово состоит из букв (звуков), а атом алюминия состоит из 13 протонов, от 8 до 30 нейтронов и 13 электронов.

В данной ситуации, слово "алюминий" выступает в роли "папки" в модели мира, в которую сложены обычные составляющие знаний - структура и информация. Содержимое этой папки, для людей, владеющих одинаковым объёмом знаний, будет одинаково вне зависимости от того, на каком бы языке или каким словом данная папка ни называлась.

Эта очевидная инвариантность, собственно, и позволяет людям разных языков понимать друг друга. Для этого у разума должен быть универсальный способ записывать различную структуру в явном виде в своей модели мира, независимо от языка общения.

Говоря о способе записи структуры, надо отметить интересное свойство разума. В процессе понимания чего-либо, разум стремится иметь дело с возможно более крупными блоками. Например, нам значительно комфортнее думать о компьютере в терминах: процессор, память, шина, южный мост, северный мост и т.д., нежели рассматривать схему, состоящую из отдельных транзисторов. Так проявляется естественная способность разума к оптимизации и его стремление не потерять лес за деревьями.

1.2.3. НАИБОЛЬШИЙ ОБЩИЙ КОНСТРУКТОР

С учётом такого свойства разума, интересен вопрос о том, насколько крупные объекты можно использовать, чтобы сделать как что-то одно, так и нечто другое. Приведём пример.

Возьмём обычный детский алюминиевый конструктор, как на фото ниже:

Из него можно сделать много разных моделей. Можно подсчитать, что из самого скромного конструктора можно сделать ОЧЕНЬ много изделий, если считать перестановки, комбинации и повторы различных деталей. И всё это множество адекватно описывается в терминах подобного набора деталей, как на фото.

Но из этого конструктора нельзя сделать, скажем, миску:

Чтобы сделать не только модельки, но и миску, нам нужно отказаться от нашего прежнего конструктора, и использовать "голые" атомы алюминия. Из отдельных атомов, действительно, можно сделать как миску, так и наш набор деталей и из них уже все вышеозначенные модели.

Таким образом, наблюдается закономерность: чем более широкий спектр целевых объектов надо сконструировать, тем более простые и мелкие элементы являются наибольшим общим конструктором (НОК). Можно продолжить наш пример, и рассмотреть золотую миску:

Если в целевой спектр входит и золотая миска, то наш НОК уменьшается от атомов до элементарных частиц - протонов, нейтронов и электронов. Действительно, из них можно сконструировать:

  • атомы золота -> золотую миску

  • атомы алюминия ->
    -> алюминиевую миску
    -> алюминиевые детали -> модели

Эту закономерность можно назвать законом наибольшего общего конструктора: большее разнообразие целевых объектов обеспечивается большей простотой исходных элементов. Мы будем исходить из того, что указанный закон структуры одинаково действует как в материальном, так и в идеальном (математическом, когнитивном) мире.

1.2.4. АБСОЛЮТНО ОБЩИЙ КОНСТРУКТОР

Каким должен быть "абсолютно общий" конструктор, чтобы из него можно было составить ЗАВЕДОМО ЛЮБУЮ часть модели мира? Слова "заведомо любую" как бы подсказывают, что это должен быть предельно простой конструктор, и вот ещё одна подсказка:

Этот конструктор должен быть достаточно простой, чтобы из него можно было построить:

  • логические значения

  • числа

  • множества

  • и далее более крупные объекты

После того, как необходимость такого конструктора была обнаружена и осознана, началась работа по его созданию. Эта работа заняла 10 лет - с 2013 по 2023 годы. Созданный конструктор называется ФОРАОН (формальный аппарат общего назначения).

В этой статье не будет подробного рассказа про ФОРАОН. Интересующиеся могут обратиться к продолжающейся серии статей "Математические бланки" на странице автора на Хабре. Однако, чтобы дать минимальное впечатление о его устройстве, покажем, как в рамках ФОРАОН формализуются некоторые объекты.

Важной особенностью ФОРАОН является то, что он позволяет выразить не только знания о "внешнем" по отношению к разумному субъекту, но и о самом субъекте. Наличие пустого (т.е. максимально возможно простого) объекта \underline{\alpha} гарантирует, в соответствии с законом наибольшего общего конструктора, универсальность ФОРАОН, т.е. возможность выразить структуру и информацию, составляющие любые знания.

1.3. Нейросети и понимание

Отставим ФОРАОН в стороне и разберём плюсы и минусы нейросетей на примере GPT.

Главным и несомненным плюсом GPT является универсальность: он может "обсуждать" абсолютно любые темы, главное, чтобы он заранее прошёл обучение по интересующему вопросу. Универсальность GPT обусловлена универсальностью естественного языка, на котором он "общается": действительно, название можно придумать для чего угодно!

Давайте теперь освежим в памяти, как работает GPT, и что делает его таким "умным".

  1. Обучен на огромных текстах и знает, какие слова, фразы и структуры обычно следуют друг за другом в ответ на определённые вопросы.

  2. Генерирует текст по вероятностной модели: для каждого следующего слова выбирается наиболее вероятное (с точки зрения модели) продолжение, учитывая предыдущий контекст.

  3. В результате этот текст статистически соответствует человеческой речи и чаще всего выглядит осмысленным.

То есть, в ядре - это статистическая генерация текста. Но результат внешне смысловой и связный, потому что модель обучалась на огромном количестве осмысленных человеческих текстов. Снаружи кажется, что модель «понимает», но это иллюзия консистентности текста.

Память GPT (и других нейросетей) хранит параметры, веса, и другие значения, составляющие статистику, на основе которой генерируется ответ (текст, картинка или видео). Что это означает с учётом вышеописанной теории знаний? Означает то, что память нейросети не хранит знания - и прежде всего, нет важнейшего, структурного их компонента.

Этот факт определяет главный недостаток искусственных нейросетей - они не работают со знаниями, и, в таком качестве, не способны к пониманию. Второй недостаток вытекает из первого: база данных GPT не может быть проанализирована "оффлайн", отдельно от работающей нейросети, подобно дампу программы.

Если в обучающие материалы вкралась ошибка, например, GPT "узнал", что чёрт - белого цвета с тремя рогами, мы не можем зайти "в настройки" и поменять структуру чёрта (удалить лишний рог) и/или информацию о нём (цвет).

В отличие от GPT, человеческий мозг способен к пониманию. Однако мы не знаем, как нейроны и синапсы "мапятся" на хранящиеся в мозгу знания. Это досадное обстоятельство не позволяет нам сделать нейросети более похожими на мозг, чтобы создать сильный ИИ.

1.4. Понимание в искусственной системе

Вернёмся к пониманию и к тому, как достичь понимания в искусственной системе.

1.4.1. ПОНИМАНИЕ (III)

Чтобы обеспечить понимание (III), у нас есть механизм - ФОРАОН. Данный механизм позволяет строго и формально записать любые знания, начиная от приведённых на картинке, и кончая более сложными (составными). Помимо структуры и информации, надо предусмотреть ярлыки, то есть слова языка (разных языков), картинки, звуки и пр.

Подобная организация знаний позволит уложить их в некоторое формализованное хранилище, пригодное как извлечению (чтению) знаний "по запросу", так и записи новых в него. Такая возможность пока является теоретической, но принципиально реализуемой.

Нам, скорее всего, потребуются базы данных, которые могут быть отнесены к индексным. Принцип их действия - по фрагменту объекта (вход) найти все объекты, которые его содержат. Для случая текстов - к таким БД могут быть отнесены Sphinx или Elasticsearch, а для звуков и изображений существуют аналоги индексных БД. ChatGPT называет самыми популярными сегодня - FAISS, Milvus, Qdrant, Weaviate, Pinecone.

Таким образом, проблема понимания (III) может быть решёна. Подобное хранилище можно заполнять "руками", но это долгий процесс. Всё равно, что сесть рассказывать новорожденному все его будущие знания за первые N лет его жизни. Мы хотим, чтобы искусственное мышление могло само учиться, воспринимать информацию, как это делает человек. А это значит, что нам необходимо

1.4.2. ПОНИМАНИЕ (II)

В случае человека, приобретение знаний происходит двумя способами:

  • Непосредственное восприятие
    органы чувств: зрение, слух и т.д., в т.ч. чувство времени

  • Косвенное восприятие
    язык - написанное или сказанное (поверх непосредственного восприятия)

В обоих случаях мозг извлекает из входящих чувств знания - т.е. распознаёт структурный и информационный аспекты того, что под��ётся на вход разума. Это важно, и означает, что мозг обладает встроенной способностью разбивать объект на части и считывать информацию. Это верно как для непосредственного восприятия, так и для косвенного.

Чтобы эмулировать эту способность в искусственной системе, нам могут помочь нейросети. Современные нейросети действительно достигли высокого уровня в разбиении объектов на части (сегментации). Вот что сообщает об этой способности ChatGPT:

Текст — лучше всего проработано

Что умеют: I) Разбивать текст на лексемы, слова, фразы, предложения, абзацы. II) Выделять смысловые блоки: сущности (имена, даты, организации), роли в предложении (кто что сделал), тематические сегменты. III) Делить по дискурсу — вступление, аргументы, вывод. IV) Распознавать структуру документа (заголовки, списки, подписи).

Точность: очень высокая (95–99% для хорошо размеченных языков).
Инструменты: BERT, GPT, spaCy, NLTK, tiktoken, Claude, Mistral.

Картинки — хорошо, особенно для чётких объектов

Что умеют: I) Сегментация по пикселям (semantic segmentation) — например, выделить человека, машину, небо и т.д. II) Instance segmentation — разделить несколько одинаковых объектов (например, 5 человек). III) Panoptic segmentation — объединяет оба подхода. IV) Object detection — выделить прямоугольные рамки вокруг объектов. V) Разделение на фигуры, контуры, текстуры, фон.

Точность: очень высокая при хорошо освещённых и не слишком сложных сценах (85–98% IoU). Сложнее — с прозрачными, пересекающимися или сильно деформированными объектами.

Инструменты: SAM (Segment Anything от Meta), Mask R-CNN, YOLO, Detectron2, DINOv2.

Видео — сложнее, но быстро развивается

Что умеют: I) Сегментировать объекты во времени — отслеживать один и тот же объект на множестве кадров. II) Разбивать видео на сцены и кадры по смыслу или смене обстановки. III) Выделять действия и жесты. IV) Сегментировать движущиеся объекты (например, машину, едущую по дороге).

Сложности: движение, размытие, перекрытие объектов, разные углы обзора.
Точность: высокая для простых сцен, средняя — для сложных.

Инструменты: SAM-2 (Meta), DeepSort, Track Anything, Segment Anything for Video (SAV), OpenMMLab.

Аудио и звуки — хорошо с речью, сложнее с шумами

Что умеют: I) Разбивать аудио на сегменты речи, тишину, шумы. II) Делить речь на слова, фразы, дикторов (speaker diarization). III) Выделять инструменты и голоса в музыке. IV) Отделять фоновые шумы от целевого сигнала.

Сложности: если звуки накладываются, качество падает; особенно с шумами и сложными аудиосценами.
Точность: до 95% в распознавании речи; 70–90% при многоканальном разделении.

Инструменты: Whisper, Spleeter (музыка), pyannote.audio, Demucs, Voice Activity Detection.

Иными словами, проблема сегментации хорошо решается. Объединив эту способность нейросетей со способностью ФОРАОН представлять знания, мы получаем объединение Понимания (III) и Понимания (II), то есть, теоретически, открываем путь к Пониманию (I) для искусственной интеллектуальной системы.

1.4.3 КОНЦЕПТУАЛЬНАЯ СХЕМА

На этой схеме два блока: множество нейросетей (верхний блок) и хранилище знаний (нижний). Красная стрелка - входящий поток (органы чувств), чёрные - потоки знаний.

Понимание в искусственной системе
Понимание в искусственной системе

Приступать к вопросу эстетики в искусственной системе можно после того, как проблема понимания для этой системы решена. О том, что такое эстетика, сказано очень много, и в этих вариантах можно закопаться и никогда не выплыть. Что избежать этого исхода, давайте сузим предмет нашего анализа и скажем, что нас интересует ОЦЕНКА ЭСТЕТИЧЕСКОЙ ПРИВЛЕКАТЕЛЬНОСТИ. Перед тем, как квалифицированно об этом говорить, надо ввести кое-какой математический аппарат.

2.1. Оценка знаний

Вопрос оценки достаточно прост: есть нечто (x), и есть оценивающая функция f(x), которая отображает аргумент на некоторое численное значение y \in \mathbb{R}. Природа оценивающей функции может быть разной, но отображение на число всегда присутствует. Оценка - одна из базовых свойств мозга, присутствующее даже у животных (пример: животное может оценивать угрозу от другого животного).

Преимущество ФОРАОН и хранилища формализованных знаний даёт возможность формально подойти к оценке знаний - т.е. писать функцию оценки математически строго. За счёт этого, оценка может быть точной, а не примерной или ориентировочной.

2.2. Сложность и объём

В общеупотребительном смысле слово "сложность" понимается скорее как трудность (в Большой театр сложно попасть), нежели мера структуры. Однако нас будет интересовать именно структурная сложность, то есть количество различных комбинаций элементов. Подобная сложность также интуитивно понятна человеку - ясен пень, что космическая ракета сложнее велосипеда.

С математической точки зрения и с нашей архитектурой хранилища знаний (см. выше), сложность объекта x - это рекурсивно посчитанное число уникальных по смыслу имён, выражающих структуру x. Сложность x будем записывать как \mathcal{C(x)}.

Однако даже миллиард велосипедов не сложнее ракеты. Чтобы отразить их огромность, введём понятие объёма, который считается рекурсивно, как и сложность, но в отличие от неё без требования уникальности, т.е. вообще всё что есть внутри. Записывать будем как \mathcal{V(x)}. Сложность и объём будем называть функциями интеллектуальной оценки, а также унарными интеллектуальными функциями.

2.3. Сходство и различие

Подобно сложности, сходство и различие - встроенные черты мышления, нам нет необходимости описывать их как что-то новое. Нужно только описать их как строгие функции на нашем хранилище знаний.

Что касается сходства, то его рутинно считает индексная база при поиске. Если шаблон для поиска x, а выходное множество Y, то для очередного объект y_i считается сходство \mathcal{L}(x, y_i). Если оно равно x (т.е. x полностью присутствует в y_i), то y_i \in Y. Иными словами, для самых разных объектов мы уже умеем считать сходство.

Что касается различия, то его тоже легко описать теоретически. Если x и y не одинаковы, то даже в бытовом смысле существует (хотя бы теоретический) способ превратить x в y. Различие между x и y будем определять как простейшую операцию f, которая преобразует x в y. То есть в этом случае различие \mathcal{O}(x, y) = f. Примером, где считается различие, может являться дифференциальный backup.

К сожалению, мы умеем считать различие для данных (тот же backup), но не для знаний (структур). Даже при формализованности хранилища знаний, вывод алгоритма расчёта различия это нетривиальная задача. Возможно, впоследствии её можно будет решить при помощи нейросети.

2.4. Эстетика как гармония

Можно бесконечно рассуждать, что красиво, а что нет. Чтобы не попасть в этот туннель, поищем математический способ определения красоты. Исторически первым таким способом была гармония и золотое сечение. Есть и другие модели/критерии, например симметрия, баланс между порядком и сложностью, когнитивная предсказуемость, но для целей статьи, остановимся на гармонии.

Если речь идёт о вещах, которые возможно измерить (например, размеры на картинке), то вычисление гармонии двух величин становится рутинной задачей:

\mathcal{H}(x,y)=\frac{x y}{(x + y) (x - y)}

Если \mathcal{H}(x,y)=1, то \frac{x}{y}=\Phi (золотое сечение \Phi \approx 1.618). Значение \mathcal{H}(x,y) и будем называть гармонией x и y. График x и y для \mathcal{H}=1 приведён на картинке:

По графику формулы можно видеть, что \mathcal{H}(x,y) будет ближе к единице, когда x и y не слишком близки, но и не слишком различны.

Если речь идёт об объекте, включающем измеримые части, то посчитав их гармонию, можно определить, насколько данное объект (например, портрет) привлекательный. Более точно, эстетическую привлекательность можно вычислять, например, так:

\frac{1}{ | \mathcal{H}-1|}

Но как посчитать гармонию объектов, обладающих более сложной структурой, чем числа?

2.5. Структурная гармония

Предлагается сохранить структуру формулы, но модифицировать её при помощи интеллектуальных функций, сделав пригодной для работы с произвольными объектами.

Мы видим, что аргументы формулы - это числа. Чтобы произвольные объекты можно было подставлять в формулу, требующую чисел, на ум приходит воспользоваться оценкой. Чтобы сохранить универсальность, возьмём интеллектуальную оценку - сложность. То есть каждый из четырёх членов формулы приобретает вид \mathcal{C}(...).

Числовые аргументы позволяют в формуле использовать сложение и вычитание, не применимые к произвольным объектам. Чтобы обобщить формулу, заменим сложение и вычитание на универсальные интеллектуальные функции - сходство \mathcal{L} и различие \mathcal{O}. Отметим, что, как и сложение и вычитание, сходство и различие является парой симметричной и несимметричной функций.

С этими преобразованиями, формула структурной гармонии приобретает такой вид:

\mathcal{H} (x,y)=\frac{\mathcal{C} (x)\mathcal{C} (y)}{\mathcal{C} (\mathcal{L} (x,y)) \mathcal{C} (\mathcal{O} (x,y))}

Теперь мы можем посчитать гармонию двух произвольных x и y и оценить эстетическую привлекательность их комбинации.

2.6. Верификация формулы

Теперь надо проверить нашу новую формулу. Для этого воспользуемся научной работой [1]. Суть этого исследования состояла в том, что проверялось влияние рифмы и ритма на эстетическую оценку стихов.

2.6.1. МЕТОДИКА

  • Исследователи взяли 60 четырёхстрофных стихов из немецкой поэзии XIX–XX вв. и создали разные версии каждого стиха с комбинациями:

    1. Ритм: регулярный ритм vs нерегулярная ритмика

    2. Рифма: наличествует рифма vs удалена рифма

    3. Лексика: настоящие слова vs псевдословá (без смысла)

  • Таким образом, каждая строфа была представлена в 8 вариантах (2 × 2 × 2).

  • Участники (немецкоговорящие, обычные слушатели, а не эксперты) слушали записи этих вариантов и оценивали их по четырём параметрам:

    1. Эстетическая привлекательность

    2. Сила эмоционального воздействия

    3. Какую эмоцию они воспринимают как выраженную текстом

    4. Какую эмоцию они сами испытывают при прослушивании

  • Анализ проводился с помощью дисперсионного анализа (ANOVA) с факторами лексики, ритма и рифмы.

2.6.2. ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ

  • Рифма: наличие рифмы значительно усиливало все четыре показателя (эстетическое восприятие, эмоциональная интенсивность, воспринимаемую и испытываемую эмоцию).

  • Метрика: регулярный метр положительно влиял на оценки эстетики и эмоциональной интенсивности, но его влияние на переживаемые эмоции было менее устойчиво.

2.6.3. ВЕРИФИКАЦИЯ

Если гармония есть стремление к балансу, то её цель - избежание крайностей. Иными словами, крайние случаи менее привлекательны, чем более сбалансированные. Именно это и подсказывает нам вышеупомянутая работа, по крайней мере для случая стихов.

Компонентами стиха являются строки. На шкале "крайность - баланс - крайность" могут быть такие варианты:

  1. Только различия
    Однажды в студёную зимнюю пору
    Я покинул лес в крайне холодное время года.
    И увидел как поднималась в гору с медленной скоростью.
    Лошадь, запряжённая хворостом.

  2. Баланс между сходством и различием
    Однажды, в студеную зимнюю пору,
    Я из лесу вышел; был сильный мороз.
    Гляжу, поднимается медленно в гору
    Лошадка, везущая хворосту воз.

  3. Только сходство
    Однажды, в студеную зимнюю пору
    Однажды, в студеную зимнюю пору
    Однажды, в студеную зимнюю пору
    Однажды, в студеную зимнюю пору

Работа [1] наглядно показывает, что вариант 2) более предпочтительный, чем 1). Что касается варианта 3), то он в работе не рассматривался, но, поскольку таких "стихов" почти никто не пишет, мы можем рассудить, что особо красивыми они не являются.

Таким образом, хотя бы на одном примере мы доказали, что разум действительно считает баланс сходства и различия более эстетически привлекательным, и наша формула (как минимум) имеет право на жизнь.

Но зачем природе понадобилась красота и разуму потребовалась эстетическая оценка?

2.7. Зачем нужна эстетика?

Статья [1] не исследует напрямую запоминание стихов, но даёт немало указаний на то, как метр и рифма влияют на когнитивную нагрузку, предсказуемость и облегчают восприятие, что, в свою очередь, может быть полезно для запоминания. Вот что она говорит на этот счёт:

  • Уменьшение когнитивной нагрузки за счёт регулярности

    • Регулярный метр (ритмическая структура) делает восприятие стихов более предсказуемым. Когда слушатель слышит ритм, он может предвосхитить, где будут ударения, сильные/слабые слоги. Это означает, что меньше ресурсов нужна на отслеживание слогов, структуры — меньше “сюрпризов”.

    • Нерегулярный метр, наоборот, требует больше “вникания”, поскольку ритм нарушает предсказуемость, увеличивая нагрузку на внимание/рабочую память.

  • Роль рифмы в структуре и предсказуемости

    • Рифма (особенно концевые рифмы) создаёт узнаваемые звуковые повторы и “фонологическую резонансность” между концами строк. Это усиливает ощущение целостной структуры (verses / stanza gestalt).

    • Благодаря рифмам слушатель может легче ожидать, какой звук или слово последует, или по крайней мере, что будет фонологическая схожесть. Это опять-таки уменьшение необходимости непрерывно анализировать каждый звук “с нуля”.

  • Когнитивная плавность (cognitive fluency)

    • Авторы опираются на теорию когнитивной плавности: объекты, которые легче воспринимать и обрабатывать (благодаря знакомым структурам, симметрии, регулярности), воспринимаются как более приятные, вызывают более позитивные эстетические оценки.

    • Элементы ритма и рифмы в поэзии — как раз такие “фоновые” структурные признаки, которые делают обработку проще, быстрее, “более плавной”. Это значит, что меньше умственных усилий тратится на “настройку” восприятия, распознавание структуры, выделение форм, что освобождает ресурсы.

  • Согласно предыдущим исследованиям, ритм и рифма помогают воспроизведению и памяти

    • В введении статьи авторы упоминают результаты предыдущих исследований, что стихи с регулярным ритмическим строем легче запоминать и воспроизводить, чем стихи с нерегулярным ритмическим строем.

    • То есть, уже на этапе предварительных данных указывается, что регулярность (ритм) способствует памяти.

Таким образом, эстетически более привлекательные объекты лучше запоминаются и поддаются более лёгкой обработке в мозгу. Другое название этого феномена: ОПТИМИЗАЦИЯ. Из исследования можно сделать (далеко идущий) вывод о том, что назначение гармонии в природе - именно оптимизация. Наблюдение того, сколь часто гармония проявляется в природе, согласуется с этим выводом.

2.8. Куда это прикрутить?

Можно сделать выделенные процедуры, которые вычисляют интеллектуальные функции: сложность, сходство/различие, гармонию - по структуре переданных знаний или сырых входных данных. Указанные метрики можно считать для любых рассматриваемых объектов, таким образом, искусственная система всегда может быть осведомлена о сложности и красоте того, с чем она в данный момент работает. Интеллектуальные функции повсеместно используются разумом, значит, такое необходимо и для искусственной системы.

Эти функции могут пригодиться как для органов чувств, так и при анализе содержимого хранилища знаний, так и более всего, при создании новых объектов. Однако, придание искусственной системе эстетического чувства - более отдалённая задача, нежели достижение понимания (I). Поэтому данная статья ограничивается только лишь теоретической стороной вопроса.

3.1. Необходимость

Полагаю, что трудно (а скорее невозможно) создать сильный ИИ, не задавшись вопросами, обсуждаемыми в статье:

  • Что такое понимание и для чего оно нужно?

  • Что такое эстетика и для чего она нужна?

  • Какими встроенными функциями обладает разум, и как их формализовать?

  • Как практически реализовать всё вышеупомянутое в искусственной системе?

Насколько хорошо это получилось - судить читателям.

3.2. Что дальше? (от автора)

Что хотелось бы сделать дальше? Разработать проект «Искусственное мышление», основываясь на принципах, изложенных в статье, и реализовать понимание и эстетику в искусственной интеллектуальной системе, которую можно будет обучать, развивать и совершенствовать.

Увы, это задача не осуществима для одного человека, остаётся только попросить:

  • экспертов: посмотрите материал, возможны вы увидите недочёты

  • специалистов по БД: давайте вместе разработаем хранилище знаний

  • специалистов по ИИ: давайте объединим это хранилище с нейросетями

  • крупные компании вроде СБЕР, МТС, Яндекс: помогите в организации и поддержите

  • всех неравнодушных и энтузиастов: пожелайте удачи!

СПАСИБО!

Почта: as@mixed.systems
Телеграм: @ramayasket

Литература

[1] C. Obermeier, W. Menninghaus, M. von Koppenfels, T. Raettig, M. Schmidt-Kassow,
S. Otterbein, S. A. Kotz, “Aesthetic and emotional effects of meter and rhyme in poetry”,
Frontiers in Psychology, 4 (2013).