Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Знаки / Habr

Эта работа является продолжением всего сказанного ранее в статье «Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Версия II». В большинстве статей, посвященных анализу текстов, которые удалось изучить автору, под анализом текста понимается главным образом две совершенно практические задачи, связанные либо с извлечением какого-либо контекста, либо перевод текста с одного языка на другой. В первом случае речь, как правило, идет или об «очистке» анализируемого контента и сопоставлению какого-либо участка текста эталону в соответствии с заранее заданной таксономией¹ каких-либо сущностей. Например, разбор адресов, товаров и т.д. Во втором случае, о поиске соответствия одного блока текста, написанного на одном языке блоку, написанному на другом.

Объединяющим оба эти варианта является статистический, по сути, анализ участков контекстов, с учетом синонимов слов, устоявшихся выражений. При этом за рамками такого рода анализ выходит анализ троп², риторических оборотов и много другого. Причина этого кроется в непонимании современной наукой даже на философском уровне некоторых базовых вопросов, связанных с логикой мышления и принятия решения, построения знаковых систем т.е. неразвитость семиотики и т.д.

С точки зрения статистических подходов, если не учитывать проблемы с постановкой задачи как таковой, налицо нехватка вычислительных ресурсов для отслеживания всех возможных комбинаций, а также анализа семантических структур при реализации разного рода нейронных и прочих комбинаторных алгоритмов. Исключением является анализ относительно небольших смысловых конструкций, таких как адреса, товары и услуги при наличии хорошо проработанного опорного справочника, да и то с не очень высокими показателями точности. Очевидно, что большинство поклонников нейронных сетей и прочего слабого, по своей сути ИИ, могут не согласятся с данным постулатом. Но практика применения переводчика google.com или «Королев» Yandex.ru только подтверждают все вышеизложенное. Количество статей на эту тему как научных, так и не очень огромное количество. Например, «Google Translate: руководство для полного идиота».Некоторый анализ исследований на эту тему представлен в статье «Сравнение технологических подходов к решению задач по извлечению данных». Сама по себе привлекательность тех же нейронных сетей для решения определенного класса задач, не связанных с анализом «смысла» не умаляется ни в какой мере. Задачи поиска статистически значимых закономерностей являются вполне разработанной областью.

Вернемся к основному вопросу о причинах, по которым сегодня не приходится говорить о каком-либо значимом успехе в анализе текстов. Попробуем наметить основные шаги, которые, по мнению автора, следует пройти прежде, чем мы сможем говорить об анализе текста в полном смысле этого слова.

Анализируя большинство практических решений в области Data mining и Data Science неизбежно вырисовывается практически одна и та же картина-модель. В этой модели строятся онтологические справочники, добавляются модули морфологического анализа, строится база синонимов как слов, так и устойчивых выражений. Далее, на основании точности и процента найденных соответствий в анализируемом тексте элементам того или иного антологического справочника, строится заключение об эффективности того или иного алгоритма. В этом отношении не имеет решающего значения выбран ли подход, построенный на базе нейронных сетей, «хешевых» алгоритмов или какой-либо другой. Все они опираются на статистически-частотный принцип. В качестве примера хочется привести все участившиеся публикации о том, как нейронные сети смогли «самообучиться» и «познать» новый смысл. В реальности же можно говорить лишь об «обнаружении» не более чем новых групп или элементов сущностей в рамках известных описательных моделей и шаблонов. Принять решение о том, что выявлена новая сущность или класс, а не экземпляр в рамках предварительно описанного класса, такая система не может даже теоретически. Математический аппарат не имеет математики индукции и абстрагирования.

Поэтому, существующие на сегодняшний день алгоритмы и библиотеки ИИ являются по большей части тупиковой веткой с точки зрения задач «понимания смысла», но, несмотря на это, будут давать неплохие результаты в некоторых областях ввиду «простого» экстенсивного роста как размеченных баз знаний, так и вычислительных мощностей. Все эти победы будут лежать в рамках реализации Интеллектуальных агентов, предназначенных для решения довольно узких практических задач и довольно связаны с решением проблемы создания ИИ-полного механизма.

В действительности же, понимание смысла текста носит гораздо более сложный характер и связана с такими понятиями как «знак», «смысл», «индукция», «ценность» и многое другое, о чем упоминалось ранее. Настоящая статья посвящена первому из базовых понятий, а именно знаку.

Понятие знака

Приступая к обсуждению знака как такового, необходимо сделать некоторые уточнения, связанные с тем, что в действительности необходимо обсуждать сразу три термина, тесно связанных друг с другом. Это «знак», «символ» и «сигнал». Относительно терминологии понятие знака и символа зачастую носит синонимический, характер, сигнал же представляет собой несколько иную сущность.

По утверждению Ю. Шрейдера³ «вряд ли стоит пытаться точно определить, что такое знак». Но это можно объяснить с точки зрения «знаковой ситуации». Знаковая ситуация – это пара из знака и обозначаемого. Другими словами, знак — это то что используется как «заменитель» чего-либо. При этом в «реальном» мире может не существовать ни знака, ни обозначаемого-денотата. До него Ч. Пирс⁴
выделял три типа знака:

Иконический знак.
Пирс определил его как знак, обладающий известным натуральным сходством с объектом, к которому он относится. То есть его действие основано на фактическом подобии означающего и означаемого (например, рисунок льва и сам лев).
Индекс, действие которого основано на реальной смежности означающего и означаемого (например, стон является индексом ранения, болезни; веселый, жизнерадостный смех — индексом радости, счастья). Индексальные знаки также могут указывать на объект (указание пальцем, стрелкой, окриком). Форма этих знаков не является для референта случайной (в отличие от символов), но и не является прямым повторением формы референта (как иконические знаки). Форма индексальных знаков связана с референтом определенными отношениями — например, причинно-следственными.
Символ, действие которого основано на условной, установленной «по соглашению» связи означаемого и означающего (например, кивок головой, как правило, означает утвердительный ответ, однако, у некоторых народов это движение характеризуется как ответ отрицательный). Здесь мы видим, что связь между означающим и означаемым обозначает не отдельный предмет или вещь, а род вещи и зависит от менталитета той или иной культуры.

Своего рода продолжением такой типизации является определение данное Ю. Лотманом⁵, В его понимании «символ» в плане выражения, и в плане содержания всегда представляет собой некоторый текст, то есть обладает некоторым единым замкнутым в себе значением и отчетливо выраженной границей, позволяющей ясно выделить его из окружающего семиотического контекста. При этом, далее Ю. Лотман, дает пояснение, уточняющее положение «символа» внутри всей совокупности знаков. Тем, что символ обладает иконическим свойством «определенным подобием между планами выражения и содержания»⁶. Таким образом, можно высказать предположение, что «символ» — это своего рода подкласс «знаков», тесно связанный прежде всего со своим представлением в виде текстов или аудиозаписей, но не являющийся графическим символом, иначе говоря связь только смысловая, представляющая собой своего рода намек.

Мысль о том, что текст — это прежде всего сигнал переданный от одного адресата другому впервые высказана еще в начале прошлого века еще Ч. Моррисом⁷. В дальнейшем была замечательно развита, например, А. М. Пятигорским⁸
в его работе «Некоторые общие замечания относительно рассмотрения текста как разновидности сигнала». Вот некоторые из его тезисов:

«В лингвистике текст – это определенным образом ограничиваемое разнообразие сигналов… Другим резоном в пользу отнесения теории текста к науке о сигнале, а не о языке может послужить то обстоятельство, что значительная часть текстов (идеографические некоторые иероглифические и т.д.) может быть вообще не связана с конкретным языком».

«Текст создается в определенной, единственной ситуации связи – субъективной ситуации, а воспринимается в зависимости от времени и места в бесчисленном множестве ситуаций».

Далее Пятигорский пишет, что текст есть по своей сути некий «акт поведения автора, определенным образом им же самим физически объективированный и внутренне обусловленный, а его создание – как такая разновидность поведения, содержанием которой является описания»

«Для всякого акта семиотического осознания существенным является выделение в окружающей действительности значимых и незначимых элементов. Элементы, не несущие значения, с точки зрения системы моделирования как бы не существуют.»⁹

Таким образом, любой поток информации и текст по мнению ряда авторов необходимо рассматривать прежде всего, как сигнал, который должен вызвать у получателя какую-либо реакцию.

Контекстность. По меткому выражению того же Ю. Лотмана, каждый текст имеет свою «аудиторию», обладающую некой общей памятью. Таким образом, задача анализа текста осложняется еще и тем, что «анализатор» должен правильно предсказывать целевую группу потребителей текста.

На практике ситуация обстоит еще «хуже», по мнению ряда авторов, любой текст строится на основании «образов-моделей, имеющих синкретическое¹⁰
словестно-зреительное бытие»¹¹, включая смешение и столкновение контекстов в целях риторического усиления смысла. В случае текстов, предназначенных для широкой аудитории задача правильного выбора контекста и набора кодов может быть частично решена путем анализа терминологии, устоявшихся выражений и т.д. В случае же частной переписки, поиск правильного семиотического поля представляет собой практически нерешаемую задачу, требующую глубокий анализ истории отношений корреспондентов, построение их собственной структуры кодов, включая тропы, «собственные», выдуманные ими слова т.д...

Структура знаковых систем

Структуру знаковых систем представляет собой многогранное и многоуровневое явление. К наукам, которые можно охарактеризовать как разделы семиотики можно отнести синтактику, семантику, прагматику, лингвистику, риторику, культурологию и ряд других. К междисциплинарным наукам, затрагивающим сферу интересов семиотики можно отнести культурную антропологию, этносемиотику и этнографию, историю, философию, математику и т.д.

На нижнем уровне можно говорить о структуре знака, на среднем о семантических и семиотических структурах. На высшем уровне — о семиосфере в целом.

Впервые о структуре знака заговорили Г. Фреге, Ч. Огден и А. Ричардс¹², Де Соссюр¹³, Ч. Моррис и ряд других авторов еще в 1920-х годах. На эту тему существует огромное количество работ, например, работы Шрейдера¹⁴, или статьи в Русском журнале и многих других, повторять которые в рамках данной статьи не имеет смысла. Остановимся кратко лишь на треугольнике Фреге:

Все эти работы объединены анализу взаимосвязи знак-концепт-денотат. Где концепт – это информация, которую знак несет о возможных денотатах¹⁵, а денотат — это то что обозначается. Ч. Моррис выделяет дополнительное абстрактное понятие – десигнат. В его понимании десигнат – это не вещь, но род объекта или класс объектов, а класс может включать в себя или много членов, или только один член, или вообще не иметь членов¹⁶. Понятие же знака, описано выше. Таким образом любой текст можно рассматривать двояко: с одной стороны, это некая суперпозиция знаков, а с другой — их концептов, в отдельных случаях весь текст и будет являться знаком целиком.

Гораздо неоднозначнее все обстоит с определением отношений знак-сигнал. Как уже упоминалось выше, в работах таких исследователей как Ч. Моррис, А. Пятигорский, Р. Якобсон одним из приоритетных посылов является тот факт, что любой текст прежде всего следует воспринимать как сигнал. Если в начале прошлого века этому уделялось большое значение, то сегодня в угоду задач перевода и извлечения данных львиная доля исследований посвящена синтагматическому и семантическому анализу, построению разного рода тезаурусов.

Все что на сегодняшний день упоминается в связи с сигналами – это то что, часть знаков можно отнести к сигналам или в терминологии Ч. Пирса – индексам. В реальности же картина совершенно противоположна – знаки есть часть сигнальной системы. Если внимательно отнестись к анализу пары знак-сигнал, то мы переходим к совершенно иной области исследований связанную с дополнительными по отношению к знаку свойствами сигнала.

Сигнал:

К основным признакам сигнала можно отнести следующие:

Имеет физическую сущность в виде канала распространения.

Согласно предложенной А. Пятигорским концепции текст обладает такими базовыми характеристиками как пространственность, время и объектность. Под пространственностью понимается как сам факт наличия носителя информации, так как его форма. Форма может иметь существенное значение. Например, письмо и газетная вырезка имеют совершенно разную чувствительность к оценке и интерпретации смысла текста.

Канал служит для передачи невербальных и вербальных знаков.

Чаще всего, говоря о понимании смысла мы оперируем задачами анализа текстов или распознавания эмоций на лице человека. Эти задачи по сути сводятся к двум довольно изолированным каналам – текстам и изображениям.

Предполагается ожидание обратной связи – реакции.

Причина возникновения любого сигнала – это потребность или необходимость получения какой-либо реакции. Она может иметь целью установление обратной связи, а может иметь и односторонний характер. Но наличие какой-либо реакции является обязательным условием.

Точность соответствия реакции может варьироваться.

Варьирование точности реакции является функцией, зависящей от таких параметров как наличие шума, наличие общей множественности понятий, ассоциативных рядов. Все это можно выразить обобщенным понятием общего (одинакового) предыдущего опыта. При этом под шумом надо понимать не истинность или ложность потока знаков, а скорее его взаимная непротиворечивость знаков. Данная проблема усугубляется наличием троп и риторических оборотов в целом, которые не является выпадающим контекстом. Они служат для усиления потока сигналов.

сила и качество воздействия сигнала;

Свойство силы и качества воздействия зависит многих факторов, но главным образом от наличия общего опыта, состояния адресата на момент получения сигнала и совокупности знаков, по средствам которых передается сигнал. Кроме того, следует учитывать «плотность» и скорость передаваемого потока знаков, ограничивающих предел восприятия, и силу эмоционального воздействия, ограничивающего возможности психики, в случае адресата-человека.

эмоциональная окраска;

Сама по себе тема эмоций безгранична. В рамках задач текущего исследования, представляет интерес два вопроса. Является ли эмоция самостоятельным сигналом? Имеет ли она сама по себе знаковую природу, т.е. имеются ли концепт и десигнат? Является ли эмоция свойством знака или одной из характеристик канала передачи сигналов? Ввиду ограниченности самого формата статьи ограничимся лишь утверждением, что эмоция — это как минимум полноценный сигнал, с неочевидной знаковой природой. Эмоциональная окраска является характеристикой канала, меняющейся во времени в рамках процесса работы канала.

Часть вышеуказанные признаков в той или иной мере перекликаются с хорошо известной теорией сигналов в теории информации.

Семиосфера – среда обитания знаков

Термин семиосфера¹⁷ был введен Ю. Лотманом, по аналогии с биосферой В. Вернадского, как общее культурное пространство, включающее язык как его часть.

Семиотическая система, согласно Лотману, обладает бинарностью, асимметричностью и неоднородностью. Принцип бинарности предполагает, что любой язык (семиотическая система) рано или поздно подвергается раздроблению на другие языки (системы). При этом, надо учитывать наличие и обратного механизма – унификации. В результате появляются новые языки искусства с одной стороны, и возникают новые каноны с другой. Принцип асимметричности говорит о том, что такое дробление происходит в разных пропорциях. Принцип неоднородности говорит о том, что в рамках семиосферы могу существовать структуры совершенно различной природы. Упрощенно, в качестве таковых могут выступать разного рода мемы, локальные понятия об истинности тех или иных высказываний, различные означивания одних и тех же концептов и денотатов и многое другое. В результате могут возникать ситуации как частичной, так и полной непереводимости.

Исходя из всего вышеизложенного, напрашивается вывод, что не существует некой единой семиотической структуры или каких-либо изолированных систем. В противовес этому следует говорить о наличии глобальной семиосферы, представляющей собой некую «суперпозицию» различных семиотических систем.

Модели обмена.

Построение модели канала коммуникации является одной из важнейших задач, без решения которой невозможно провести анализ процессов в ходе которых происходит обмен сигналами, и знаками, в частности.

Одной из первых коммуникационных моделей была предложена Р. Якобсоном¹⁸. Данная модель представляет собой следующую абстракцию¹⁹:

Позже была предложены другие, по сути, расширенные модели. Например, «театральная модель» Ю. Кристевой²⁰: «автор-адресат-другие-ситуация».

Все эти модели указывают, что сама по себе любая из моделей кроме того, что оперирует общими понятиями адресата и получателя, сильно зависимы от таких понятий как «контекст». По утверждению Ю. Кристевой²¹, одной из базовых проблем в анализе передаваемого содержания является отсутствие Единственного смысла, а следовательно, и отказ от самой возможности однозначной интерпретации. Искажение или различия в трактовках смысла обусловлены отказом в праве субъекту-автору в «сакральности», «магии» и «эффекту».

Под «сакральностью» понимается отсутствие в самом праве на Единственный смысл. Под «магией» — невозможности охранить субъекта от доминирующей семиосферы, т.е. от возможных изменений трактовок в тех или иных семиотических систем.

С точки зрения темы статьи наличие этих моделей указывает, на тот факт, что проектировать придется не только сам канал как таковой, но и реализовывать, например, такие подсистемы как:

— сетевые базы-графы знаков, которые сами по себе могут быть инкапсулированы друг в друга;

— групп субъектов (адресатов и получателей)

— сетевые модели возможных контекстов.

Омниканальность²²

Большинство работ, связанных с семиотикой и семантикой оперируют такими понятиями как изолированные с точки зрения анализа текст или изображение. Но без исследования эффектов, который накладывает наличие большого количества параллельных и взаимоинтегрированных потоков говорить о полноценном ИИ не приходится, даже в задачах «простого» анализа текстов. При передаче информации, например, учебные фильмы, курсы лекций и т.д. одновременно присутствуют и текстовые, и аудио- видео- потоки информации.

До сегодняшнего времени автору не попадались сколь значимо серьезные работы на эту тему.

Выводы

Данная тема представляет собой огромный пласт вопросов, детальное обсуждение которых невозможно в рамках отдельной статьи. Поэтому, основной задачей было показать основные блоки, без реализации которых дальнейшее продвижение попросту невозможно.

Существующие решения, из тех, что известны автору на данный момент, либо вообще игнорируют проблему знаков, либо имеют сильно упрощенный подход к задаче анализа и оперирования знаками.

Для дальнейшего продвижения необходимо решение следующих инженерных задач:

Создание единых комплексов баз и правил оперирования, объединяющих различные классы знаковых систем таких как текстовые, графические, видео и аудио знаки. Данные комплексы должны включать в себя такие подсистемы как знаки, концепты и денотаты в разрезе культурных, профессиональных, исторических и ряда других измерений.
Создание баз и типов субъектов-адресатов с учетом измерений, указанных в предыдущем пункте.
Создание баз взаимосвязей семиотических структур, а не только блоков взаимосвязанных текстов и разного рода тезаурусов.
Создание баз и правил порождения и оперирования в целом эмоциональным воздействия знаков.
Создаваемая система должна в обязательном порядке учитывать проблему омниканальности, даже в случае оперирования в рамках только одного из каналов.
Отказ от попыток получения единственного смысла в пользу построения скорее вероятностных результатов, характерных для той или иной семиотической структуры, интерпретация которых кумулятивно зависит от предыдущих проанализированных контекстов, включая смежные.
Понятие верности и ложности высказываний, сформированные суперпозицией утверждений, образованные знаками являются достоверности только в разрезе одного момента времени. Следовательно, должны быть реализованы подсистемы мониторинга и анализа таких суперпозиций. Разработаны модели корректирующие основной поток выводов.

Ссылки

1ТАКСОНО́МИЯ- наука о классификации сложных объектов действительности (живой природы, строения Земли, этнических общностей, языка и др.) Толковый словарь Ожегова. С.И. Ожегов, Н.Ю. Шведова. 1949-1992.

2ТРОПЫ (от греческого tropos - поворот, оборот речи), 1) в стилистике и поэтике употребление слова в образном смысле, при котором происходит сдвиг в семантике слова от его прямого значения к переносному. На соотношении прямого и переносного значений слова строятся три вида троп: соотношение по сходству(метафора), по контрасту (оксиморон), по смежности (метонимия). Различные способысловопреобразований (от слова к образу) являются важным элементом художественного мышления. Нарядус главными видами троп выделяют также их разновидности (ирония, синекдоха, гипербола, литота, эпитети др.). 2) (Музыкальное) в григорианском хорале вставка (или серия вставок) в каноническое песнопение - текстовая или бестекстовая. Современная энциклопедия. 2000.

3 Шрейдер Ю.А. Логика знаковых систем: Элементы семиотики. Книжный дом «ЛИБРИКОМ»,2012. Стр. 4

4 textb.net/51/18.html

5 Лотман Ю.М. Внутри мыслящих миров. Издательство Азбука, 2015. С.158

6 Лотман Ю.М. Внутри мыслящих миров. Издательство Азбука, 2015. С.171

7 Ch.Morris Fundations of the theory of Sings. Chicago, 1938 г.

8 А.М. Пятигорский “Некоторые общие замечания относительно рассмотрения текста как разновидности сигнала». Структурно-типологические исследования. Сборник статей. М.: Издательство Академии Наук СССР, 1962 Стр. 144-154

9 Лотман Ю.М. Внутри мыслящих миров. Издательство Азбука, 2015. С.90

10 Синкретический — филос. состоящий из разнородных элементов, но являющийся целостным.

11 Лотман Ю.М. Внутри мыслящих миров. Издательство Азбука, 2015. С.127

12 C. K. Ogden and I. A. Richards, The Meaning of Meaning subtitled A Study of the Influence of Language upon Thought and of the Science of Symbolism, 1923, Magdalene College, University of Cambridge, p. 11

13 Соссюр Фердинанд де, Курс общей лингвистики: Изданный Ш. Балли и А. Сеше при участии А. Ридлингера. Пер.с фр. / Под ред. И с примеч. Р.О. Шор., Книжный дом «ЛИБРИКОМ», 2016.

14 Шрейдер Ю.А. Логика знаковых систем: Элементы семиотики. Книжный дом «ЛИБРИКОМ»,2012.

15 Шрейдер Ю.А. Логика знаковых систем: Элементы семиотики. Книжный дом «ЛИБРИКОМ»,2012. С.10.

16 Ch.Morris Fundations of the theory of Sings. Chicago, 1938 г.

17 Лотман Ю.М. Внутри мыслящих миров. Издательство Азбука, 2015. С.176

18Jakobson R. Lingustics and Poetics. Style in Linguage. Cambridge, 1964. P. 353

19 Лотман Ю.М. Внутри мыслящих миров. Издательство Азбука, 2015. С.30

20 Кристева Ю. Семиотика: Исследования по семанализу. Академический проект,2015.

21 Кристева Ю. Семиотика: Исследования по семанализу. Академический проект,2015. С 13.

22 Термин «омниканальность» введен автором по аналогии с понятием омниканальности принятым в маркетинге.

Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Знаки

{{ titleHtml }}

{{ titleHtml }}