Конкордантность смысла / Хабр

В [1, 2, 3] тексты (знаковые последовательности с повторами) с помощью матричных единиц, как образов слов, превращались (координатизировались) в алгебраические системы. Координатизация — необходимое условие алгебраизации любой предметной области. Функция (стрелка) (7) в [1] является матричной координатизацией текста. Со словами и фрагментами матричных текстов можно совершать алгебраические операции, как с целыми числами, но с учетом некоммутативности умножения слов как матриц. Структуризация текстов сводится к вычислению идеалов и категорий текстов в матричной форме.

В этой статье определяется понятие матричного слова в контексте. Слова-знаки при повторах могут иметь разные фрагменты текста между ними (контексты), а слова, одинаковые по написанию и звучанию, — иметь разный смысл (как омонимы). В тексте все повторяющиеся слова могут быть омонимами, если их контексты отличаются соответствующей мерой (модулем). И обратно, разные по написанию и звучанию слова могут иметь схожие контексты и разную меру синонимичности. Частотность ключевых слов в семантическом анализе целесообразнее определять как частотность контекстов, сравнимых по соответствующей мере, чем как частотность слов-знаков, подобно буквам алфавита. При вычислении смысловой частотности слов с учетом контекста разные словазнаки с одинаковыми контекстами должны суммироваться при вычислении частоты и, наоборот, одинаковые слова-знаки с разными контекстами — исключаться.

Матричные слова дополняются множителями-контекстами. Эти множители из-за свойств матричных единиц не приводят к изменению слов как знаков, но содержат знаки, влияющие на смысл определяемых слов. Контекстные множители у матричных слов имеются, но не влияют на знаки. Множители содержат отношения (по Фреге) с другими знаками (часть свойств этих знаков – это их смысл в данном контексте). Смысловое сходство и различие слов можно тогда вычислять сравнением (согласованием) этих множителей-контекстов.

Для выполнения алгебраических операций с матричными словами в контексте требуется согласование (конкордация) – смысловое согласование знаков и фрагментов текста, зависящее от меры (модуля) согласования. Матричные слова могут складываться в текст, если их контексты имеют общий смысл (модуль). Инвариантами матричных текстов, сохраняющими их смысл при заменах слов и фрагментов текста на согласованные, являются возрастающие и убывающие цепи Нёттер. Цепи Нёттер позволяют составить системы алгебраических уравнений для преобразований текстов, сохраняющих их смысл.

Слово в контексте

Пусть имеются два повторяющихся слова $E_{i_1,j}$ и $E_{i_2,j}$ (вторая координата j – это номер из словаря, первые координаты i_1 и i_2 – это номера слов в тексте) и фрагмент матричного текста $F_{i_1,i_2}^j$ между этими словами (контекст):

$F_{i_1,i_2}^j=E_{i_1+1,k_1} + \ldots + E_{i_2-1,k_n}, \ \ \ \ \ \ \ \ \ (1)$

где каждый k_m – это номер слова в словаре (9) в [1], $k_m \neq j$ . Из-за правила координатизации (7) в [1] любой km в (1):

$k_m < i_2, \ \ \ \ \ \ (2)$

поскольку:

$k_1 \leq i_1 + 1, \ldots , k_n \leq i_2 - 1, \ \ \ \ \ \ \ \ \ \ (3)$ $i_2 > i_2 - 1, \ldots, i_2 > i_1 + 1. \ \ \ \ \ \ \ \ \ \ (4)$

В случае i_2 = i_1 + 1 фрагмент нулевой. Например, в многоточии «...» в (1) контекст каждой точки отсутствует и тогда смысл (контекст) имеет не каждая точка, а три точки целиком, как слово (знак) в словаре. При этом точка — это тоже знак из словаря текста. Между двумя точками, не находящимися рядом, имеется ненулевой фрагмент текста (предложение, как соответствующий контекст каждой точки). Таким образом, даже точки в тексте, хотя и выглядят одинаково, но имеют разный смысл-контекст (как точки-омонимы). Аналогично, знаки абзацев, параграфов и, вообще говоря, все слова имеют разный смысл в тексте, если повторяются. И наоборот, если слова имеют одинаковый по соответствующей мере (модулю) контекст, но эти слова — разные как знаки, то их можно считать близкими по смыслу (синонимами). Например, «...», «так далее», «etc».

Highly likely, для достижения всеобщего непонимания среди строителей Вавилонской башни избыточно было заставлять их разговаривать на разных языках. Нет всеобщего понимания и на одном контекстном языке – нужны смысловые (контекстные) переводчики.

Словом $E_{i_2,j}$ в контексте $F_{i_1,i_2}^j$ называется выражение:

$E_{i_2,j} = (F_{i_1,i_2}^j+ E) E_{i_2,j}, \ \ \ \ \ \ \ \ \ \ (5)$

где E – единичная матрица. Из-за (2):

$F_{i_1,i_2}^j E_{i_2,j}= 0. \ \ \ \ \ \ \ \ \ \ \ (6)$

Произведение справа любого слагаемого $F_{i_1,i_2}^j$ из (1) на $E_{i_2,j}$ равно нулю.
Множитель $(F_{i_1,i_2}^j+ E)$ не приводит из-за (6) к изменению знака $E_{i_2,j}$ , но может использоваться для сравнения двух (необязательно повторяющихся) слов $E_{i_1,i_2}$ и $E_{i_3,i_4}$ сравнением их контекстов $F_{i_5,i_1}^{i_2}$ и $F_{i_6,i_3}^{i_4}$ . Такое семантическое сравнение слов текста по контексту (смыслу) в дальнейшем будет называться согласованием (конкордацией) по смыслу слов.

Конкордантность слов

Пусть имеются два слова $E_{i_2,j_1}$ и $E_{i_4,j_2}$ с номерами j_1 и j_2 из правого словаря текста D_R в контекстах $F_{i_2,i_1}^{j_1}$ и $F_{i_3,i_4}^{j_2}$ между парами повторяющихся слов:

$E_{i_2,j_1}= \left( F_{i_2,i_1}^{j_1} D_{1R} + E \right)E_{i_2,j_1}, \ \ \ \ \ \ \ \ \ \ \ (7)$ $E_{i_4,j_2}= \left( F_{i_3,i_4}^{j_2} D_{2R} + E \right)E_{i_4,j_2}, \ \ \ \ \ \ \ \ \ \ \ \ \ (8)$

где $D_{1R}$ и $D_{2R}$ – правые словари контекстов $F_{i_2,i_1}^{j_1}$ и $F_{i_3,i_4}^{j_2}$ , i_1 , i_2 и i_3 , i_4 – номера парами повторяющихся слов. В дальнейшем все словари принимаются как правые и индекс R не указывается.

Два слова могут быть конкордантны (согласованы) как по пересечению контекстов слов (2) в [3], так и по объединению (3) в [3]. В дальнейшем будет рассматриваться только пересечение контекстов. Алгебраически описания для объединения и пересечения совпадают. Для применения – их назначение отличается. Человек из-за природных физических ограничений одновременно может удерживать в процессе понимания всего несколько сущностей (около семи). Для сведения к этому количеству многообразия мира используется такая операция мышления как абстрагирование. Конкордантность по пересечению является математической экспликацией процесса абстрагирования в форме редукции (4) в [3]. Предельным случаем абстрактных понятий естественного языка являются логические категории (Аристотеля, Канта, Гегеля). Иерархическая преемственность понятий (слов) необходима для построения отношений часть-целое (отношений понимания).

Конкордантность по объединению (3) в [3] увеличивает сущности. Но их количество имеет значение только для людей. Для машинных языков это ограничение не существенно. Поэтому конкордантность по объединению может быть применена для взаимодействия машин, а также для будущего коллективного разума человеческой популяции (по П.Г.Кузнецову), для которого необходимо создать технологии коллективного понимания. В настоящее время приемлемое понимание достигается в коллективах программистов. Для коллективов пять и больше, например, медиков (по Т. и Б. Бьюзенам) нет ни одного термина, который бы они понимали одинаково. В математике, казалось бы универсальном языке человечества, с идеальными объектами не меняющимися во времени (П.Г. Кузнецов), специализация достигла такого уровня, что полностью понимают друг друга территориально распределенные коллективы по три-четыре человека.

Конкордантность по пересечению будет называться просто конкордантностью. Два слова (7) и (8) конкордантны (согласованы) $\dot{\sim}$ («точка над тильдой») по пересечению правых словарей $D_{1R}$ и $D_{2R}$ контекстов $F_{i_1,i_2}^{j_1}$ и $F_{i_3,i_4}^{j_2}$ :

$E_{i_2,j_1}\dot{\sim} E_{i_4,j_2}(\mathrm{mod}{D_1D_2}), \ \ \ \ \ \ \ \ \ (9)$

если пересечение двух словарей:

$D_1D_2 \ne 0 \ \ \ \ \ \ \ \ \ \ (10)$

Выражение (9) означает, что слова $E_{i_2,j_1}$ и $E_{i_4,j_2}$ похожи в том смысле, что их контексты $F_{i_1,i_2}^{j_1}$ и $F_{i_3,i_4}^{j_2}$ имеют общий словарь D_1D_2 . При этом согласованными являются контексты после редуцирования (4) в [3]:

$F_{i_1,i_2}^{j_1} D_1D_2 \ \ \ \ \ \ \ \ \ \ (11)$ $F_{i_3,i_4}^{j_2} D_1D_2 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (12)$

Каждый редуцированный контекст содержит все слова из словаря D_1D_2 . Действительно, для любого слова $E_{i_5,j_3}$ , имеющегося в $F_{i_1,i_2}^{j_1}$ , но отсутствующего в $F_{i_3,i_4}^{j_2}$ :

$\left(E_{i_5,j_3} + F_{i_1,i_2}^{\star j_1}\right) D_1D_2= F_{i_1,i_2}^{\star j_1} D_1D_2, \ \ \ \ \ \ \ \ \ \ \ \ (13)$

где $F_{i_1,i_2}^{\star j_1}$ – часть контекста $F_{i_1,i_2}^{j_1}$ после удаления слова $E_{i_5,j_5}$ .

N слов конкордантны, если каждая их пара конкордантна:

$E_{i_1,j_1}\dot{\sim} E_{i_2,j_2}(\mathrm{mod}D_1D_2 \ldots D_N), \ \ \ \ \ \ \ \ \ \ \ \ (14)$

и произведение словарей:

$D_1D_2\ldots D_N \ne 0 \ \ \ \ \ \ \ \ \ \ \ \ \ (15)$

Отношение конкордантности $\dot{\sim}$ является отношением эквивалентности, поскольку условия рефлексивности и симметричности для матриц выполняются, а транзитивность отношения следует из (14) и (15).

Мерой (модулем) конкордантности является (15). Именно этим модулем объясняется появление термина «конкордантность по модулю» по аналогии с термином «сравнение по модулю» для целых чисел. Как разные целые числа могут быть равны по модулю, так и разные (как знаки) слова текста могут быть эквивалентны (взаимозаменяемы) по соответствующему модулю конкордантности. Это означает, что если у слов конкордантны их контексты, то слова имеют согласованный смысл и могут считаться эквивалентными (взаимозаменяемыми по смыслу в тексте).

Слова $E_{i_1,j_1}, \ldots , E_{i_n,j_n}$ и их суммы могут быть конкордантны по модулю. На отношениях конкордантности, подобно равенству и сравнению по модулю, возможно составлять системы уравнений конкордантности. Неизвестными могут быть определяемые и определяющие слова, модули конкордантности, контексты и фрагменты текста. Уравнения конкордантности позволяют вычислять ответы на такие вопросы: в каком смысле (здесь неизвестная – модуль конкордантности) слова и тексты конкордантны? Если задан смысл (модуль), то какой набор слов заменяем на другие слова? Таким образом, возможно вычислять определения слов и смысловые версии текста. Находить взаимозаменяемые слова, вычислять смысловую разметку и структуризацию текста, черновики текста по аннотации и смысловой перевод текста (даже одного языка). На этих вычислительных возможностях могут основываться новые функции текстовых редакторов и ридеров, мессенджеров и социальных сетей. В последнем случае возможно, составив персональный контекстный словарь пользователя-участника по его сообщениям, сопровождать общение смысловым переводом текста и звука через персональные контекстные языки других участников.

Конкордантное сложение

Конкордантным сложением пары слов (7) и (8) называется выражение

$E_{i_2,j_1}+ E_{i_4,j_2}= \left[ \left(F_{i_1,i_2}^{j_1} + F_{i_3,i_4}^{j_2}\right)D_1D_2 + E\right] \left(E_{i_2,j_1}+ E_{i_4,j_2}\right) \ \ \ \ \ \ \ \ \ (16)$

При этом по (6):

$F_{i_1,i_2}^{j_1} E_{i_2,j_1}= 0 \ \ \ \ \ \ \ \ \ \ (17)$ $F_{i_3,i_4}^{j_2} E_{i_4,j_2}= 0 \ \ \ \ \ \ \ \ \ \ \ (18)$

Поскольку $F_{i1,i2}^{j_1} D_1D_2$ и $F_{i_3,i_4}^{j_2} D_1D_2$ – это части фрагментов $F_{i_1,i_2}^{j_1}$ и $F_{i_3,i_4}^{j_2}$ , то:

$F_{i_1,i_2}^{j_1} D_1D_2E{i_2,j_1}= 0 \ \ \ \ \ \ \ \ \ \ (19)$ $F_{i_3,i_4}^{j_2} D_1D_2E_{i_4,j_2}= 0 \ \ \ \ \ \ \ \ (20)$

Таким образом, $\left[\left(F_{i_1,i_2}^{j_1} + F_{i_3,i_4}^{j_2}\right)D_1D_2 + E\right]$ является согласованным контекстом для суммы слов. Модулем согласования является общий словарь двух контекстов D_1D_2 . Конкордантное сложение слов:

$E_{i_1,j_1}+ \ldots + E_{i_n,j_n}=\\ \left[\left(F_{\ldots,i_1}^{j_1} +\ldots +F_{\ldots,i_n}^{j_n}\right)D_1\cdot \ldots \cdot D_n + E\right] \times \\ \times \left(E_{i_1,j_1}+ \ldots + E_{i_n,j_n}\right), (21)$

где многоточие в индексах $F_{\ldots,i}^j$ означает номер повторяющегося слова слева от номера , $D_1 \ldots D_n$ - произведение правых словарей контекстов $F_{\ldots,i_1}^{j_1},\ldots, F_{\ldots,i_n}^{j_n}$ .

Слово в уточненном контексте

Два слова конкордантны (9), если правые словари их контекстов имеют ненулевую область пересечения (10). Но каждое слово этих контекстов также является словом в контексте (5). Поэтому необходима взаимная конкордантность определяемого слова с определяющими словами. Такая рефлексия по В.А.Лефевру, является причиной неоднозначности естественного языка и трактований текстов («я думаю, что они думают, что я думаю, . . . »).

Математической экспликацией рефлексии является латентная смысловая нелинейность линейно упорядоченных слов-знаков. Возможно, в будущем языковые тексты перестанут быть линейными и одномерными. Нотные тексты, например, 5-мерные, хотя и их можно переложить в одномерный стан-«ниточку», но это превратит нотные тексты в чудовищно непонятные коды со словарями, сравнимыми со словарями языковых текстов. Такие одномерные музыкальные тексты, как и языковые тексты, потребуют смыслого гештальт перевода, а не только персонального интонационного, как для 5-мерных музыкальных текстов. В будущем многомерном языковом тексте можно будет указывать на смысловые цепочки раскрытия смысла слов и фрагментов текста, а не распознавать их интуитивно или с помощью лайфхаков смыслового (быстрого) чтения.

Контекст $F_{i_1,i_2}^j$ (1) в определении слова (5) может рассматриваться как конкордантная сумма матричных слов (21), поскольку каждое слагаемое слово в (1) также имеет свой контекст. Тогда слово в таком уточненном контексте для (5) имеет вид:

$E_{i_2,j} = \left(F_{i_1,i_2}^j + E\right) E_{i_2,j} =\\ =\left[\left[\left(F_{\ldots,i_1}^{j_1} + \ldots + F_{\ldots,i_n}^{j_n}\right)D\left(F_{\ldots,i_1}^{j_1}\right) \times \\ \times D \left(F_{\ldots,i_2}^{j_2}\right) \ldots D\left(F_{\ldots,i_n}^{j_n}\right) + E\right]F_{i_1,i_2}^j D\left(F_{i_1,i_2}^j\right) + E\right] E_{i_2,j}, \ \ \ \\ (22)$

где:

$D\left(F_{\ldots,i_1}^{j_1}\right), \ldots , D\left(F_{\ldots,i_n}^{j_n}\right) \ \ \ \ \ \ \ \ \ \ (23)$

-- словари контекстов $F_{\ldots,i_1}^{j_1}, \ldots , F_{\ldots,i_n}^{j_n}$ ,

$D\left(F_{i_1,i_2}^j\right) \ \ \ \ \ \ \ \ \ \ \ (24)$

-- словарь фрагмента-контекста $F_{i_1,i_2}^j$ .

Слово в уточненном контексте (22) – матричная билинейная по F форма.

Два слова вида (22) конкордантны по уточненным контекстам, если пересечение (произведение) всех словарей всех контекстов обоих слов:

$D_1D_2 \ne 0, \ \ \ \ \ \ \ \ \ \ (25)$

где D_1 и D_2 – произведения всех словарей (23) и (24) первого и второго слова.

Могут быть конкордантны n слов по уточненным контекстам, если каждая пара конкордантна. Модулем конкордантности является произведение всех словарей всех контекстов всех форм.

Могут быть конкордантны суммы слов (фрагменты текста) (21) по уточненным контекстам, если каждая пара сумм конкордантна.

Пара сумм слов конкордантна, если произведение словарей всех контекстов всех слов пары сумм отлично от нуля.

Если модуль конкордантности, как произведение словарей всех уточненных контекстов всех слов как билинейных форм (22), ненулевой, то текст из этих слов конкордантен.

Классы конкордантности

Все слова и фрагменты матричного текста могут быть разложены в классы конкордантности.

Каждому слову $E_{i_2,j}$ с номером i_2 в текст в форме (22) соответствует множитель слева:

$\left[ \left[ \left(F_{\ldots,i_1}^{j_1} +\ldots +F_{\ldots,i_n}^{j_n} \right) + E \right]F_{i_1,i_2}^j+ E \right]. \ \ \ \ \ \ \ (26)$

Каждому фрагменту текста F_i , как и любому F в (25), соответствует свой словарь D_i:

$F_iD_i= F_i \ \ \ \ \ \ \ \ \ \ \ \ (27)$

Множители (26) слева для $E_{i_2,j}$ в (22), как и D_i справа для F_i в (27), существуют, но не изменяют $E_{i_2,j}$ или F_i . При этом множители однозначно определяются из текста по его фрагментам. Отсутствие влияния множителя на знаки является необходимым условием, но не достаточным для отношений конкордантности. Достаточным условием является то, что не влияющие на знаки E_i,j и F_i множители (25) слева и D_i справа (26) являются однозначной функцией (свойством) текста.

Каждой паре слов $E_{i_1,j_1}$ и $E_{i_2,j_2}$ в форме (22) с номерами i₁ и i₂ в тексте соответствует модуль $\kappa_{i_1,i_2}$ (каппа) конкордантности – произведение всех словарей всех уточненных контекстов обоих слов (25).

Каждой паре фрагментов текста F_i и F_j соответствует модуль $\kappa_{i,j}$ конкордантности – произведение всех словарей всех уточненных контекстов всех слов.

Каждой паре $E_{i_1,j_1}$ и F_j из слова в форме (22) и фрагмента текста соответствует модуль $\kappa_{i_1,j}$ конкордантности – произведение всех словарей всех уточненных контекстов $E_{i_1,j_1}$ и F_j.

Обратно, каждому модулю $\kappa_K$ (имя класса) соответствует множество уточненных контекстов, множество слов, соответствующих этим контекстам по (22) и множество фрагментов текста, имеющих словарь, равный $\kappa_K$ . Все эти три множества взаимно конкордантны и все их элементы являются элементами одного класса конкордантности .

Множество всех классов конкордантности по модулю $\kappa_K$ – это булеан множества всех n слов словаря текста или все его частичные суммы (словари фрагментов). Число всех частичных сумм 2ⁿ.

Принадлежность таких элементов одному классу означает, что существуют матрицы преобразования элементов друг в друга. Действительно, если множество уточненных контекстов, множество слов, соответствующих этим контекстам по (22) и множество фрагментов текста, имеют один словарь, равный $\kappa_K$ , то все эти элементы подобны друг другу (20) в [1]. При этом общим объектом преобразования в уточненном контексте и фрагментов текста являются матричные полиномы (31) в [1].

Взаимные преобразования уточненных контекстов, слов, соответствующих этим контекстам и фрагментов текста, имеющих словарь, равный $\kappa_K$ , следующие:

Преобразование пары уточненных контекстов вида (26):

$\begin{split} F_1 = \left[ \left(F_1^1+\ldots +F_n^1 \right)D_{1R} \ldots D_{nR} + E\right]F_1 \\ F_2 = \left[ \left(F_1^2+\ldots +F_n^2 \right)D_{1R} \ldots D_{nR} + E\right]F_2 \end{split} \ \ \ \ \ \ \ (28)$

Пусть имеются два матричных текста (28). Из-за того, что они принадлежат одному классу, они имеют одинаковый модуль $\kappa_i$ или, что то же самое, имеют одинаковые правые словари. Но матричные тексты, имеющие одинаковые словари, образуют идеалы (кратны словарю) по (37) в [1]. Всегда существует матричный полином, при умножении которым слева на один уточненный фрагмент (28) получается уточненный фрагмент вида (28):

$F_1 = F_{1,2}F_2 = \left[\left(F_{1,2}F_1^2+\ldots +F_{1,2}F_n^2\right)D_{1R} \ldots D_{nR} + E\right]F_{1,2}F_2 \ \ \ \ \ \ \ \ (29)$

С точностью до этого матричного множителя $F_{1,2}$ два уточненных фрагмента неразличимы (взаимозаменяемы).

2 Преобразование слов в уточненном контексте вида (22). Пусть имеются два слов:

$\begin{split} E_{i_1,j_1} = (F_1 + E) E_{i_1,j_1} \\ E_{i_2,j_2} = (F_2 + E) E_{i_2,j_2} \end{split} \ \ \ \ \ \ \ \ (30)$

Поскольку слова конкордантны (имеют общий словарь $\kappa_{1,2}$ , как произведение всех словарей всех уточненных контекстов (14)), то:

$E_{i_1,j_1} \dot{\sim} E_{i_2,j_2}(\kappa_{1,2}) \ \ \ \ \ \ \ \ \ \ \ (31)$

Как и сравнения целых чисел, конкордантность матричных единиц (31) можно записать через равенство:

$E_{i_1,j_1}= \left(F_{1,2}F_2 + E\right) F_{1,2}E_{i_2,j_2} E_{j_2,j_1} \ \ \ \ \ \ (32)$

3 Преобразование слов и контекстов.

Пусть имеются слово и контекст:

$\begin{split} E_{i_1,j_1}= (F_1 + E) E_{i_1,j_1}\\ F_2 = \left[\left(F_1^2+\ldots +F_n^2\right)D_1 \ldots D_n + E\right]F_2 \end{split} \ \ \ \ \ \ \ \ \ \ (33)$

Слово и контекст (33) конкордантны, если имеют общий модуль $\kappa_{1,2}$ :

$E_{i_1,j_1} \dot{\sim} F_2(\kappa_{1,2}) \ \ \ \ \ \ \ (34)$

Или в записи через равенство:

$E_{i_1,j_1} = \left(F_{1,2}F_2 + E\right) F_{1,2}E_{j_2,j_1}, \ \ \ \ \ \ \ \ \ (35)$

где $F_{1,2}E_{j_2,j_1}$ понимается как конкордантное преобразование слов (32).

Преобразование слов и текстообразующих фрагментов сводится к (35), поскольку части текста -– матричные полиномы (31) в [1], как и контексты. Это означает, что (34) – формула вычисления наименования фрагмента текста словом, принадлежащим классу конкордантности $\kappa_{1,2}$ . И наоборот, определение слова текстом.

Смысловые цепи Нёттер

Классы конкордантности $\kappa$ различаются словами, входящими в словарь $\kappa$ . Пусть задана последовательность словарей:

$\kappa_1, \kappa_2, \ldots , \kappa_n, \ \ \ \ \ \ \ (36)$

такая, что соседние словари различаются одним словом $E_{i,i}$ :

$\kappa_i=\kappa_{i-1}+E_{i,i} \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (37)$

Класс конкордантности K_i (заглавная каппа) для каждого $\kappa_i$ -- это множество всех слов в уточненном контексте, всех уточненных контекстов и всех фрагментов текста, имеющих общий словарь $\kappa_i$ . Элементы K_i взаимно заменяемы по формулам лам (29), (32) и (35).

Пусть имеются классы конкордантности Ki , соответствующие (36). Тогда:

$K_1 \subset K_2 \subset \ldots K_{n-1} \subset K_n \ \ \ \ \ \ \ \ (38)$

и наоборот:

$K_1 \supset K_2 \supset \ldots K_{n-1} \supset K_n \ \ \ \ \ \ \ \ \ \ (39)$

для таких $\kappa_i$ , что:

$\kappa_{i-1}+ E_{i,i}=\kappa_i \ \ \ \ \ \ \ \ \ \ (40)$

В словарях (36) и (37) происходит увеличение слов в словаре $\kappa_i$ слева направо в (36). В словарях (36) и (40) – происходит уменьшение.

Последовательность непустых подмножеств $K_1, K_2, \ldots, K_n$ (38) корпуса текстов, составленных на основе (словаря корпуса всех текстов), является возрастающей, поскольку каждое из них является подмножеством следующего.

И наоборот, последовательность подмножеств $K_1, K_2, \ldots, K_n$ (39) является убывающей, так как каждое из них содержит следующее подмножество.

Считается, что последовательность стабилизируется после конечного числа шагов, если существует такое n, что для всех $m \geq n, K_n=K_m$ . Это имеет место для матричных текстов -- не существует большего словаря, чем словарь всех текстов D. Совокупность подмножеств заданного множества D (или K) удовлетворяет условию обрыва возрастающих цепей, так как любая возрастающая последовательность становится постоянной после конечного числа шагов.

Любая убывающая последовательность (39) становится постоянной после конечного числа шагов, так как словарь D имеет минимальное множество - одно слово, следовательно совокупность подмножеств (39) удовлетворяет условию обрыва убывающих цепей.

В общей алгебре объекты называются нётеровыми, если они удовлетворяют условиям обрыва цепей. Амалия Эмми Нёттер виртуозно использовала технику обрывающихся цепей в своих многочисленных кейсах. Такие объекты, как классы конкордантности, тоже являются нётеровыми.

Нётеревы цепи могут быть определены также для порядка слов в тексте. Для текстов существенен относительный порядок слов. Например, «случайное в необходимом» различается смыслом с «необходимое в случайном» или «папа мамы» и «мама папы». Для музыкальных текстов и кодов - порядок знаков не менее значим, чем сами знаки.

Модуль конкордантности является фрагментом словаря текста. Для словаря порядок слов несущественен. Поэтому класс конкордантности содержит элементы без учета порядка слов во фрагментах текста. Порядок слов может быть учтен через имеющиеся подклассы класса конкордантности следующим образом.

Пусть имеются два слова:

$E_{i_1,j_1}=E_{i_1,i_1-1}E_{i_1-1,i_1-2}\ldots E_{2,1} E_{1,j_1}, \ \ \ \ \ \ \ \ \ (41)$ $E_{i_2,j_2}= E_{i_2,i_1-1}E_{i_2-1,i_2-2}\ldots E_{2,1} E_{1,j_2}. \ \ \ \ \ \ \ \ \ (42)$

Слово $E_{i_1,j_1}$ находится в тексте слева от $E_{i_2,j_2}$ , если существует такая матричная единица:

$E_{i_2,i_1-1}E_{i_2-1,i_2-2} \ldots E_{i_1-1,i_1} \ \ \ \ \ \ (43)$

что:

$E_{i_2,i_1-1}E_{i_2-1,i_2-2}\ldots E_{2,1} = \\ = \left(E_{i_2,i_1-1}E_{i_2-1,i_2-2} \ldots E_{i_1-1,i_1} \right)\times \\ \times \left(E_{i_1,i_1-1} E_{i_1-1,i_1-2}\ldots E_{2,1} \right) \ \ \ \ \ \ \ (44)$

В этом случае множество матричных единиц:

$\{E_{i_1,1}\} = \{E_{i_1,i_1-1}, \ldots, E_{2,1}\} \ \ \ \ \ \ \ \ (45)$

является подмножеством:

$\{E_{i_2,1} \} = \{E_{i_2,i_2-1}, \ldots, E_{2,1}\} \ \ \ \ \ \ \ (46)$ $\{E_{i_1,1}\} \subset \{E_{i_2,1}\} \ \ \ \ \ \ \ \ \ (47)$

Если слово $E_{i_1,j_1}$ находится в тексте слева от $E_{i_2,j_2}$ , то в смысле (47):

$\{E_{i_1,j_1}\} \subset \{E_{i_2,j_2} \} \ \ \ \ \ \ \ \ \ (48)$

Пусть имеется матричный полином:

$E_{i_1,j_1}+ E_{i_2,j_2} \ \ \ \ \ \ \ \ \ \ \ (49)$

Выражение (49) определяет класс конкордантности, имеющий следующее описание:

Элементы класса -- это полиномы, имеющие словарь $E_{j_1,j_1} + E_{j_2,j_2}$ , с любыми первыми координатами мономов.
Подкласс элементов с такими первыми координатами, что:

${E_{i_1,j_1} } \subset E_{i_2,j_2}$

3.Подкласс элементов с такими первыми координатами, что:

$\{E_{i_2,j_2}\} \subset \{E_{i_1,j_1}\}$

Для матричного полинома:

$E_{i_1,j_1} + E_{i_2,j_2}+ \ldots + E_{i_n,j_n}$

класс конкордантности определяется словарем (модулем) и состоит из подклассов, учитывающих порядок слов. Подклассы порядка определяются восходящими или убывающими цепями Нёттер для первых координат матричных мономов в левых словарях текстов (12) в [1]. Выражение (49) соответствует этому определению левого словаря. Для левых словарей также существуют цепи Нёттер, как и для правых словарей (36).

Цепи Нёттер для слов и их порядка являются смысловыми инвариантами текста, сохраняющимися при соответствующих конкордантных заменах слов в тексте (пересказ текста своими словами), заменах фрагментов словами (реферирование и аннотирование), замена слов фрагментами (бот-автописатель). Инвариантность происходит из того, что нёттеревы цепи строятся по левым или правым словарям матричных полиномов. Инвариантность по нёттеревым цепям правых словарей означает, что для смысла текста не важны места слов в тексте, важна система их контекстного соответствия как функции вложения (с учетом порядка слов внутри n–грамм). Инвариантность по нёттеревым цепям левых словарей означает, что для структуры текста не важны слова из правого словаря, важна система их структурного соответствия как функции вложения левых словарей текстообразующих фрагментов (структурный шаблон текста).

Цепи Нёттер текста более предпочтительны для семантического анализа, чем частотные ключевые слова, поскольку учитывают контексты слов, а также выявляют закономерности раскрытия системы понятий в тексте через последовательность вложенности их содержания (контекста) – это и есть упомянутая выше иерархическая преемственность понятий (слов). Логические, этические и эстетические категории естественных языков возможно вычислять как смысловые цепи Нёттер.

Если смысловые цепи Нёттер задаются как целевые функции (последовательности вложений), то возможно составление систем уравнений на переменные билинейных форм (22). Из-за того, что переменные в (22) попарно зацеплены друг с другом (попарно вложены в цепях Нёттер), может быть составлена система квадратичных уравнений на слова в уточненном контексте, их контексты и текстообразующие фрагменты как неизвестные таких уравнений.

Уравнители смысла

В теории категорий уравнителем (обобщение уравнения) называется применительно к фрагментам матричных текстов следующая модель. Пусть заданы четыре объектафрагмента F_1D_1 , F_2D_2 , F_3D_3 , F_4D_4 , где D_1,D_2,D_3,D_4 -- словари фрагментов. Объекты F_1 и F_2 связаны парой морфизмов $F_{1,2}^1$ и $F_{1,2}^2$ :

$F_2D_2 = F_{2,1}^1 F_1D_1, F_2D_2 = F_{2,1}^2 F_1D_1 \ \ \ \ \ \ \ \ \ \ \ (50)$

Это означает, что словарь D_2 - это часть или весь словарь D_1 . $F_{2,1}^1$ и $F_{2,1}^2$ могут отличаться друг от друга из-за того, что в F_1 могут быть повторы слов. Тогда нет однозначности в (10) преобразовании фрагментов (результат зависит от того, какое из повторяющихся слов F_1 используется для преобразования в слово фрагмента F_2 ). Третий объект-фрагмент F_3 и морфизм $F_{3,1}$ (функция включения) называется уравнителем $F_{1,2}^1$ и $F_{1,2}^2$ , если при $F_1=F_{1,3}F_3$ конкордантны $F_{2,1}^1F_{1,3}$ и $F_{2,1}^2 F_{1,3}$ :

$F_{2,1}^1 F_{1,3} \dot{\sim} F_{2,1}^2 F_{1,3} \ \ \ \ \ \ (51)$

При этом для любого другого объекта F_4 , удовлетворяющего тем же требованиям:

$F_{2,1}^1 F_{1,4} \dot{\sim} F_{2,1}^2 F_{1,4}, \ \ \ \ \ \ \ \ \ (52)$

что и F_3 , существует единственный морфизм $F_{3,4}$

$F_3 = F_{3,4}F_4, \ \ \ \ \ \ \ \ \ \ \ \ (53)$

такой, что:

$F_{1,3}F_{3,4}\dot{\sim} F_{1,4} \ \ \ \ \ \ \ \ (54)$

Существенным отличием приведенного выше определения для уравнителя матричных фрагментов от канонического определения уравнителя для категории множеств Set, например, является замена отношения равенства на отношение конкордантности. Но поскольку отношения равенства и конкордантности являются отношениями эквивалентности (обладают свойствами рефлективности, симметричности и транзитивности), такая замена допустима и удовлетворяет аксиомам категории [3].

Причина использования конкордантности следующая. Для (50) требуется найти третий фрагмент текста и его соответствующий матричный полином-преобразование $F_{1,3}$ такой, что при умножении на него справа неоднозначность в (50) ( $F_{1,2}^1$ или $F_{1,2}^2$ ) устраняется. Поскольку в мономах матричных полиномов $F_{1,2}^1$ или $F_{1,2}^2$ обе координаты относятся к положению слов в тексте, то $F_{2,1}^1F_{1,3}$ и $F_{2,1}^2 F_{1,3}$ -- это и есть согласованное правило выбора повторяющихся слов, устраняющее многозначность в (50).

Если слова рассматриваются в уточненном контексте, то для достижения такой однозначности используется смысловое различие повторяющихся слов в тексте и их конкордантность по уточненным контекстам.

Система уравнений для фрагментов в уточненных контекстах (слово -- частный случай фрагмента) может быть составлена тремя способами:

1.По соотношению конкордантности фрагментов текста в уточненных контекстах (28) – (35):

$F_{i_1}^j\dot{\sim} F_{i_2}^j(\kappa_{i_1,i_2}), \ \ \ \ \ \ \ \ \ (55)$

где $F_{i_1}^j$ и $F_{i_2}^j$ различные слова и фрагменты текста. Например, это конкордантность названия текста и всего текста или частей текста (параграфов, глав etc), частей текста (например, аннотации и всего текста, первых абзацев параграфов, etc. Перечисленные сочетания фрагментов обозначаются номерами j из (56) и являются соответствующими номерами уравнений в системах уравнений текста.

2.По цепям Нёттер фрагментов текста и их порядка следования. Уравнения в этом случае является рекуррентными и определяются формулами (37) или (40). Рекуррентность по первым координатам определяет последовательность следования фрагментов текста (структурный шаблон текста). Рекуррентность по вторым координатам определяет последовательность следования фрагментов по преемственности смысла (контекстное оглавление всего текста и его разделов). Каждая цепь Неттер определяет уравнение в системе уравнений.

3.Сочетание двух пунктов выше.

По (22) системы уравнений имеют общий вид:

$\sum_{i_1,i_2} F_{i_1}^j F_{i_2}^j =\sum_{i}F_{i}^j. \ \ \ \ \ \ \ \ \ \ \ (56)$

Системы уравнений (56) в зависимости от того, какие фрагменты F в (56) принимаются за неизвестные, являются либо системами линейных, либо квадратичных по F уравнений. Задаваемые и неизвестные величины в (56) являются матрицами. Для линейного случая имеются матричные версии метода Гаусса решения систем линейных матричных уравнений. Для систем квадратичных матричных уравнений также существует обобщение метода Гаусса исключения неизвестных и редукции в системах уравнений со многими неизвестными к уравнению с одним неизвестным и формулам связи между неизвестными.

Точная линеаризация уравнений

В [4, 5] был разработан метод точной линеаризации и решения систем нелинейных алгебраических уравнений над полем действительных чисел. Система квадратичных уравнений является частным сучаем. Свести систему квадратичных уравнений к системе линейных уравнений можно без потери общности и точности.

Например, пусть задано квадратичное уравнение (, , -- действительные числа)

$ax^2 + bx + c = 0 \ \ \ \ \ \ \ \ \ \ \ \ (57)$

и четыре матричные единицы (1) в [1]:

$E_{1,2} = \left\| {\begin{array}{*{20}{c}} 0&1 \\ 0&0 \end{array}} \right\|,\;\; \\ E_{2,1} = \left\| {\begin{array}{*{20}{c}} 0&0 \\ 1&0 \end{array}} \right\|,\;\; \\ E_{1,1} = {E_{1,2}}{E_{2,1}} = \left\| {\begin{array}{*{20}{c}} 1&0 \\ 0&0 \end{array}} \right\|,\;\; \\ {E_{2,2}} = {E_{2,1}}{E_{1,2}} = \left\| {\begin{array}{*{20}{c}} 0&0 \\ 0&1 \end{array}} \right\|, \ \ \ \ \ \ \ \ (58)$

Матричные единицы (58) обладают следующими свойствами:

$\left(E_{1,2}\right)^2 = E_{1,2}E_{1,2} = \left\| {\begin{array}{*{20}{c}} 0&0 \\ 0&0 \end{array}} \right\|, \left(E_{2,1}\right)^2 = E_{2,1}E_{2,1} = \left\| {\begin{array}{*{20}{c}} 0&0 \\ 0&0 \end{array}} \right\|, \ \ \ \ \ (59)$ $E_{1,2}E_{2,1} + E_{2,1} E_{1,2} = E, \ \ \ \ \ \ (60)$ $\left(E_{1,2} + E_{2,1}\right)^2= E, \left(E_{1,1} - E_{2,2}\right)^2= E, \ \ \ \ \ \ \ (61)$ $\left(E_{1,2} + E_{2,1}\right)\left(E_{1,1} - E_{2,2}\right)+ \left(E_{1,1} - E_{2,2}\right) \left(E_{1,2} + E_{2,1}\right)=0 \ \ \ \ \ \ (62)$

где -- единичная матрица, $E= \left\| {\begin{array}{*{20}{c}} 1&0 \\ 0&1 \end{array}} \right\|$ .

Из формул (51) - (62) следует, что перестановочные свойства пар матриц $E_{1,2}$ , $E_{2,1}$ и $(E_{1,2} +E_{2,1}), (E_{1,1} - E_{2,2})$ противоположны. Квадраты $E_{1,2}$ , $E_{2,1}$ равны нулевой матрице, а их сумма произведений в разных порядках (антикоммутатор (60)) равен единичной матрице. И наоборот, для элементов $(E_{1,2} + E_{2,1}), (E_{1,1} - E_{2,2})$ их квадраты равны единичной матрице, а антикоммутатор равен нулевой матрице.

Если использовать свойства кронеккеровского (прямого) произведения матриц

$\omega_1= (E_{1,2} + E_{2,1}) \otimes E_{1,2}, \omega_2= (E_{1,2} + E_{2,1}) \otimes E_{2,1}, \ \ \ \ \ (63)$ $\alpha_1 = (E_{1,1} - E_{2,2}) \otimes (E_{1,2} + E_{2,1}) , \alpha_2 = (E_{1,1} - E_{2,2}) \otimes (E_{1,1} - E_{2,2}), \ \ \ (64)$

то линеаризованным уравнением (57) является выражение:

$B\Phi \equiv \left(\alpha_1 \sqrt{a_i}x + \omega_1b +\omega_2x + \alpha_2\sqrt{c}\right) \Phi = 0, \ \ \ \ \ \ (65)$

где $\Phi$ -- спинор Картана (упрощенно -- ненулевой столбец, вообще говоря, комплексных чисел). Квадрат матричного множителя B в (65):

$(\alpha_1\sqrt{a_i}x + \omega_1 b + \omega_2x + \alpha_2\sqrt{c}) (\alpha_1\sqrt{a_i} x + \omega_1 b +\omega_2 x + \alpha_2\sqrt{c}) = \\ = (ax^2+bx+c) E, \ \ \ \ \ \ \ \ \ \ \ \ \ (66)$

где -- единичная матрица 4x4. Свойства матриц $\omega$ (64) в произведении оставляют произведения и удаляют ax^2 и . Перестановочные свойства $\alpha$ (65) оставляют ax^2 и , а удаляют в BB.

В теории сравнений целых чисел для индекса класса вычетов проводится аналогия с логарифмами. Смысл преобразования (57) в (66) можно условно представить как:

$\sqrt{\sum{\ldots}}= \sum{\sqrt{\ldots}} \ \ \ \ \ \ \ \ (67)$

Перестановочность операций (67) над полем действительных чисел невозможна, но над алгеброй унионов (гиперкомплексных чисел) является естественной. Элементы α и ω (унионы) являются матричным обобщением комплексных чисел, а точная линеаризации (57) возможна, но заплатить придется тем, что коэффициенты α и ω в линейном по x уравнении (65) становятся некоммутативными.

Алгебра унионов, точная линеаризация систем алгебраических нелинейных уравнений над полем действительных чисел и унионное обобщение метода Гаусса исключения незвестных подробно изложены в [4, 5].

Для точной линеаризации и решения систем конкордантных уравнений (56) необходимо, чтобы символы в (56) коммутировали с унионами α и ω, и в выражении (56) были квадраты неизвестных. Второе требование необходимо для исключения неизвестных, поскольку $\alpha^{-1} = \alpha$ , а $\omega$ -- обратных не имеют. Это требование легко выполнить, поскольку для фрагментов матричного текста выполнятся F = F^2 (10) в [1]. Первое требование можно удовлетворить, используя свойство кронеккеровского (прямого) произведений матриц:

$F_i^j\longrightarrow E \otimes F_i^j, F_k^j\longrightarrow F_k^j \otimes E$

Фрагменты и унионы $E \otimes F_i^j, F_k^j \otimes E$ , $\alpha$ и $\omega$ перестановочны между собой за счет соответствующего увеличения размерности используемых матричных единиц.

Литература

Изначально опубликовано