Сходство и одинаковость
Математической моделью знаковых последовательностей с повторами (текстов) является мультимножество. Мультимножество было определено Д. Кнутом в 1969 году и позже подробно изучено А.Б. Петровским [1]. Универсальное свойство мультимножества – существование одинаковых элементов. Предельным случаем мультимножества при единичных кратностях элементов является множество. Множество с единичными кратностями, соответствующее мультимножеству, называется его порождающим множеством или доменом. Множество с нулевой кратностью – это пустое множество.
Проблемой является определение одинаковости элементов. Одинаковость зависит от учитываемых свойств этих элементов. Огурцы и арбузы внешне по цвету одинаковы, но затруднительно их при гастрономическом использовании называть одинаковыми, хотя ботаническое описание во многом совпадает.
По Г. Фреге любой объект, имеющий отношения с другими объектами и их сочетаниями, имеет столько же свойств (значений), сколько и этих отношений. Часть учитываемых значений называется смыслом, которым в данной ситуации представляется объект. Наименование объекта числом, символом, словом, рисунком, звуком, жестом для его короткого описания называется знаком объекта (это одно из значений)
Всевозможные части значений объекта (смысл) соответствуют одному знаку. Эта главная проблема распознавания смысла, но и одновременно основание, позволяющее обходиться минимальными наборами знаков. Невозможно каждому подмножеству значений поставить в соответствие уникальный знак. Объектами информационного обмена являются минимальные наборы знаков (ноты, алфавит, словарь языка). Смысл знаков обычно не вычисляется, а определяется контекстами знака (окрестностями) интуитивно.
Решением проблемы неоднозначности знаков является смысловая разметка текста. Смысловую разметку можно пояснить на примере предельной однозначности. На русских счетах текстом является последовательность одинаковых знаков (костяшек). По [2] словарь такого текста состоит из одного слова. Без смысловой разметки пользоваться такими текстами невозможно. Поэтому словарь изменяется, а знаки разделяются на группы — единицы, десятки, сотни и т. д. Эти наименования групп (цифры) являются уникальными номерами слов. Словарем D являются цифры от 0 до девяти. Каждая костяшка представляется матричной единицей на таком декартовом абаке. Например, число 2021 на матричном абаке представляется суммой четырех матричных единиц:
где нижние индексы являются декартовыми координатами матричного слова (числа в данном случае). Произошло превращение одинаковых объектов в похожие. Мерой сходства являются значения координат слов. Дополнительно к позиционным, повторы цифр из словаря возникают при совершении арифметических операций. Устанавливаются отношения эквивалентности:
Если после арифметической операции получается число 9 +1, то в этой позиции появляется 0, а следующем разряде добавляется 1. На абаке все костяшки сдвигаются в исходное (нулевое) положение, а одна добавляется в следующем разряде (проволоке). На матричном абаке совершается преобразование:
Если задать меру одинаковости знаков, то отношение толерантности (сходства) можно снова превратить в отношение эквивалентности (одинаковости) по этой мере. Например, округлением чисел. Распознать отличие толерантности от эквивалентности можно по нарушению транзитивности. Для отношений толерантности она может нарушаться. Например, пусть элемент A похож на B в одном смысле. Если смысл B не совпадает со смыслом элемента C, то A может быть похож на C только в части пересечения их смыслов (части свойств). Транзитивность отношений восстанавливается (замыкается), но только для этой общей части смысла. После достигнутой указанием смысла одинаковости A будет эквивалентен C. Например, приведенным выше преобразованием (замыканием) по некоторым координатам обеспечивается выполнение арифметических операций на матричном абаке.
Другим примером контекстной зависимости знаков являются шахматы. Еще сильнее она наблюдается в двойных шахматах [3]. В этой модификации шахмат разрешается сделать конечное число двойных ходов в течение партии в любой игровой момент. Игра остается непротиворечивой. Остальные правила такие же как в обычных шахматах, за исключение двух: первый ход одинарный и разрешена рокировка при шахе. Автором игры в случае, когда все ходы двойные является проф. Зайцев Г. А.
Для шахмат словарем их матричного текста являются номера по одной из фигур каждого цвета и разделитель ходов (от 1 до 11). Слово шахматного текста - матричная единица. Первая координата ее уникальна и является номером клетки на шахматной доске (от 1 до 64). Вторая координата слова - из словаря. Шахматным матричным текстом в любой момент игры является сумма матричных единиц, каждая из которых показывает фигуру на соответствующем месте шахматной доски. Повторы в тексте появляются как из дублирования фигур, так и постоянных переходов в течение партии от сходства к одинаковости и наоборот для всех фигур кроме короля. Игра состоит в реализации наиболее эффективных таких переходов и актуальной классификации фигур. Пешки одинаковые вначале, затем становятся похожими только правилом хода, а иногда пешка становится одинаковой с ферзем.
Инструментом анализа матричных текстов является контроль транзитивности для проверки отличия сходства от одинаковости. Отсутствие контроля транзитивности является алгебраической экспликацией непонимания для языковых текстов, проигрыша в шахматах или ошибок в числовых вычислениях.
Транзитивность отношений - условие превращения множества объектов в математическую категорию. Смысловой разметкой текста может стать вычисление его категорий посредством транзитивного замыкания. Объектами категории являются контексты матричных слов [2], морфизмами – матрицы преобразование этих контекстов.
Контекст
Контекстом слова Ek,j матричного текста [2] называется его фрагмент Fji,k – сумма матричных единиц (слов) между двумя матричными словами-повторами Ei,j и Ek,j:
где индекс DR означает, что на этом месте может стоять любой индекс из правого словаря DR матричного текста [2], включая знаки текстообразующих фрагментов. Контекст – это все слова матричного текста между повторяющимися знаками словаря DR. Например, между повторяющимися словами, повторяющимися точками, знаками абзацев, глав, томов языковых текстов или фраз, периодов и частей музыкальных произведений.
Знаки текстообразующих фрагментов выглядят одинаково, но это тоже знаки-омонимы – их контекстом являются фрагменты (1). Контекстом языкового фрагмента (экспликацией или пояснением) может быть не только языковый текст, но и звуковой (например, музыка), образный (фото) или совместный (видео). Контекстом музыкального текста может быть языковый текст (например, либретто).
Матричным словам соответствуют их матричные контексты, представленные как алгебраические объекты (1). Всевозможные отношения между этими объектами являются предметом анализа при определении смысла слов. Для исследования таких конструкций полезна теория категорий из-за того, что в ее основе находится понятие транзитивности.
Категория контекста
Пусть F1j , ..., Fnj – это все контексты Fji,k слова Ej,j ∈ DR в тексте P, а Dj1R, ..., DjnR – правые словари этих контекстов:
При k = i + 1 в (1) частным случаем фрагмента является матричное слово Ei+1,DR .
Категория контекста Cat(Ej,j) знака текста Ej,j ∈ DR определяется следующим образом:
Объекты категории – попарно кратные [2] контексты F1j , ..., Fnj.
Для каждой пары кратных объектов существует [2] множество морфизмов Fij : Fi = FijFj, каждому морфизму соответствует единственные Fi и Fj .
Для пары морфизмов Fij и Fjk определена такая их композиция (произведение квадратных матриц) FijFjk, что если Fi = FijFj и Fj = FjkFk, тогда Fi = FijFjkFk (условие транзитивности).
Для каждого объекта Fi в качестве тождественного морфизма определена единичная матрица E: Fi = EFiE. Категорная ассоциативность следует из ассоциативности матричного умножения.
Редукция контекстов
Пересечением (общими словами) матричных словарей является их произведение:
Доказательство следует из определяющего свойства матричных единиц (6) [2] и определения словарей (9) [2] и (15) [2]. При умножение матричных единиц словарей (нижние индексы одинаковые в каждой единице) произведение их матричных слов (единиц) с отличающимися индексами равны нулю. В произведении (2) останутся только общие слова с совпадающими нижними индексами из всех сомножителей (2).
Объединение любой пары словарей Di и Dj является их сумма за вычетом пересечения (2)
Из-за свойств (10) [2] в (3) в сумме Di + Dj удалены повторы матричных единиц.
Минимальным словарем фрагмента матричного текста называется такой словарь DR текста P, что DR и P взаимно кратны:
Для взаимно кратных P и DR ненулевые матрицы FPDR и FDRP существуют.
Суммы матричных единиц FPDR и FDRP существуют, если матричные единицы P и DR содержат одинаковое количество вторых индексов (координат) и не содержат иных вторых индексов.
Понятие минимального словаря вводится из-за того, что по свойствам матричных единиц всегда выполняется:
где D1R может состоять из слов (матричных единиц), отсутствующих (тех самых иных) в DR . Например, для F1j = F1jD1R , ..., Fnj = Fnj DnR всегда выполняется:
Минимальные словари DminR1 , ..., DminRn фрагментов F1j , ..., Fnj не содержат матричных слов (вторых индексов матричных единиц), отсутствующих в соответствующем фрагменте текста.
Классы эквивалентности контекстов задаются общими минимальными правыми словарями DminR. Если пара контекстов имеет минимальный общий словарь, то эти контексты взаимно кратны. Следовательно, существуют их взаимные преобразования (матрицы).
Если контексты F1j , ..., Fnj слова-знака Ej,j имеют минимальный общий правый словарь DR , то они кратны друг другу. В дальнейшем под словарями фрагментов текста подразумеваются их минимальные словари.
Если заданные контексты F1j , ..., Fnj умножить справа на такой словарь DjR , что каждый полученный контекст будет иметь правый словарь (минимальный) DjR , то они называются редуцированными контекстами:
При редуцировании (умножении справа) часть матричных единиц со вторыми индексами, которых нет в DjR удаляется в каждом из F1j , ..., Fnj. Если в каких-то полученных фрагментах отсутствует хотя бы один из индексов словаря, то он не должен попасть в (4).
Категоризация
Контексты с общими словарями, например, после редукции (4) слова-знака Ej,j, являются объектами категории знака Cat(Ej,j). Все матричные тексты (4) по построению кратны друг другу по (20) [2], имеют общий (и минимальный) словарь, следовательно, всегда существуют матрицы преобразования Fj1,k как морфизмы категории знака Cat(Ej,j):
Отношения (5) являются наименьшими транзитивными отношениями на множестве F1j , ..., Fnj и являются транзитивным замыканием этого множества из-за того, что из контекстов F1j , ..., Fnj операцией (4) удалены все матричные слова, отсутствующие в общем словаре DjR.
Остальные категорные аксиомы выполняются из-за свойств квадратных матриц одинаковой размерности.
Транзитивное замыкание (5) можно определить для любого подмножества (m < n):
задав для F1j , ..., Fmj по (2) их общий словарь DjmR ⊇ DjR (DjR является подмножеством DjmR по свойствам (2)). В этом случае транзитивное замыкание (5) производится по словарю DjmR:
Пример
В качестве примера матричного текста используется (5) [2], в котором имеется четыре одинаковые как знаки слова «множество» E1,1, E5,1, E10,1, E14,1. У этих четырех знаков, в свою очередь, имеется четыре контекста F11,5 , F15,10, F110,14, F114,17:
где D11 , D12 , D13 , D14 – это словари соответствующих контекстов, в последнем контексте F114,17 второй индекс равен не отсутствующему в словаре текста номеру последнего повтора знака, а номеру последнего слова в тексте для того, чтобы было определено окончание контекста.
Постановкой задачи является вычисление одинаковости и различия слов E1,1, E5,1, E10,1, E14,1 в зависимости от одинаковости и различия по некоторой мере (модулю) их контекстов F11,5 , F15,10, F110,14, F114,17. Одинаковость контекстов определяется наличием общих словарей, которые используются как модуль сравнения контекстов. Различие определяется вычетами контекстов по этому же модулю. Вычеты определят свои классы эквивалентности (классы вычетов) и категории вычетов, поскольку для них также может происходить замыкание транзитивности.
Общий словарь четырех контекстов F11,5 , F15,10, F110,14, F114,17 по (2):
Транзитивное замыкание (4) по общему словарю-модулю приводит к удалению «лишних» слов:
Таким образом, редуцированными (сокращенными) контекстами знака-слова E1,1 («множество») являются четыре слова E3,3, E6,3, E11,3 и E15,3 . Эти слова имеют одинаковый знак E3,3 («объект») в объединенном по (3) словаре для D11 , D12 , D13 , D14:
где каждая формула является последовательно попарным объединением словарей (3).
Слова E1,1, E5,1, E10,1, E14,1 в смысле их сокращенных (редуцированных) контекстов E3,3, E6,3, E11,3 и E15,3 могут быть одинаковы или различаться. Задание меры сравнения E3,3, E6,3, E11,3 и E15,3 определяет результат сравнения E1,1, E5,1, E10,1, E14,1. В простейшем случае, если принимаются одинаковыми E3,3, E6,3, E11,3 и E15,3, то будут одинаковыми и E1,1, E5,1, E10,1, E14,1. Это имеет место, например, когда слова понимаются только как знаки-буквы в словаре-алфавите и их контекстная зависимость отсутствует.
Для решения задачи сравнения смысла слов полезно вычисление соответствующей категории знаков этих слов. Категория знака Cat(E3,3) состоит из четырех редуцированных объектов-контекстов (10):
Морфизмами Cat(E1,1) являются четыре матрицы E6,3, E11,6, E11,3 и E15,3 :
Композицией морфизмов является соотношение:
Композиция (13) является выражением интервальной разметки слова E3,3 (45) [2] на языке теории категорий, а редуцирование (10) - примером решения системы сравнений по модулю Fm (39) [2]. Полезность использования теории категорий в том, что ее подход более общий и позволяет использовать методы из разных разделов алгебры.
Таким образом, все четыре фрагмента текста F11,5 , F15,10, F110,14, F114,17 одинаковы (эквивалентны) в смысле знака- слова E3,3 (сравнимы по модулю E3,3). Существует матрицы-морфизмы E15,11 , E11,6, E6,3, E15,3, преобразующие эти тексты по (12) друг в друга. По аналогии с библиотечным каталогом все четыре текста F11,5 , F15,10, F110,14, F114,17 (объекты категории знака Cat(E3,3)) находятся в одном каталожном ящике с наименованием знака E3,3. Это пример грубой классификации текстов по ключевым словам. Контекстный смысл слов не учитывается, все такие слова как знаки одинаковы и все случаи их появления в тексте могут складываться для вычисления значимости ключевых слов по частоте употребления.
Полученный результат означает, что в первом приближении все четыре слова «множество» контекстно связаны со словом «объект». Слова «множество» E1,1, E5,1, E10,1, E14,1 могут быть одинаковы или различаться настолько, насколько одинаковы или различны их сокращенные (редуцированные) контексты E3,3, E6,3, E11,3 и E15,3.
В [2] было показано, что для матричных текстов выполняются сравнения по модулю. Остатки деления фрагментов матричных текстов на другие фрагменты (модули) могут иметь остатки (вычеты), которые также как и модули являются классифицирующими признаками.
Признаком делимости (кратности ⋮) фрагментов матричных текстов является делимость (кратность) их правых словарей (20) [2]. Остатки деления словарей (вычеты словарей) фрагментов являются словарями остатков от деления этих фрагментов.
Для того, чтобы вычислить сходства и различия слов E3,3, E6,3, E11,3 и E15,3 необходимо сравнить контексты F11,5 , F15,10, F110,14, F114,17 по модулю E3,3.
Тогда вычеты каждого контекста по модулю E3,3 равны:
Из (14) следует, что все F11,5 , F15,10, F110,14, F114,17 (следовательно, слова «множество» E1,1, E5,1, E10,1, E14,1) несравнимы по модулю E3,3. Вычеты попарно не кратны и не образуют попарно ни один класс вычетов. Это означает, что все слова E1,1, E5,1, E10,1, E14,1 различны по смыслу (контексту).
Сходство находится на следующем этапе (для вычетов), если для пар вычетов вычислять по (2) общие словари и произвести редукцию (4). Общего словаря для всех вычетов Djres не существует:
Равенство (15) является причиной отсутствия общего класса вычетов и соответствующей категории Catres(E3,3). Но некоторые пары вычетов (14) имеют общие словари:
Тогда эти пары вычетов после редуцирования (4) образуют классы и категории вычетов с именами E2,2, E4,4 и E7,7. В каталог с именем E2,2 попадут фрагменты F11 и F12, в каталог с именем E4,4 - фрагменты F11 и F13, в каталог с именем E7,7 – фрагменты F12 и F14.
Слово E8,8 является аннулятором (делителем нуля) трех вычетов (14):
Слово E12,12 – аннулятором
Слово E16,16 – аннулятором
Это слова матричного текста, не имеющие контекста (три последние слагаемые в контекстном словаре (49) [2]) – при умножении вычета на аннулятор произведение отлично от нуля, если вычет содержит этот аннулятор.
Итак, постановкой задачи приведенного примера являлось вычисление одинаковости и различия слов E1,1, E5,1, E10,1, E14,1 в зависимости от одинаковости и различия их контекстов F11,5 , F15,10, F110,14, F114,17 по некоторой мере (модулю).
Получено решение: слова E1,1, E5,1, E10,1, E14,1 (как их контексты F11,5 , F15,10, F110,14, F114,17) сравнимы по модулю E3,3 и не сравнимы (различны) по модулям E8,8, E12,12, E16,16.
Это означает, что редуцирование (10) нужно производить не по общему словарю (9), состоящему из одного слова-знака E3,3. Как оказалась это слово-знак имеет разный смысл в разных местах текста. С учетом (16), (17), (18):
Правому словарю DR (9) [2] текста (5) [2] тогда требуется расширение:
Исходный словарь (9) [2] преобразован в контекстный словарь (20). К знакам-словам E3,3, E6,3, E11,3 и E15,3 добавлены с помощью вычисления категорий дополнительные слова E8,8, E12,12, E16,16. Этими дополнительными словами E8,8, E12,12, E16,16 слова E6,3, E11,3 и E15,3 отличаются между собой.
Приведённая выше классификация является категоризацией матричных текстов по словарям. При категоризации классы и их наименование вычисляются как алгебраические функции текста. Категоризация вычислялась по словарям, поскольку классифицирующие признаки (имена категорий) определялись по взаимному пересечению словарей (2). Такая категоризация не учитывает порядок слов в тексте, но может быть в дальнейшем использована при построении более тонкой категоризации, учитывающей взаимный порядок слов. Модулями сравнения в этом случае будут не части словарей, а фрагменты контекстов. Замена фрагментов словарей на фрагменты текстов имеет единственной проблемой случай повторов слов в контекстах. Возникает неоднозначность при делении (построении морфизмов категории) [2]. Именно поэтому вначале производится сравнение по модулю словарей, определяются сходства и отличия (делители и остатки) по этой мере. Затем, после установления сходства и отличия слов-повторов в контекстах, модуль сравнения по словарю заменяется на фрагмент текста, который уже учитывает порядок слов. Именами категорий становятся фрагменты текста.
Общий метод вычисления классифицирующих признаков дает аналог CRT для матричных текстов.
Китайская теорема об остатках (CRT)
Китайская теорема об остатках для матричных текстов формулируется следующим образом. Пусть даны:
D1R , ..., DkR попарно не кратные минимальные словари фрагментов матричного текста F1, ..., Fk.
DR = D1R + ... + DkR – правый словарь некоторого текста P.
D'R = D'1R +. . . + D'mR – правый словарь некоторого текста P', m < k.
P' ⊂ P : D'R ⊂ DR (текст P' является частью P в смысле того, что его словарь D'R является частью словаря DR).
Кортеж (r1 , ... , rk), где r1 ≡ P' ( mod D'1R ), ..., rk ≡ P' ( mod D'kR ) (это означает, что: P' = P' D'1R+r1, ..., P'= P'D'1R+rk).
Тогда существует взаимно-однозначное соответствие:
Доказывается по индукции с использованием определения кратности полиномов матричных единиц и минималь- ности словаря.
Кортеж вычетов (r1 , ..., rk ) является классифицирующим признаком всевозможных кратных друг другу текстов, имеющих словарь D'R или любую его часть. Именно по (21) следует строить классификаторы языковых и иных знаковых последовательностей.
Список литературы
А. Б. Петровский. Теория измеримых множеств и мультимножеств. M. Наука, 2018. 359 c.
С. Б. Пшеничников. Алгебра текста. Researchgate Preprint, 2021.
С. Б. Пшеничников. Компьютерная игра «Двойные шахматы». Свидетельство о государственной регистрации программы для ЭВМ. от 4.12.1992 No 920129.