Комментарии 6
Что это было? Пахнуло учебником алгебры. Или алгебраической геометрии. Или геометрии. Или геометрической алгебры.
Координатизация — необходимое условие алгебраизации любой предметной области.
А какое условие достаточное?
Отсутствие в учебниках.
А если серьезно, то для достаточности нужен подходящий математический объект, замещающий объект прикладного описания. В учебнике по алгебре И.Р. Шафаревича подробно об этом изложено и приведены примеры координатизирующих объектов и операций над ними. Мое предположение, что для слов текста такие математические объекты – это матричные единицы. Они удовлетворяют всем необходимым условиям Шафаревича. А достаточность (успешность) проверит практика применения.
В этой статье определяется понятие матричного слова в контексте. Слова-знаки при повторах могут иметь разные фрагменты текста между ними (контексты), а слова, одинаковые по написанию и звучанию, — иметь разный смысл (как омонимы). В тексте все повторяющиеся слова могут быть омонимами, если их контексты отличаются соответствующей мерой (модулем). И обратно, разные по написанию и звучанию слова могут иметь схожие контексты и разную меру синонимичности. Частотность ключевых слов в семантическом анализе целесообразнее определять как частотность контекстов, сравнимых по соответствующей мере, чем как частотность слов-знаков, подобно буквам алфавита. При вычислении смысловой частотности слов с учетом контекста разные словазнаки с одинаковыми контекстами должны суммироваться при вычислении частоты и, наоборот, одинаковые слова-знаки с разными контекстами — исключаться.Насколько понимаю тема работы вдохновлена исследованиями методов статистической векторизации слов в духе word2vec, и механизма внимания в трансформерах. Которые используются в моделях ИНС, генераторах и трансляторах текстов, и соответствующего понимания контекста, смысла, омонимических — синонимических отношений. Контекст слова в предложении помогает в понимании его смысла, но не определяется им полностью. В мозге на уровне областей отвечающих за синтаксическую и семантическую обработку текста механизмы функционируют иначе. Как пример, рассмотрим это предложение:
Ехал грека через реку, видит грека в реке рак, сунул грека в реку руку, рак за руку грека цап.
Как определить смысл слова «грека» через контекст предложения включающего реку, рака, руку? В мозге смысл определяется, условно говоря, ссылками на определяющие грека свойства и отношения (моделируемые семантическими сетями). В них с большой вероятностью может встретиться ссылка на руку, как части человека коим является грек. Но ссылки на реку, тем более рака, встретятся весьма маловероятно. Подобная структура связей воспроизводится в сетях мозга, см. одно из последних исследований на эту тему, более подробно можно почитать в этом коменте со ссылками на др. источники. Кроме того в мозге есть область отвечающая за моделирование (симуляцию) утверждений связанных с поведением (она же отвечает за предсказание поведения физических тел типа падающей стены, столба, и тд, с целью предсказания затронет это субъекта или нет, и соответственно стоит отскакивать или нет), которые позволяют производить проверку их осуществимости (мы называем это здравым смыслом, напр, утверждение — «человек прошел сквозь стену дома» вызовет повышенное внимание, т.к. в соответствии со здравым смыслом в обычных условиях это неосуществимо). Это особенно проявляется в передаче смысла омонимов, например, при переводе текстов, см. этот комент с примером.
Пока статистические модели языка находятся в таком же отдаленном отношении со структурами отвечающими за понимание языка в мозге, включая понимание смысла, как сами ИНС с биологическими прототипами нейронных сетей в мозге. Особенно, если их сравнивать с учетом энергоэффективности.
Человек из-за природных физических ограничений одновременно может удерживать в процессе понимания всего несколько сущностей (около семи). Для сведения к этому количеству многообразия мира используется такая операция мышления как абстрагирование… Предельным случаем абстрактных понятий естественного языка являются логические категории (Аристотеля, Канта, Гегеля). Иерархическая преемственность понятий (слов) необходима для построения отношений часть-целое (отношений понимания).Ограничение до 7 объектов имеется в кратковременной памяти, и это могут быть объекты разного типа. Абстрагирование скорее связано со сжатием информации. Сжатие информации в когнитивных структурах человека является фундаментальным принципом, см., напр, это исследование пространственно-временной суммации в вентральном пути зрительной системы, там приведена схематическая картина такой нелинейной компрессии. Абстрагирование (и классификация, категоризация) является естественным продолжение этого процесса в более высоких отделах мозга, отвечающих за построение и описание внутренней модели мира и собственного состояния субъекта. Это неудивительно, т.к. суммативные механизмы заложены на нейронном уровне, и эта суммативность эксплуатируется в формальных моделях нейронов в ИНС. Особенно ИНС сверточного типа, структура кот. подобна структуре вентрального пути зрительной системы.
Лет десять назад группа авторов даже выдвинула идею, что компрессия лежит в основе функционирования сознания, см. одну из их публикаций Compressionism: A Theory of Mind Based on Data Compression, наряду с другими многочисленными объяснениями этого феномена. Они назвали свой подход компрессионизмом. Если приведенная работа является больше методологической, то в этой делается попытка ее некоторой реализации.
Спасибо. Мне было полезно прочитать Ваш комментарий.
Про Питон: естественнее на Haskell для алгебры текста (на Хабре много статей по теории категорий для программистов). Мне понятнее на псевдокоде.
Про word2vec: вдохновлен с детства эрлангенской программой Клейна, в широком смысле. А в хорошем, - действительно замечательными результатами дистрибутивной семантики. И ее проблемами:1. В матрице сравнений, основного объекта построения словесного векторного пространства, для пар слов может нарушаться симметричность, если матрицы не создаются автозаполнениями половины. Поэтому столбцы и строки матрицы (векторы) могут отличаться. Такая же проблема имеется в СППР (на Хабре имеются обзоры). По Т.Саати – это основная проблема построения матрицы сравнений. Проблема называется необходимостью согласования матрицы сравнений. Вдохновлен исследованиями по решению этой проблемы В.В.Подиновского по критериям важности. 2. Складывать слова для частотности можно, если у них контексты (микро- или макро?) одинаковые (никогда не бывает в языке). Если разные, - исключать из частотности. Если у разных слов одинаковые контексты, но разные слова, - добавлять разные слова в частотность данного слова. Очень сложно. Уверен, нейросетевики найдут решения всех проблем. В статье предпринята попытка движения им навстречу.
Про грека-путешественника: я развлекался пару лет назад на « в недрах тундры выдры в гетрах …». Здесь словарь текста не слова, а «ах», «ры», … . И у Вашего грека: ека, еку, … . Это предмет замечательных формальных грамматик Хомского. Вдохновился у него цепочками, но поменял их смысл.
Про сжатие: если заменять понятие абстрагирование на сжатие, целесообразнее использовать «сжатие с потерями». Ближе к смыслу. У Э.В. Ильенкова есть замечательный перевод с немецкого с послесловием статьи одного известного автора «Кто мыслит абстрактно?» Уверен, вдохновитесь на смысловой перевод «Кто мыслит сжато?».
В чём отличие конкордантности от конгруэнтности?
Конкордантность смысла