SergeyBPshenichnikov Jan 24 at 05:38

Алгебра смысла

Medium

12 min

4.1K

Semantics*Mathematics*Artificial IntelligenceNatural Language Processing*

FAQ

Comments 11

nikolz Jan 24 at 06:44

Очень интересно. А есть ли описание алгоритмов и примеры программной реализации алгебры текста в открытом доступе?

SergeyBPshenichnikov Jan 26 at 13:19

https://www.researchgate.net/publication/377600531_ALGEBRA_TEKSTA_SUZDENIJ_Psenicnikov_SB

nikolz Jan 26 at 14:02

Благодарю.

lex08275 Jan 25 at 08:14

Единичная матрица - главная диагональ 1, остальные 0.

SergeyBPshenichnikov Jan 26 at 13:20

Матричная единица - это другое.

dmiche Jan 25 at 13:36

Т.е., Вы говорите о том, что существует матрица слов и матрица смыслов. Это - разные предметы, живущие по разным законам. Предлагается делать отображение слов на смыслы используя "цифровой толковый словарь" одного языка, а затем распаковывать обратно, используя словарь другого.

В настоящее время эта технология уже реализована - так работает нейросетевой переводчик: он отображает текст на внутреннее пространство т.н. "эмбеддингов" при помощи сетки-"энкодера", а затем из него достаёт при помощи сетки-"декодера". Обе сетки тренируются синхронно на одном фразовом материале, но на разных языках, что и обеспечивает общность промежуточного слоя эмбеддингов.

Пространство эмбеддингов - это псевдолинейная матрица, в том плане, что конструктивно все ячейки в ней линейно пронумерованы, а фактически она полносвязная и с выходным слоем энкодера и со входным слоем декодера. В смысле, каждый выход энкодера соединён матрицей весов с каждым элементом эмбеддинг-матрицы. Т.е., там по факту NxM размерность в каждую сторону.

С пространством эмбеддингов, получаемым таким способом, есть проблема: можно создать алгоритм, который будет обеспечивать сходимость пространства эмбеддинов при тренировке, но невозможно определить, какой эмбеддинг за что отвечает в точности.

На самом деле, есть спекулятивное предположение, что это нерешимая задача в рамках современной парадигмы, потому что это похоже на взаимную неопределённость эрмитовых операторов. Т.е., там нет и не может быть взаимно-однозначного соответствия (за счёт чего, собственно, и получается что-то внятно перевести).

Примечательно то, что Вы переосмысливаете эту задачу на языке, который ближе к метафизике, а не к математике. Т.е., который использует термины, скорее, в пространстве смыслов, чем в пространстве свойств. Из за этого математики сердятся: кожаная нейросетка в их голове перетренирована на понятийное мышление и, из за этого, они про смысловые конструкции очень вяло понимают. Между тем, для описания нейросетей Ваш подход более органичен. Он позволит, в конечном итоге, назвать происходящие в них процессы простыми и точными именами смысла их действия, а не восстанавливать этот смысл каждый раз в голове через дешифровку формулы их работы.

SergeyBPshenichnikov Jan 26 at 13:22

https://www.researchgate.net/publication/377600531_ALGEBRA_TEKSTA_SUZDENIJ_Psenicnikov_SB

SergeyBPshenichnikov Feb 1 at 11:38

Спасибо за понимание.

«эта технология уже реализована», «нейросетевой переводчик»,

«Пространство эмбеддингов - это псевдолинейная матрица»

Методологически «нервные сети» похожи: на интерполяцию («обучение») и экстраполяцию Лагранжа имени 1795 года - базис Лагранжа автоматически обращает аналог матрицы Вандермонда; конструкция также похожа на китайскую теорему об остатках - вместо проверки остатков целых чисел по модулю простых чисел проверяются остатки многочленов при делении на линейные.

«есть проблема: … невозможно определить, какой эмбеддинг за что отвечает в точности», «не может быть взаимно-однозначного соответствия (за счёт чего, собственно, и получается что-то внятно перевести)», «для описания нейросетей Ваш подход более органичен», «Вы переосмысливаете эту задачу на языке, который ближе к метафизике, а не к математике»

Надеюсь, что подход всё-таки алгебраический. Метафизика нужна для постановки математической задачи и затем для интерпретации решения. Посмотрите мой пример, как можно алгеброй обойтись без весовых коэффициентов (матрицы весов) при свертках. Стр. 131 в книге «Алгебра текста суждений». Ссылка на книгу в открытом доступе указана. Именно использование весовых коэффициентов приводит к невозможности исследования истоков неточности эмбеддинга – алгебраические вычисления допускают «расследование».

Применение алгебры текста к машинному обучению для меня интересно. Начал готовить материал на примере текста «Мартин Иден». Это сокровище примеров смыслового перевода.

kuzzdra Jan 26 at 08:53

Вижу поток сознания, алгебры не вижу.

Если слова текста представить такими матрицами, то конкатенация (объединение с сохранением порядка) слов и текстов становится операцией сложения матриц.

Можете доказать?

SergeyBPshenichnikov Jan 26 at 13:22

https://www.researchgate.net/publication/377600531_ALGEBRA_TEKSTA_SUZDENIJ_Psenicnikov_SB

SergeyBPshenichnikov Jan 26 at 13:23

https://www.researchgate.net/publication/377600531_ALGEBRA_TEKSTA_SUZDENIJ_Psenicnikov_SB