Как стать автором
Обновить
15
5.6
Сергей Пшеничников @SergeyBPshenichnikov

Пользователь

Отправить сообщение

Спасибо за понимание.

«эта технология уже реализована», «нейросетевой переводчик»,

«Пространство эмбеддингов - это псевдолинейная матрица»

Методологически «нервные сети» похожи: на интерполяцию («обучение») и экстраполяцию Лагранжа имени 1795 года - базис Лагранжа автоматически обращает аналог матрицы Вандермонда; конструкция также похожа на китайскую теорему об остатках - вместо проверки остатков целых чисел по модулю простых чисел проверяются остатки многочленов при делении на линейные.

«есть проблема: … невозможно определить, какой эмбеддинг за что отвечает в точности», «не может быть взаимно-однозначного соответствия (за счёт чего, собственно, и получается что-то внятно перевести)», «для описания нейросетей Ваш подход более органичен», «Вы переосмысливаете эту задачу на языке, который ближе к метафизике, а не к математике»

Надеюсь, что подход всё-таки алгебраический. Метафизика нужна для постановки математической задачи и затем для интерпретации решения. Посмотрите мой пример, как можно алгеброй обойтись без весовых коэффициентов (матрицы весов) при свертках. Стр. 131 в книге «Алгебра текста суждений». Ссылка на книгу в открытом доступе указана. Именно использование весовых коэффициентов приводит к невозможности исследования истоков неточности эмбеддинга – алгебраические вычисления допускают «расследование».

Применение алгебры текста к машинному обучению для меня интересно. Начал готовить материал на примере текста «Мартин Иден». Это сокровище примеров смыслового перевода.

Матричная единица - это другое.

Спасибо, что подсказали! Давно искал эту книгу!

Высосано. Основной термин. Фрейд ?

Спасибо. Мне было полезно прочитать Ваш комментарий.

Про Питон: естественнее на Haskell для алгебры текста (на Хабре много статей по теории категорий для программистов). Мне понятнее на псевдокоде.

Про word2vec: вдохновлен с детства эрлангенской программой Клейна, в широком смысле. А в хорошем, - действительно замечательными результатами дистрибутивной семантики. И ее проблемами:1. В матрице сравнений, основного объекта построения словесного векторного пространства, для пар слов может нарушаться симметричность, если матрицы не создаются автозаполнениями половины. Поэтому столбцы и строки матрицы (векторы) могут отличаться. Такая же проблема имеется в СППР (на Хабре имеются обзоры). По Т.Саати – это основная проблема построения матрицы сравнений. Проблема называется необходимостью согласования матрицы сравнений. Вдохновлен исследованиями по решению этой проблемы В.В.Подиновского по критериям важности. 2. Складывать слова для частотности можно, если у них контексты (микро- или макро?) одинаковые (никогда не бывает в языке). Если разные, - исключать из частотности.  Если у разных слов одинаковые контексты, но разные слова, - добавлять разные слова в частотность данного слова. Очень сложно. Уверен, нейросетевики найдут решения всех проблем. В статье предпринята попытка движения им навстречу.

Про грека-путешественника: я развлекался пару лет назад на « в недрах тундры выдры в гетрах …». Здесь словарь текста не слова, а «ах», «ры», … . И у Вашего грека: ека, еку, … . Это предмет замечательных формальных грамматик Хомского. Вдохновился у него цепочками, но поменял их смысл.

Про сжатие: если заменять понятие абстрагирование на сжатие, целесообразнее использовать «сжатие с потерями». Ближе к смыслу. У Э.В. Ильенкова есть замечательный перевод с немецкого с послесловием статьи одного известного автора «Кто мыслит абстрактно?» Уверен, вдохновитесь на смысловой перевод «Кто мыслит сжато?».

А если серьезно, то для достаточности нужен подходящий математический объект, замещающий объект прикладного описания. В учебнике по алгебре И.Р. Шафаревича подробно об этом изложено и приведены примеры координатизирующих объектов и операций над ними. Мое предположение, что для слов текста такие математические объекты – это матричные единицы. Они удовлетворяют всем необходимым условиям Шафаревича. А достаточность (успешность) проверит практика применения.

Отсутствие в учебниках.

Информация

В рейтинге
664-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность