Aleksei_R_Pax_et_Bonum May 27 at 08:30

Языковые модели без машинного обучения

Medium

13 min

7.7K

C++ * Algorithms * Artificial IntelligenceMachine learning *

Opinion

From sandbox

Comments 18

Kamil_GR May 27 at 09:01

А подскажите цель проекта?

Генерализации эта концепция не предусматривает...

ENick May 27 at 09:19

Цель работы Автор сформулировал: "Задаёшь вопрос и получаешь ответ". С вопросом понятно, а с ответом """тем «умнее» будут казаться ответы ЯМ """ ничего не понятно. Два ключевых слова, определяющих ответ ЯМ: "«умнее»" и "казаться". Два абсолютно не формализованных понятия отражают основной алгоритм формирования ответа??? Цель понятна, не понятен смысл проекта. Генерить квази литературные тексты? Повышать энтропию?

Aleksei_R_Pax_et_Bonum May 27 at 09:38

См. ответ выше.

Энтропию повысить увы не получится :). Чем больше повторов, тем энтропия меньше

Aleksei_R_Pax_et_Bonum May 27 at 09:36

Цели минимум проекта:

1) написать продолжение "Бесов" - как это мог бы сделать сам Федор Михайлович

2) спасти Анну Каренину "руками Льва Николаевича"

3) узнать у Антона Палыча, что он думает о "развесистом вишневом саде" в соц. сетях

Цели максимум: показать ненужность аппаратного ускорения в языковых моделях и лопнуть пузырь ИИ.

Генерализация возможна. Я же упоминал в статье, что можно использовать любые исходные тексты - например статьи с arXiv.org для "вопрос-ответ"

Kamil_GR May 27 at 10:02

Попытки выстроить семантический компьютер, через графы или как-то ещё, все провалились. Но кто я такой, чтобы вас убеждать. Посмотрим.

Если не сложно, расскажите, как вы планируете или ожидаете, или представляете процесс генерализации в вашем случае.

Aleksei_R_Pax_et_Bonum May 27 at 15:28

Обязательно отвечу по результатам работы

longtolik May 27 at 09:24

Отличный подход.
Делаю трансформер на языке C, от самого простого до более сложного. Пока "полёт нормальный", то есть, он отлично генерирует следующие слова на основе предыдущих. Чтобы он правильно генерировал связный текст, нужно проводить массу экспериментов. И пока не всегда получается. Поэтому я тоже начал уже присматриваться к чему-то более логически прямолинейному, возможно, дополнить его векторными базами данных или чем-то еще.
Так что Вы - на правильном пути, удачи!

UFO landed and left these words here

Aleksei_R_Pax_et_Bonum May 27 at 15:35

Спасибо за подсказки, некоторые очень остроумные, обязательно воспользуюсь.

Пред-сортировка next[] уже была реализована. Не стал перегружать статью :)

X-Ray_3D May 28 at 10:44

std::flat_map/set уже есть в gcc16.

Aleksei_R_Pax_et_Bonum May 28 at 13:38

спасибо большое!

coms20 May 27 at 09:54

Мне кажется, что продолжение текста по набору слов (не контексту) работает не правильно:
"оборвал он вдруг в бешенстве и, не оглядываясь, вышел из кельи."

"Полная восторгом душа его жаждала свободы, места, широты."
Такие резкие перепады настроения у описываемого героя в 2 соседних строчках это уже патология. Без какого-то аналога векторизации контекста не обойтись.

ksbes May 27 at 10:11

Так там уже по сути и есть векторизация - только очень малодетальная (на уровне слов, а не “слогов”-токенов), и очень малоразмерная. Как говориться - “вычисление весов вручную”

Если эту тему развивтать - получится просто сеть, тольок несколько иной архитектуры

coms20 May 27 at 10:35

так векторизация делается по блокам текста с перекрытием, не по словам или токенам - они не несут смысл без контекста. т.е. векторизовать нужно приличный кусок текста порядка абзаца или как минимум предложения.

Aleksei_R_Pax_et_Bonum May 27 at 15:41

мой замысел - обойтись без канонической векторизации. А значит без необходимости использовать операции над векторами с аппаратной поддержкой NVIDIA.

Aleksei_R_Pax_et_Bonum May 27 at 15:38

Про резкие перепады настроения на грани патологии абсолютно согласен :)). И конечно же Вы правы - надо работать над улучшением стиля сгенерированных текстов.

Кстати, тексты Достоевского использовались в обучении студентов по курсу психиатрии - именно из-за мастерского описания патологий

Conditus Jun 1 at 05:12

Вероятно данная работа может помочь ответить на вопрос из "<...> как это мог бы сделать сам Федор Михайлович" – а не является ли написание нового произведения автором расширением этого круга? Если вся ЯМ из нграм и пересечений, условно и грубо говоря, не будет ли это продолжение фанфиком? Ведь оно содержит в себе только часть творчества автора, а цель написания чего-то нового, это путь самовыражения, добавления шума в данные, а не подражание им. Это же относится и к LLM, но вроде как они тут антагонисты.

Также интересен вопрос насчёт оценки памяти. Её катастрофически не хватает сейчас, а здесь RAM на первом месте для хранения данных.

Aleksei_R_Pax_et_Bonum Jun 1 at 06:09

Конечно, это скорее фанфик. Мой выбор Достоевского - из-за качества текстов. И из-за их объёма. Очень трудно "в домашних условиях" набрать хотя бы 1 GB литературных текстов, свободных от ограничений по лицензиям. Подозреваю, что придется добавлять ПСС В. И. Ленина и Маркса/Энгельса.

Что касается RAM, то у меня есть идеи по сжатию текстовых данных без потерь. Возможно про это будет моя следующая статья