Pull to refresh

Comments 18

А подскажите цель проекта?

Генерализации эта концепция не предусматривает...

Цель работы Автор сформулировал: "Задаёшь вопрос и получаешь ответ". С вопросом понятно, а с ответом """тем «умнее» будут казаться ответы ЯМ """ ничего не понятно. Два ключевых слова, определяющих ответ ЯМ: "«умнее»" и "казаться". Два абсолютно не формализованных понятия отражают основной алгоритм формирования ответа??? Цель понятна, не понятен смысл проекта. Генерить квази литературные тексты? Повышать энтропию?

См. ответ выше.

Энтропию повысить увы не получится :). Чем больше повторов, тем энтропия меньше

Цели минимум проекта:

1) написать продолжение "Бесов" - как это мог бы сделать сам Федор Михайлович

2) спасти Анну Каренину "руками Льва Николаевича"

3) узнать у Антона Палыча, что он думает о "развесистом вишневом саде" в соц. сетях

Цели максимум: показать ненужность аппаратного ускорения в языковых моделях и лопнуть пузырь ИИ.

Генерализация возможна. Я же упоминал в статье, что можно использовать любые исходные тексты - например статьи с arXiv.org для "вопрос-ответ"

Попытки выстроить семантический компьютер, через графы или как-то ещё, все провалились. Но кто я такой, чтобы вас убеждать. Посмотрим.

Если не сложно, расскажите, как вы планируете или ожидаете, или представляете процесс генерализации в вашем случае.

Отличный подход.
Делаю трансформер на языке C, от самого простого до более сложного. Пока "полёт нормальный", то есть, он отлично генерирует следующие слова на основе предыдущих. Чтобы он правильно генерировал связный текст, нужно проводить массу экспериментов. И пока не всегда получается. Поэтому я тоже начал уже присматриваться к чему-то более логически прямолинейному, возможно, дополнить его векторными базами данных или чем-то еще.
Так что Вы - на правильном пути, удачи!

UFO landed and left these words here

Спасибо за подсказки, некоторые очень остроумные, обязательно воспользуюсь.

Пред-сортировка next[] уже была реализована. Не стал перегружать статью :)

std::flat_map/set уже есть в gcc16.

Мне кажется, что продолжение текста по набору слов (не контексту) работает не правильно:
"оборвал он вдруг в бешенстве и, не оглядываясь, вышел из кельи."

"Полная восторгом душа его жаждала свободы, места, широты."
Такие резкие перепады настроения у описываемого героя в 2 соседних строчках это уже патология. Без какого-то аналога векторизации контекста не обойтись.

Так там уже по сути и есть векторизация - только очень малодетальная (на уровне слов, а не “слогов”-токенов), и очень малоразмерная. Как говориться - “вычисление весов вручную”

Если эту тему развивтать - получится просто сеть, тольок несколько иной архитектуры

так векторизация делается по блокам текста с перекрытием, не по словам или токенам - они не несут смысл без контекста. т.е. векторизовать нужно приличный кусок текста порядка абзаца или как минимум предложения.

мой замысел - обойтись без канонической векторизации. А значит без необходимости использовать операции над векторами с аппаратной поддержкой NVIDIA.

Про резкие перепады настроения на грани патологии абсолютно согласен :)). И конечно же Вы правы - надо работать над улучшением стиля сгенерированных текстов.

Кстати, тексты Достоевского использовались в обучении студентов по курсу психиатрии - именно из-за мастерского описания патологий

Вероятно данная работа может помочь ответить на вопрос из "<...> как это мог бы сделать сам Федор Михайлович" – а не является ли написание нового произведения автором расширением этого круга? Если вся ЯМ из нграм и пересечений, условно и грубо говоря, не будет ли это продолжение фанфиком? Ведь оно содержит в себе только часть творчества автора, а цель написания чего-то нового, это путь самовыражения, добавления шума в данные, а не подражание им. Это же относится и к LLM, но вроде как они тут антагонисты.

Также интересен вопрос насчёт оценки памяти. Её катастрофически не хватает сейчас, а здесь RAM на первом месте для хранения данных.

Конечно, это скорее фанфик. Мой выбор Достоевского - из-за качества текстов. И из-за их объёма. Очень трудно "в домашних условиях" набрать хотя бы 1 GB литературных текстов, свободных от ограничений по лицензиям. Подозреваю, что придется добавлять ПСС В. И. Ленина и Маркса/Энгельса.

Что касается RAM, то у меня есть идеи по сжатию текстовых данных без потерь. Возможно про это будет моя следующая статья

Sign up to leave a comment.

Articles