Можете этот шаблон использовать. Достаточно его добавить в чат модели grok, claude или какую используете и написать: Обновить контекст для нового пользователя
Можно любой удобный для человека формат использовать. Суть в том чтобы явно описать поля и значения в них и добавить блок инструкций по работе с этими данными для нейросети. Тогда она сможет например их обновлять или дополнять в процессе общения с вами в одном чатике (а в чатике есть лимиты на размер токенов, текста) . Затем вы сохраните обновленный файлик и сможете перенести его в другой чат (общаться на другую тему или с другой моделью) не теряя контекста разговора.
А для себя в свой файлик добавил инструкцию, которая в рамках одного чата обновляет, дополняет данные в нем. Как закончил сессию ( упёрся в лимиты по длине контекста на один чат или получил все ответы) пишу команду Завершение сессии и мне либо выводится весь файлик в формате json с обновлениями, либо поля с изменениями. Затем я сохраняю изменения у себя локально в файлике, тоже в git фиксирую все изменения и использую его в новом чате для любой модели если есть необходимость в данных по персональному контексту в диалоге.
Для удобства. Понятно человеку читать|редактировать и LLM адекватно токенизирует данные из файлика. Можно использовать любой удобный формат, подробнее в большой доке на гите описано.
Вроде уже писали в комментах. Но суть такая: если чип тот же GA102 может работать с 36 Гигабайтами по 3 ГБ на 12 каналов, а по факту имеем 2ГБ на 12 каналов. Сделано для того чтобы продавать проф версии карт, те же A6000 с 48 Гигами.
Согласен это как в 1080ti запихать 24 гигабайта памяти и сравнить с 3090 24 Гигабайтной. Т.е как минимум для задач инференса моделей технологии видеокарт должны быть близки. То есть тупо памяти воткнуть побольше не даст эффекта.
Согласен с вами. Сначала нужно было понять, насколько этот вопрос вызовет отклик у читателей. По этой причине был выбран самый простой вариант для проверки. У многих появились мысли на этот счёт. Вполне вероятно, что кто то имеющий глубокую эксперт за в электронике сможет написать статью, в которой можно будет обсудить малопонятные детали реализации.
Вопрос интересный. Скорее всего это условия рынка и двух крупных игроков на нём. Спрос на больший размер видеопамяти только только начинает увеличиваться. Игровая индустрия не сильно нуждается в больших объёмах. Ну и тут ещё есть нерешённый вопрос: стоит ли давать людям (массовому потребителю) доступ к локальному использованию больших моделей нейросетей.
Есть решения типа tenstorrent, которые только только развиваются в этом направлении. Но почему в модульность никто пока не идёт, непонятно…
Можете этот шаблон использовать. Достаточно его добавить в чат модели grok, claude или какую используете и написать: Обновить контекст для нового пользователя
из личного опыта использования
Можете сами посмотреть как это видит та или иная модель: https://tiktokenizer.vercel.app/?model=gpt-4o
Можно любой удобный для человека формат использовать. Суть в том чтобы явно описать поля и значения в них и добавить блок инструкций по работе с этими данными для нейросети. Тогда она сможет например их обновлять или дополнять в процессе общения с вами в одном чатике (а в чатике есть лимиты на размер токенов, текста) . Затем вы сохраните обновленный файлик и сможете перенести его в другой чат (общаться на другую тему или с другой моделью) не теряя контекста разговора.
LLM все данные из чатика токенизирует https://habr.com/ru/amp/publications/854664/
А для себя в свой файлик добавил инструкцию, которая в рамках одного чата обновляет, дополняет данные в нем. Как закончил сессию ( упёрся в лимиты по длине контекста на один чат или получил все ответы) пишу команду Завершение сессии и мне либо выводится весь файлик в формате json с обновлениями, либо поля с изменениями. Затем я сохраняю изменения у себя локально в файлике, тоже в git фиксирую все изменения и использую его в новом чате для любой модели если есть необходимость в данных по персональному контексту в диалоге.
Класс! Думаю многие используют подобный подход. Я решил в опен сорс выложить, так как применение достаточно широкое. Самому пилить не хватит времени.
Только ради привлечения внимания. Сначала хотел схему вместо этой картинки.
Думаю то что платформы сами кэшируют между новыми чатами (сессиями). Хз какие данные, они особо не распространяются)
Для удобства. Понятно человеку читать|редактировать и LLM адекватно токенизирует данные из файлика. Можно использовать любой удобный формат, подробнее в большой доке на гите описано.
Тем кто дочитал до конца, схема :)
https://github.com/mikhashev/personal-context-manager недавно пришёл к нечто похожему
Вроде уже писали в комментах. Но суть такая: если чип тот же GA102 может работать с 36 Гигабайтами по 3 ГБ на 12 каналов, а по факту имеем 2ГБ на 12 каналов. Сделано для того чтобы продавать проф версии карт, те же A6000 с 48 Гигами.
Согласен это как в 1080ti запихать 24 гигабайта памяти и сравнить с 3090 24 Гигабайтной. Т.е как минимум для задач инференса моделей технологии видеокарт должны быть близки. То есть тупо памяти воткнуть побольше не даст эффекта.
О, балдёж. Спасибо. Как раз думал над альтернативой 3060 на 12 Гб.
Я вообще думал что 5090 будет с 64 или 96 Гб. Почему не увеличивают, скорее всего не выгодно…
Печально, если это так уже воспринимается.
Согласен с вами. Сначала нужно было понять, насколько этот вопрос вызовет отклик у читателей. По этой причине был выбран самый простой вариант для проверки. У многих появились мысли на этот счёт. Вполне вероятно, что кто то имеющий глубокую эксперт за в электронике сможет написать статью, в которой можно будет обсудить малопонятные детали реализации.
Я хотел понять, что думают живые люди.
Тут хочется именно обсудить затронутый вопрос в теме. Общаются все с нейросетями тет-а-тет…
Вопрос интересный. Скорее всего это условия рынка и двух крупных игроков на нём. Спрос на больший размер видеопамяти только только начинает увеличиваться. Игровая индустрия не сильно нуждается в больших объёмах. Ну и тут ещё есть нерешённый вопрос: стоит ли давать людям (массовому потребителю) доступ к локальному использованию больших моделей нейросетей.
Есть решения типа tenstorrent, которые только только развиваются в этом направлении. Но почему в модульность никто пока не идёт, непонятно…