на скрине видно что у вас нет стриминга, добавьте стриминг а не выплевывайте ответ целиком. скорее всего это электорон, + ts/python, посмотрите в сторону pyndatic_ai/openai agents они поддерживают из коробки как апишки так и локальные модели. если проект на питоне, память можно улучшить через rag + bm25 и держать ее в sqllite, с таким подходом память будет +- неограничена, агент сможет искать по смыслу и ключевым словам при нехватке контекста.
в ноде вроде тоже можно сделать эмбендинги через xenova/transformers + прилепить векторную базу + bm25 и будет норм
на скрине видно что у вас нет стриминга, добавьте стриминг а не выплевывайте ответ целиком.
скорее всего это электорон, + ts/python, посмотрите в сторону pyndatic_ai/openai agents
они поддерживают из коробки как апишки так и локальные модели.
если проект на питоне, память можно улучшить через rag + bm25 и держать ее в sqllite,
с таким подходом память будет +- неограничена, агент сможет искать по смыслу и ключевым словам при нехватке контекста.