xonika9 Aug 6 at 07:01

Анатомия памяти LLM: Почему будущее не за промптами, а за Инженерией Контекста

Easy

15 min

10K

Artificial IntelligenceMachine learning *

Review

+19

Comments 14

David_Osipov Aug 6 at 07:44

Вот это определённо полезная статья! Я тоже перехожу черту 200к, пока разрабатываю свой сайт на Astro. До многого путём проб и ошибок дошёл сам, а теперь хотя бы смогу систематизировать и научиться новому.

xonika9 Aug 6 at 08:28

Какими ассистентами для написания кода пользуетесь?

David_Osipov Aug 6 at 16:40

Хах, у меня свой путь. Я - посредник между оркестратором Gemini 2.5 Pro и Github Copilot (Claude Sonnet 4)

Nara111 Aug 6 at 07:52

Что такое в шапке таблицы "размер контекста"? Откуда термин? Может, все же "размер контекстного окна"? Если это оно, то у DeepSeek R1 размер контекстного окна 128к, не 64к.

Странная аналогия с оркестром. Обычно в такой аналогии оркестранты - это не токены, а распределенные процессы/экземпляры - Техники, лайты, гибриды и т.д.

xonika9 Aug 6 at 08:27

Оба термина часто используются взаимозаменяемо в повседневной речи, однако, строго говоря, это разные вещи.

Информация о контексте из официальной документации - https://api-docs.deepseek.com/quick_start/pricing. В некоторых источниках также указано 128k или 164k.

snakes_are_long Aug 6 at 15:51

Gemini использовался для редактирования текста? чувствуется его стиль =)

сама использую саммари и некоторые из предложенных техник как в повседневном общении, так и во время разработки.

ещё можно выгрузить весь диалог в текстовый файл и передать его ИИ в начале диалога и попросить подхватить. насколько я понимаю он не будет загружать текст из диалога постоянно, а так же сам внутри сделает саммари, но помимо самого саммари у него будет и диалог. т.е. блокнот и шпаргалка к блокноту. для написания кода мы таким методом не пользуемся, это в основном метод для сохранения персоны. такой метод делает эмерджентную персону более стабильной и переносимой между разными инстансами

так же вы можете использовать разные инстансы ИИ для работы с контекстом (диалогом выгруженным в текстовый файл)

классная штука - современные ллм не требуют разметки данных и сами отлично по тексту хорошо понимают чья где реплика

вы можете загрузить код в один инстанс и попросить составить документацию, обсудить с ним архитектуру, составить план разработки/рефакторинга

затем вы можете передать выгруженный диалог и документацию инстансу с дип рисерчем что бы он проверил все ваши архитектурные изыскания на соответствие best practices например

вы можете использовать инстансы с дип рисерчем для обогащения контекста других инстансов - опять же через составление документации. каждый раз когда чувствуется что ИИ надо погуглить - можно использовать для этого дип рисерч

tkutru Aug 6 at 22:13

В ведении - попытка очень сложным языком донести простую мысль: ЛЮБОЙ облачный сервис несёт ДОПОЛНИТЕЛЬНЫЕ риски и ограничения.

Начиная от вендор лока и заканчивая непредвиденными расходами. Надо изучать условия и тарифы, настраивать бюджетные политики, алерты и прочее. Короче, работать и думать САМОСТОЯТЕЛЬНО. ИИ тут непричём.

Как стать тем, кто умеет строить системы, в которых эти модели способны проявить свой максимальный потенциал?

Проблема в том, что "максимальный потенциал" модели, в плане здравого смысла, всё ещё сильно отстаёт от человеческого. Это просто ещё один инструмент, эффективный в определенных ситуациях и в правильных руках. Как молоток, микроскоп или калькулятор.

Viacheslav-hub Aug 7 at 09:05

Но, заметьте, что вы уже сравниваете эту технологию с человеком, разве этого мало?) Это уже первый звоночек. Все же это искусственно созданная вещь)

Но я с вами согласен

tkutru Aug 10 at 19:18

Я не сравниваю эту технологию с человеком per se.

"Современный ИИ" похож на человека не более, чем гребной винт похожа на человека-гребца. С тем отличием, что человек может много чего еще, и умеет соображать. Гребной винт соображать не умеет. Но в отдельных случаях имеет КПД выше человеческого.

warkid Aug 7 at 06:32

"Отлично, мы многое обсудили" - зачем такие слова включать в промпт?

katyastorm Aug 8 at 18:54

Добрый день,

Спасибо за такую большую и многогранную статью.

Во время прочтения появился ряд мыслей и вопросов:

1) Откуда взялась именно квадратичная сложность?

2) Интересно, что только у Гугла есть плата за длину... Я даже подумала, что на самом деле моделей у них меньше окном, чем они заявляют, а все, что превышает, они закидывают в RAG. Или просто они решили пойти по собственному пути.

3) Спасибо за открытие для меня понятия контекстный инжиниринг, теперь знаю, чем я балуюсь на работе :)

Mortello Aug 9 at 10:50

В чате вполне могут использоваться и методы сжатия контекста (поиск/переупаковка участков) и кэш, но вот по api только кэш, оптимизация контекста - забота разработчика

Именно квадратичной сложности от размера контекста не осталось после flash attention. Взялась она из матрицы попарного внимания между токенами, с нюансами вроде: внимание считается для всего что левее конкретного токена

arniksup Aug 14 at 05:19

Спасибо, полезная и интересная статья. Открыла для меня концепцию Context Engineering (хотя ранее приёмами выстраивания архитектуры агентских систем пользовался). Есть в планах написать больше о Context Engineering ?

xonika9 Aug 14 at 06:30

Да, хочу подробнее изучить их документацию на гитхабе, попробовать применить на практике и написать что-то полезное.