И за эту статью тоже покорнейше благодарю, занес себе фреймворк на "изучить".
Подскажите пожалуйста, как по вашим ощущениям выросло время исполнения средней задачки на фреймворке против "наивного промпт-вайб-кодинга"?
НУ и прожорливость по токенам...
По моим ощущениям оно растет прям кратно, ну то есть это цифры порядка х5... х10.
И это понятная история. Текущий уровень LLM хоть и потрясает воображение, но все еще не способен охватить все сразу ЗА ОДИН проход - и задачу, и продукт, и технологию, и качество кода, и архитектуру, и тесты... и что там еще нам нужно.
Вот и приходится сжечь кратно болше токенов чтоб он "вернулся и подумал" обо всем этом. Этакий "внешний ризоинг на стеройдах" я это называю. Ведь внутренний ризонинг он именно про это - чтоб модель поговорила сама с собой и расширила кругозор по задаче, все LLM-кодинг фреймворки они в общем то про то же самое, просто что б этот диалог продолжился еще дольше и с разных точек зрения (продукт, качество, код стайл, архитектура...)
Готов подписаться практически под каждым словом, вот ровно этот же путь и те же выводы. И теже базисные точки - подходы, фреймворк, пайплайн...
Единственное чем хотел бы дополнительно поделиться, если хотите - чуть развить тему.
Помоим правилам подход с "контекст < 40k токенов - хорошо" а "контекст > 150k токенов - плохо" верхнеуровнево правильный, но может быть чуть уточнен.
О чем веду речь. Я в общем-то всегда следовал ровно такому правилу, но как-то случайно запустил довольно серьезный кодинг на окне сильно за 200к (на 1М режиме модели). И с удивлением обнаружил что она отлично справилась.
Я стал гадать, как так, как оно рушит мою теорию. Стал исследовать, рисерчить. И пришел к выводу что помимо самого объема контекста очень сильно решает его ОДНОРОДНОСТЬ,
Если контекст сильно семантически неоднороден то уже 20-30к токенов могут свести любую модель сума и кодинг-сессию лучше не начинать, а переехать с планчиком в новое окно.
И наоборот, если вы в течение 2х чаосв на 200-300к токенов проектировали одну какую-то вещь, прыгали вокруг одной семантики, понимали друг друга, усиляли позицию и углубляли понимание (вот именно в том режиме в котором вы говорите - "напарник") то закодить прямо здесь и тут вполне возможно, а порой даже и лучше, ну потому что вы как бы в этот момент на одной волне.
Я не призываю обязательно делать так, это тонкая история и для меня это стало вопросом "чувствовать контекст", как помните в фильме 21 - колода горячая. На языке LLM - это насколько распределен attention по текущему контексту, нужно ли нейронной сети тратить и переключать большой кол-во голов на большое кол-во ортогональных семантик, или все когерентно и она максимально сфокусирована на главном.
Я пока так вкинул просто, но если интересно будет подискутировать то я открыт. Проводил рисерч по современным исследованием на эту тему, нашел для себя подтверждения. И даже скилл себе запилил на оценке распределения семантического ядра текущего контекста. Ну разумеется запускать его надо в форке чтоб не портить тот самый контекст = )
Вика, прежде всего спасибо Вам за исследование. Вне зависимости ни от чего виден ваш интерес и проникновение в глубину вопроса!
Написал вам в личку, очень хочу пообсуждать. Продублирую тут т.к. кажется это самое подходящее место.
25к задач на 1мрд токенов это мнее четверти млн токенов на задачу, в современных машстабах это мягко говоря очень мало. Выпривели примеры задач, и я даже не знаю как вопрос то задать грамотно, кроме как "как так вышло"?
У меня среднее потребление 100-300 млн токенов в день и как правило это даже одну задачу не решеает, но это прод в серьезном проекте (миллионы строк). Предположу что ваши задачи были "с нуля" и оч. синтетические, не из реальной жизни, верно я думаю или ошибаюсь?
Если в п.2 я неправ, то след. вопрос бессмылсенный. Но если прав: пробовали погонять на чем-то более серьезном? Если да то возникает вопрос что делать с контекстом, я бы ожидал что на 2-3-4 итерации контекст уже будет под завязку даже для 1М-моделей, не говоря уже о лютейшей деградации аттеншена по нему ввиду включения туда эвристики, ризонига и т.д - по моим наблюдениям для четкой слаженной работы агенту нужен максимально свободный четко сформулированный однородный контекст, без воды и причин "что да почему". Если нетрудно, развейте тему.
По моим ощущениям и по общению с опусом х1.5 - х2 спецификации к коду это норм, считается хорошим выходом (ROI).
Но, полагаю, и качество выдаваемого кода возрасло после чек-листов кратно.
И за эту статью тоже покорнейше благодарю, занес себе фреймворк на "изучить".
Подскажите пожалуйста, как по вашим ощущениям выросло время исполнения средней задачки на фреймворке против "наивного промпт-вайб-кодинга"?
НУ и прожорливость по токенам...
По моим ощущениям оно растет прям кратно, ну то есть это цифры порядка х5... х10.
И это понятная история. Текущий уровень LLM хоть и потрясает воображение, но все еще не способен охватить все сразу ЗА ОДИН проход - и задачу, и продукт, и технологию, и качество кода, и архитектуру, и тесты... и что там еще нам нужно.
Вот и приходится сжечь кратно болше токенов чтоб он "вернулся и подумал" обо всем этом. Этакий "внешний ризоинг на стеройдах" я это называю. Ведь внутренний ризонинг он именно про это - чтоб модель поговорила сама с собой и расширила кругозор по задаче, все LLM-кодинг фреймворки они в общем то про то же самое, просто что б этот диалог продолжился еще дольше и с разных точек зрения (продукт, качество, код стайл, архитектура...)
Александр, большое спасибо за статью.
Готов подписаться практически под каждым словом, вот ровно этот же путь и те же выводы. И теже базисные точки - подходы, фреймворк, пайплайн...
Единственное чем хотел бы дополнительно поделиться, если хотите - чуть развить тему.
Помоим правилам подход с "контекст < 40k токенов - хорошо" а "контекст > 150k токенов - плохо" верхнеуровнево правильный, но может быть чуть уточнен.
О чем веду речь. Я в общем-то всегда следовал ровно такому правилу, но как-то случайно запустил довольно серьезный кодинг на окне сильно за 200к (на 1М режиме модели). И с удивлением обнаружил что она отлично справилась.
Я стал гадать, как так, как оно рушит мою теорию. Стал исследовать, рисерчить. И пришел к выводу что помимо самого объема контекста очень сильно решает его ОДНОРОДНОСТЬ,
Если контекст сильно семантически неоднороден то уже 20-30к токенов могут свести любую модель сума и кодинг-сессию лучше не начинать, а переехать с планчиком в новое окно.
И наоборот, если вы в течение 2х чаосв на 200-300к токенов проектировали одну какую-то вещь, прыгали вокруг одной семантики, понимали друг друга, усиляли позицию и углубляли понимание (вот именно в том режиме в котором вы говорите - "напарник") то закодить прямо здесь и тут вполне возможно, а порой даже и лучше, ну потому что вы как бы в этот момент на одной волне.
Я не призываю обязательно делать так, это тонкая история и для меня это стало вопросом "чувствовать контекст", как помните в фильме 21 - колода горячая. На языке LLM - это насколько распределен attention по текущему контексту, нужно ли нейронной сети тратить и переключать большой кол-во голов на большое кол-во ортогональных семантик, или все когерентно и она максимально сфокусирована на главном.
Я пока так вкинул просто, но если интересно будет подискутировать то я открыт. Проводил рисерч по современным исследованием на эту тему, нашел для себя подтверждения. И даже скилл себе запилил на оценке распределения семантического ядра текущего контекста. Ну разумеется запускать его надо в форке чтоб не портить тот самый контекст = )
Вика, прежде всего спасибо Вам за исследование. Вне зависимости ни от чего виден ваш интерес и проникновение в глубину вопроса!
Написал вам в личку, очень хочу пообсуждать. Продублирую тут т.к. кажется это самое подходящее место.
25к задач на 1мрд токенов это мнее четверти млн токенов на задачу, в современных машстабах это мягко говоря очень мало. Выпривели примеры задач, и я даже не знаю как вопрос то задать грамотно, кроме как "как так вышло"?
У меня среднее потребление 100-300 млн токенов в день и как правило это даже одну задачу не решеает, но это прод в серьезном проекте (миллионы строк). Предположу что ваши задачи были "с нуля" и оч. синтетические, не из реальной жизни, верно я думаю или ошибаюсь?
Если в п.2 я неправ, то след. вопрос бессмылсенный. Но если прав: пробовали погонять на чем-то более серьезном? Если да то возникает вопрос что делать с контекстом, я бы ожидал что на 2-3-4 итерации контекст уже будет под завязку даже для 1М-моделей, не говоря уже о лютейшей деградации аттеншена по нему ввиду включения туда эвристики, ризонига и т.д - по моим наблюдениям для четкой слаженной работы агенту нужен максимально свободный четко сформулированный однородный контекст, без воды и причин "что да почему". Если нетрудно, развейте тему.