У меня все наоборот. Я работаю с подхода человек-first. Днем я пишу код без каких-либо автодополнений, думаю сам. Ночью ллм рефакторит код и утром я делаю обзорочку изменений. 95% патчей выкидываю как мусор, 5% переделываю и принимаю. Затем меняю промпт, чтобы в следующий раз мусорных правок было меньше. Таким образом достигается итеративность разработки.
Для рефакторинга использую машину со 128 рам, 2 видеокарты Sapphire nitro radeon rx 7900 XTX по 24 видеопамяти каждая.В качестве ллм использую devstral:24b-small-2505-fp16 и qwen2.5-coder:32b-instruct-fp16. Запускаю через ollama.
Что касается контекста, то я не передаю ллм тела классов, функций и методов. Я прошу ллм писать и рефакторить JSDoc. Затем я передаю ллм сгенерированные d.ts. Таким образом экономится контекст и в итоге 32к хватает за глаза.
Кроме того, у дилеров есть необходимые мощности для ремонта и сервисного обслуживания автотехники, чего, как правило, нет у производителей и дистрибуторов, отмечают в РоАД.
Вещи, которые ллм видела слишком часто при обучение не получится исправить никаким промптом. Ллм будет выдавать их практически всегда. Поэтому и мусор она будет генерить всегда.
Я прочитал исходники нескольких открытых агентов для ллм и выделил очень простой принцип формирования промптов: ллм должна формировать промпт для себя самостоятельно. Человек должен написать промпт для генерации мета промпта для генерации плана выполнения какой-то задачи. Например:
I want you to act as a prompt engineer (системный промпт удалить с помощью modelfile). Create a well-structured and detailed prompt that will be used to generate a prompt that will be used to ask an AI to ... This prompt must include specific instructions to: ...
ЗЫ Лучше всего, чтобы модель, которая генерит мета промпты и итоговый промпт была бегемотиной т.е. наибольшей моделью в своем классе. Исполнять же итоговый промпт может модель этого же класса с меньшим числом параметров, квантованная и тд.
Ещё можно провести исследование на тему того как связаны положительные результаты и семейное положение, страна проживания, налоги, ежемесячные расходы и кредитная история. Окажется, что у большинства двое детей, налоги 50%, ипотека на сто лет и тд.
Никто не заставляет использовать ллм именно так. Я например не использую ллм для написания кода и для поиска информации. Вместо я запускаю ллм после того, как вечером завершаю работу, он делает рефакторинг. Я прихожу утром, разбираю его замечания, нахожу 5% реально полезных правок и продолжаю работу в естественном режиме.
У Qwen и всех остальных нейросетей в т.ч. Gemini Pro почти одинаковая архитектура. Они отличаются только размером долговременной памяти и архитектурой доступа к ней.
Преимущество открытой Ollama + Qwen состоит в том, что можно удалить системный промпт, уменьшить размер контекстного окна, снизить температуру до нуля и установить некоторые другие параметры. Это улучшает качество правок и что особенно важно уменьшает объем мусорных правок.
У любого Saas решения вы ничего подобного сделать не сможете. Вы юзаете его как есть и нет никаких возможностей подстроить его под себя.
В ветке Reddit AMA вице-президент OpenAI Джерри Творек предположил, что некоторые текущие модели и их возможности можно объединить со следующей базовой моделью, чтобы привнести улучшения в её работу.
Серьезных улучшений по базовой архитектуре не предвидиться: давай соберем все в кучу, сверху припудрим рассуждениями - пусть оно крутится и лавэ мутиться.
После анализа репозитория ИИ-агент может выдать рецензию и предложить внести свои изменения в код.
Например, ему можно делегировать трудоёмкие, но скучные задачи от добавления функций и исправления ошибок до рефакторинга кода и улучшения документации.
Прямо сейчас сижу и разбираю правки, которые придумал codex за ночь. 95% правок - мусор. Я конечно человек очень усидчивый, но даже для меня это чересчур. Мне нужно 2 часа чтобы найти те самые 5% полезных правок.
Представляю как будут плеваться разработчики. А Линус там такого крутеля даст, что месяц можно будет мемы делать.
У меня есть хеш этой книги, кто-нибудь знает, где она?
У меня она есть, но отдам я ее после дождичка в четверг. Я так 15 лет назад использовал MLDonkey для выуживания контента из Kad-сетей. Один редкий фильм на 700 мб выуживался 2 месяца.
Тоже самое с IPFS: она какбы есть, но она пока на обеде, приходите после 2-х часов. Производительность болтается в районе нуля.
Поэтому меня всегда смешат заменяльщики чего-то на подобные сети. У этих заменяльщиков опыта с гулькин хвост.
У меня все наоборот. Я работаю с подхода человек-first. Днем я пишу код без каких-либо автодополнений, думаю сам. Ночью ллм рефакторит код и утром я делаю обзорочку изменений. 95% патчей выкидываю как мусор, 5% переделываю и принимаю. Затем меняю промпт, чтобы в следующий раз мусорных правок было меньше. Таким образом достигается итеративность разработки.
Для рефакторинга использую машину со 128 рам, 2 видеокарты Sapphire nitro radeon rx 7900 XTX по 24 видеопамяти каждая.В качестве ллм использую devstral:24b-small-2505-fp16 и qwen2.5-coder:32b-instruct-fp16. Запускаю через ollama.
Что касается контекста, то я не передаю ллм тела классов, функций и методов. Я прошу ллм писать и рефакторить JSDoc. Затем я передаю ллм сгенерированные d.ts. Таким образом экономится контекст и в итоге 32к хватает за глаза.
Шантажируют гаражами.
Давайте сразу договоримся: Мизулиной это не показывать. А то потом запретят это ваше пограммирование от греха подальше.
Вещи, которые ллм видела слишком часто при обучение не получится исправить никаким промптом. Ллм будет выдавать их практически всегда. Поэтому и мусор она будет генерить всегда.
Отличная модель, я заменил qwen2.5-coder на нее. Отлично пишет промпт для самой себя. Меньше мусорных правок. Жду более жирную версию.
Абы не плакали.
Причина всегда в том, что родитель хочет дать ребёнку то, что хотел сам. И тем самым убивает своего ребёнка. И ничего с этим сделать невозможно.
Хуанан, ты ли это?
Я прочитал исходники нескольких открытых агентов для ллм и выделил очень простой принцип формирования промптов: ллм должна формировать промпт для себя самостоятельно. Человек должен написать промпт для генерации мета промпта для генерации плана выполнения какой-то задачи. Например:
I want you to act as a prompt engineer (системный промпт удалить с помощью modelfile). Create a well-structured and detailed prompt that will be used to generate a prompt that will be used to ask an AI to ... This prompt must include specific instructions to: ...
ЗЫ Лучше всего, чтобы модель, которая генерит мета промпты и итоговый промпт была бегемотиной т.е. наибольшей моделью в своем классе. Исполнять же итоговый промпт может модель этого же класса с меньшим числом параметров, квантованная и тд.
Ещё можно провести исследование на тему того как связаны положительные результаты и семейное положение, страна проживания, налоги, ежемесячные расходы и кредитная история. Окажется, что у большинства двое детей, налоги 50%, ипотека на сто лет и тд.
Решение проблемы от Apple: добавим в промт "Do not hallucinate".
Никто не заставляет использовать ллм именно так. Я например не использую ллм для написания кода и для поиска информации. Вместо я запускаю ллм после того, как вечером завершаю работу, он делает рефакторинг. Я прихожу утром, разбираю его замечания, нахожу 5% реально полезных правок и продолжаю работу в естественном режиме.
Снизьте температуру и удалите системный промпт. Это сразу улучшит ситуацию. И еще можно поиграть с другими параметрами.
У Qwen и всех остальных нейросетей в т.ч. Gemini Pro почти одинаковая архитектура. Они отличаются только размером долговременной памяти и архитектурой доступа к ней.
Преимущество открытой Ollama + Qwen состоит в том, что можно удалить системный промпт, уменьшить размер контекстного окна, снизить температуру до нуля и установить некоторые другие параметры. Это улучшает качество правок и что особенно важно уменьшает объем мусорных правок.
У любого Saas решения вы ничего подобного сделать не сможете. Вы юзаете его как есть и нет никаких возможностей подстроить его под себя.
Даже ollama с qwen не пойдёт? А вы точно не джун?
Серьезных улучшений по базовой архитектуре не предвидиться: давай соберем все в кучу, сверху припудрим рассуждениями - пусть оно крутится и лавэ мутиться.
Попробовал codex: это почти тоже самое, что qwen2.5-coder. Да, возможно на 2-3 процента он пишет код лучше, но радикальных улучшений не вижу.
Прямо сейчас сижу и разбираю правки, которые придумал codex за ночь. 95% правок - мусор. Я конечно человек очень усидчивый, но даже для меня это чересчур. Мне нужно 2 часа чтобы найти те самые 5% полезных правок.
Представляю как будут плеваться разработчики. А Линус там такого крутеля даст, что месяц можно будет мемы делать.
5700g:
Хорошо, что не забывают ROCm.
У меня она есть, но отдам я ее после дождичка в четверг. Я так 15 лет назад использовал MLDonkey для выуживания контента из Kad-сетей. Один редкий фильм на 700 мб выуживался 2 месяца.
Тоже самое с IPFS: она какбы есть, но она пока на обеде, приходите после 2-х часов. Производительность болтается в районе нуля.
Поэтому меня всегда смешат заменяльщики чего-то на подобные сети. У этих заменяльщиков опыта с гулькин хвост.