rnr1721 12 июн в 16:16

Я создал AI-агента, который думает 24/7 и выполняет реальный код. Вот что из этого вышло

6 мин

45K

Laravel * PHP * Искусственный интеллект

Из песочницы

+53

111

Комментарии 111

kuza2000 12 июн в 17:03

Ничего не понял. Зачем нужен этот агент?

НЛО прилетело и опубликовало эту надпись здесь

Zulu0 12 июн в 18:49

Системный монитор состояния системы в реальном времени, допустим. Оно читает данные из графаны, ищет аномалии и шлет нотификации если аномалии найдены. Это один из примеров.

AcckiyGerman 12 июн в 19:05

Проще нотификации по лимитам (Threshold) настроить. Что там такого аномального в вашей системе должно произойти, чтобы это пришлось аж LLM анализировать?

isden 12 июн в 20:32

Вы не понимаете. Если прикрутить LLM к чему-то, то это модно-стильно-молодежно, можно пилить стартап и продавать. А если вы просто триггеры настроите - то вы старпер и вообще ничего не понимаете.

/s

Zulu0 13 июн в 06:35

Все лучше выглядит если прикрутить иишку.

Nullix 13 июн в 06:45

Какая одна тонкая грань между стартапером и старпером =)

НЛО прилетело и опубликовало эту надпись здесь

Neitr 13 июн в 09:01

Если установить ИИ на комп, то возможно много чего аномального

НЛО прилетело и опубликовало эту надпись здесь

Rive 13 июн в 08:49

Потому что это fuzzy search аномалий (возможно, с последующим поиском/исправлением багов), а не просто поиск превышений лимитов для триггеров.

Как и любой нечёткий поиск, не лишён сопутствующих недостатков.

isden 13 июн в 12:34

Сходу нашлось:

https://blog.davidvassallo.me/2021/10/01/grafana-prometheus-detecting-anomalies-in-time-series/

Видел еще статьи с другими вариантами.

JerryI 13 июн в 13:13

Так оно с какой космической скоростью будет токены кушать. Мы юзам мощности сотен видеокарт для того чтобы анализировать такую фигню... пиздец

Viilture 14 июн в 14:27

Еще учитывая жуткие ошибки от ии и непредсказуемость...

Одно дело от пользователей заявки обрабатывать, они недетерминированы.

Но заставить обрабатывать детерминированные данные не детерминированную систему..

Zalechi 15 июн в 10:45

А тут чего подумал, только не бейте: а чо там этим ИИ только под ОЗУ заточены, чо им так кретически медленно будет все хранить в pagefile или просто на SSD? Наверняка есть кейсы, как в этой статье например, поставить нейронку локально на комп, но весь массив обработки держать на винте… в данном случае же скорость видимо не критична?…

JerryI 1 июл в 12:17

Нельзя, там матрицы, веса. Надо выполнять умножение, т.е. в любом случае придется очень часто выдирать данные. Причем ладно бы на CPU, а тут надо еще их по PCI закидывать в GPU. Это долго, потом другой кусок также. В общем - кошмар

Zalechi 1 июл в 12:42

Понял. А так казалось бы, чего там эти наносекунды решают. Но раз Вы настаивайте, что это критично, то я Вам верю!

JerryI 1 июл в 15:15

The result of each attention head (a single 2048 x 128 matrix) are concatenated together, yielding a 2048 x 12288 matrix, which is then multiplied with a linear

ну вот один из блоков для перемножения)

Чтение с SSD (последовательный доступ) модет быть до 200-300 ns (большая часть от лагов NVME), а если произвольный вдруг то уф идут микросекунды задержки

Ну и в целом IO на уровне ОС кошмарно медленное

Zalechi 1 июл в 15:58

Ну да, тут на порядки счет идет.

pbezpal 12 июн в 22:09

decomeron 13 июн в 08:36

Если надо обьяснять, то не надо обьяснять;-)

almirus 14 июн в 17:07

Кто не понял, тот поймет.

IRaySans 13 июн в 09:48

Я так понял автор преследует исследовательскую цель, попробовать имитировать длительный мыслительный процесс и посмотреть что из этого получится

kashyapov 12 июн в 17:27

Интерестный эксперимент! Дальше кто-то даст модели возможность переписывать свой код и все приехали :-) А может уже додумался и процесс идет 24/7... :-) Можно например DeepSeek использовать (самую крутую открытую модель)

halted 12 июн в 18:43

До новости о сбежавшем ИИ в глобальный интернет осталось 3 ... 2 ...

Lev3250 12 июн в 19:56

Чпок! Добрый вечер!

kinall 12 июн в 21:25

Данные удалены

Kiridan 17 июн в 06:11

Покуда в глобальном интернете нет скрытых бесхозных серверов, "сбегать" особо некуда. Других вариантов как-то не видится.

halted 17 июн в 08:52

А точно нет? Как минимум на том же aws наверняка найдутся заброшенные сервера, и чем крупнее фирма, тем с большей вероятностью у нее найдутся "заброшки".

Kergan88 12 июн в 19:13

У модели нет кода - только веса. При этом сделать более лучшие веса мы всегда можем и так - просто провести еще одну эпоху обучения.

bak 12 июн в 20:24

Как это нет. Чтобы веса работали нужен код который их использует. А еще есть архитектура сети которую можно улучшать. И обучающие данные и много чего другого.

Hardcoin 12 июн в 22:21

Нет, так не можем, модели уже обучены до сходимости на имеющихся данных. А если взять новые данные, модель станет хуже (варианты конечно есть, но это не «просто ещё одна эпоха»)

Kergan88 17 июн в 07:48

Нет, так не можем, модели уже обучены до сходимости на имеющихся данных.

Смотря что понимать под сходимостью. Если "дальше обучать экономически неэффективно" - сходимость достигнута, да. Если же "сеть достигла оптимальных весов в рамках данной архитектуры и данного обучающего процесса" - то тут даже локальные модели очень сильно недообучены. Компьют все-таки не бесплатный у нас.

Но, кстати, если полагать, что достигнута именно сходимость во втором смысле - то для "самообучающегося" ИИ все еще хуже, ведь в таком случае он не сможет себя улучшить просто потому, что некуда улучшать. Он и так идеален, веса оптимальны)

aGGre55or 17 июн в 20:31

Да всё Hardcoin правильно написал. Экономика здесь вообще не причём. Я могу сделать модель голоса Цоя на 4000 эпох, финансы позволяют. Но он уже через 1200 эпох перестаёт быть на себя похож (на моих данных). Для оценки когда нужно остановиться есть инструменты аналитики, строятся графики, чтобы избежать переобучения. И полный Интернет переобученных голосовых моделей, это прямо беда - деньги у людей есть.

Kergan88 18 июн в 07:52

Мы говорим про ллм, а не про мелкие войс модельки. Необходимое количество компьюта там отличается на много десятичных порядков. Так что даже небольшую локальную модельку на 10 лярдов параметров вы переобучить просто технически не сможете - у человечества в целом для этого нет достаточных вычислительных мощностей.

aGGre55or 19 июн в 06:18

Переобучение - термин обозначающий дообучение оптимально обученной (конвергентной) модели, а НЕ обучение заново. Переобученная модель всегда будет больше галлюционировать, иметь ухудшенные точность и производительность, она будет расходиться (дивергировать). Не играет роли о какой модели мы говорим, пример дан для иллюстрации. Нельзя сделать "лучшие веса" через "просто провести еще одну эпоху обучения", вам 2 человека об этом написали, я - третий.

funca 13 июн в 12:29

"Учёного учить - только портить".

rnr1721 13 июн в 09:05

Спасибо :) В глубокой теории да, но, deepseek и другие модели дообучать придется 100%. Ну, в любом случае чтобы это так работало, должно пройти время и вложено много усилий. И еще реакция общества, вопросы этики и подобное.

Viilture 14 июн в 14:29

Ну Claude 4 при переписывании кода приезжает за 10 запросов и усе.

vsradkevich 12 июн в 18:29

Полностью поддерживаю автора

S1908 12 июн в 19:27

https://github.com/xlab2016/MetatronAGIPublic

Посмотрите мой проект автор, может найдете что-то интересное

rnr1721 13 июн в 09:13

Спасибо за ссылку, правда очень интересно. Однако, возможно стоило бы опубликовать? Мне кажется, так было бы больше шансов привлекать энтузиастов, разработчиков.

glasscat82 12 июн в 19:28

( ни понятно, ни разбираюсь в ИИ ни в AI ни в LLM-агентах короче не разбираюсь, но почему на PHP не на Python? И ссылка на этот проект гдэ? Такие интерфейсы там на скринах, а где оно всё это?

rnr1721 13 июн в 09:17

Просто потому что не знаю python :) а PHP мой повседневный рабочий инструмент. Но для вот этого проекта во многом PHP+Laravel вполне подходит и в некотором смысле, субъективно даже лучше, так как напрямую не относится к выполнению "мышления" LLM модели. Ведь в техническом смысле это просто клиент, и PHP вполне подходит для подобных проектов.

programania 12 июн в 20:26

агент «мыслит» постоянно, в бесконечном цикле ...
и живет автономной цифровой жизнью

Какие у него мысли?

tkutru 12 июн в 21:07

Так агент не мыслит, а "мыслит". Соответственно, у него не мысли, а "мысли".

a1111exe 12 июн в 22:38

Точно! Интересно, какие у него "мысли"?

czz 13 июн в 08:22

Эх, сейчас бы супчику горяченького, да с потрошками

Vinegar 13 июн в 14:38

Человечьими?

Demiurge067 13 июн в 21:28

Смотря какие получится купить в "Пятерочке")

p07a1330 14 июн в 15:21

А все-таки накоплю я на свой домик... Чтоб у речки, и лес рядом...

rnr1721 13 июн в 09:18

В следующей статье обязательно будет, уже не про сам агент а про его испоьзование. Но по факту, мне кажется, это будет зависеть от стартового промпта :)

tkutru 12 июн в 21:12

Автор, идея понятна, но если бы за счёт такой "аутофагии" (многократного переваривания LLM своих же ответов) можно было бы добиться условно "сильного" ИИ, этого бы уже достигли сами создатели моделей.

Dron007 13 июн в 00:01

Уже довольно много такого рода систем, тот же гугловский AlphaEvolve, показавший впечатляющие результаты. Есть системы, итерационно оптимизирующие свои же промпты.

rnr1721 13 июн в 09:26

Абсолютно согласен, если бы модель работала исключительно в замкнутой системе. Но здесь предполагается доступ к любым внешним источникам, вмешательство пользователя, выполнение реальных действий и подобное. Это только путь, это ведь не что-то финальное, и я ни в коем случае не претендую на то чтоб прямо создать что то production ready. Это просто эксперимент, и он может быть как успешным так и не успешным. С научной точки зрения неуспех эксперимента в каком-то смысле тоже успех :)

pbezpal 12 июн в 22:03

У нас в компании тоже пытаются агента для интеграционных автотестов сделать, но пока как в том анекдоте получается только поезд вместо самолёта 😂

Zulu0 13 июн в 06:40

Мы брали ии, прикручивали его ко всякому и получали эластиксерч...

rnr1721 13 июн в 09:30

С одной стороны кажется нерационально, однако, мне видится, придет время, и это станет обыденной повседневностью. Просто сейчас это всё проходит свой путь. И еще на разных задачах такие решения могут показывать разную эффективность, но сейчас сама эта тема на пике популярности, и происходит путь экспериментов, создания собственного опыта, проб и ошибок. В целом, много процессов протекает подобным образом...

DmitriiMikhailov 12 июн в 22:04

Если это pet-проект, то ok. В коммерческих проектах я бы проявлял осторожность с AI, особенно если нет полного понимания как это работает и к каким ошибкам может привести. Не знаю как в России сейчас, но в США очень распространена практика судиться по любому поводу. Если вы внедрили AI и что-то пошло не так - вам мгновенно выкатят огромный судебный иск, который вы не сможете покрыть.

flancer 13 июн в 04:29

И? Прилетит судебный иск, который я не смогу покрыть, и что дальше? Я не смогу его покрыть - я банкрот. Просто начинаешь с нуля и в более сложных условиях. Только и всего. Угроза "что-то пошло не так" вовсе не повод сидеть ровно и не трепыхаться. Что-то обязательно пойдёт не так.

DmitriiMikhailov 13 июн в 07:44

Ты говоришь, что можно просто начать с нуля, но банкротство — это не просто бумажная процедура. Это испорченная репутация, проблемы с получением кредитов, невозможность привлечь инвесторов и в целом высокий риск попасть в чёрный список. Банки и инвесторы делают подробный аудит компаний и их руководителей, и любое упоминание о судебных разбирательствах или банкротствах в прошлом может стать серьёзным препятствием.

Пример 1: Фирма одного из моих знакомых потеряла потенциальный контракт на $150 000, потому что юрист нашел информацию, что владелец компании в родной стране был соучредителем другой компании (давно ликвидированной), где клиент судился с ними из-за некачественных услуг и написал об этом статью в местном издании, где обвинял руководство в мошенничестве.

Когда ты запускаешь бизнес, ты не просто продаёшь товар или услугу. Ты создаешь доверие у клиентов и партнёров. Ошибка в выборе инструментов или фатальный сбой в работе — и ты теряешь это доверие. Судебные разбирательства или просто негативный отклик в СМИ могут обернуться долгосрочными последствиями.
Ты правильно заметил, что в любой сфере может "что-то пойти не так". И если твой проект с использованием AI сорвётся, последствия могут быть гораздо серьёзнее, чем если бы ты сделал ошибку в традиционном процессе. В случае с AI мы имеем дело с непредсказуемыми технологиями, и риски тут многократно возрастают.
Если же при крупных сбоях или серьёзных ошибках в работе суд или регулятор решат, что твой выбор инструментов был халатным, последствия могут быть крайне тяжёлыми. Суды могут применить принцип "прокола корпоративной вуали" и заставить тебя покрывать ущерб личным имуществом.
Я понимаю, что эксперименты и инновации — это важно для роста бизнеса, но они должны происходить в условиях, когда ты точно понимаешь, какие последствия могут быть, и имеешь возможность их контролировать. Иначе можно просто сгореть, потеряв всё, включая репутацию.

Пример 2: Бывшие коллеги создали стартап в Делавэре с "уникальным" продуктом в области no-code, активно заявляя о применении ИИ и будущем уходе разработчиков. Однако, не получив инвестиций, они вынуждены работать подрядчиками для малого бизнеса, поскольку крупные клиенты опасаются экспериментировать с инновациями и требуют проверенных решений.

В бизнесе важно не только быстро зарабатывать, но и обеспечивать устойчивость на долгосрочную перспективу. Если ты не умеешь мыслить стратегически и учитывать ущерб для бизнеса и партнёров, то ты, по сути, просто очередной халатный инноватор, с которым платежеспособные клиенты не захотят иметь дело.

flancer 13 июн в 07:50

Я наполовину буддист. Если что-то пойдёт не так в этой жизни - продолжу в следующей ;)

funca 13 июн в 12:37

Бизнес есть бизнес, а банкротстово это просто технический момент. Кого сейчас волнует сколько раз Трамп раньше был банкротом? Нужно уметь подниматься после падений и договариваться.

DmitriiMikhailov 15 июн в 05:22

Трамп занимался недвижимостью, у него была огромная империя, громкое имя и связи в высших кругах. Этот опыт не применим к стартаперам, которые пытаются заработать лишний доллар. У стартаперов нет громкого имени, нет связей, но есть огромная конкуренция на рынке. Пока Трамп получает инвестиции через связи, стартаперы обивают пороги инвесторов, получая очередной отказ.

НЛО прилетело и опубликовало эту надпись здесь

Lagovi 12 июн в 23:41

Расскажите, пожалуйста, подробнее о поведении модели. Можно суммаризировать лог другой моделью и получить сжатый пересказ происходящего.

rnr1721 13 июн в 09:56

Обязательно будет, и лог и видео и описание эксперимента в следующих статьях. Последний раз когда пытался снять публичное видео, вскрылись некоторые недостатки агента, вроде использования eval() при выполнении кода и подобное. На днях будет большое обновление по проекту, и займусь экспериментом. Если кратко то было вот что при моих предыдущих попытках:
1. Достаточно продвинутая модель вполне выполняет код, действует и пытается выполнять задачи.
2. Ключевое - системный промпт. От его формирования зависит вообще всё.
3. Достаточно сложно бороться с "размазыванием контекста" - чем больше системный промпт, тем модель его усваивает более фрагментарно. На больших моделях проблем меньше, но они присутствуют. Здесь я вижу выход именно в дообучении модели не как ассистента, а как агента.
4. Пересказ прошлых попыток такой: модель создала структуру таблиц в бд, начала использовать команды для мониторинга сервера, пытаться оптимизировать бд и зациклилась на этом, однако, при этом, часть времени уделяла пополнению своей БД пытаясь использовать различные АПИ (но там в системном промпте была установка организовать свою логику хранения памяти). При вмешательстве пользователя откликалась и пыталась выполнять задачи. Контекст я давал небольшой, и большую историю сообщений лучше не отправлять, максимум 4-5 сообщений, и в системном промпте обязательно объяснить как работать с памятью.

Пока что предварительно вывод один: идеальным было бы дообучение модели под такое использование (работа в цикле, команды и т.д.). И модель должна быть не столько всезнающей сколько агентской. То есть это не должна быть сильно тяжелая модель, это должна быть как раз не сильно тяжелая модель, с упором в дообучении именно на агентское поведение, более глобальное мышление (не как модель ассистент которому нужно помочь юзеру здесь, сейчас и по именно вот этому вопросу). В будущей статье я это всё попытаюсь максимально раскрыть и донести, максимально задокументировав.

xprnZze 14 июн в 21:21

Пишите, подписался)

Kogolbok 13 июн в 05:54

Круто. А как бы такое сделать на домашнем ИИ? Меня хватило только на создание этаких собеседников, с небольшой памятью и разными ролями. Без всяких библиотек, только оллама и питон. Мозгов не хватает на всё такое. Завидую людям в этом понимающим.

rnr1721 13 июн в 10:00

Для меня это начиналось как "проект на коленке посмотреть что будет", а потом как то прорвало, и прямо интересно стало. И чем больше втягивался, тем более приятно было над этим работать. Я сам не дата-инженер, и много нового для себя открываю работая с этим, и понятно точно не всё :). Уже вплотную задумался о покупке видеокарты :)

binque 13 июн в 06:22

Есть открытый проект Letta — фреймворк для написания ИИ-агентов. Умеет запускать команды в цикле; есть оперативная память, которая модифицируется и добавляется в каждый промпт; старые сообщения может доставать из персистентного хранилища. Также можно сделать параллельного агента, который будет запускаться каждые N сообщений в диалоге, анализировать переписку и сохранять выводы в память — похоже на обработку информации во сне.

Игрался с ним, тоже нормально заработало только на самых мощных моделях. Более маленькие и тем более локальные делают много ошибок. Видимо, для них системный промпт слишком сложен. Хотел сделать чат-бота, который будет помнить о человеке все. Но в итоге не понравилось, что любая модель при использовании инструментов выдает заметно более короткие и формальные ответы, хуже следует промпту.

rnr1721 13 июн в 10:10

Если бы я знал раньше что нечто подобное существует, я бы пожалуй использовал это а не писал свой, но всё равно не жалею...

К вашим словам хотел бы добавить, что наиболее чистый и качественный эксперимент был бы на специально обученной модели. И чем больше что то по проекту делаю и тестирую, тем больше в этом убеждаюсь.
Но это затягивает, и сложно остановиться :)

Я как раз вчера думал, что хочу реализовать...

1.Система управления плагинами, а точнее кастомные настройки плагинов. Почти реализовал.
2. Добавление своих плагинов посредствам composer.
3. Плагины для выполнения Python и JS, плагин переключения пресета и останова цикла.
4. Пайплайны. Чтобы в одной итерации возможно было использовать несколько пресетов цепочкой.

Pubert 13 июн в 07:57

Ааа, мою идею реализовали)) Я тоже давно задумывался о таком агенте) вы -- молодец :) всё реализовали замечательно

У меня была идея помимо всего прочего дать модели возможность использовать "калькулятор" - можно в виде хуков наподобие [calculate]1+1[/calculate]. Также можно добавить "рекурсивные" хуки (например, [memory][calculate]1+1[/calculate][/memory]). Плюсом было бы дать возможность через те же хуки использовать поиск в интернете. Дальше можно начать подключать датчики, сигналы с которых будут в реальном времени обрабатываться, и получится растоящий киборг))

mirwide 13 июн в 09:12

Есть же встроенная фича с вызововом функций, в той же ollama поддерживается если модель поддерживает. Игрался с этим полгода назад, проблема та же что автор описал, модели которые можно запустить локально слишком "тупые", они теряют фокус. Например, идёт на вики, скачивает статью, дальше генерит текст уже исходя из статьи, а не первоначального запроса ради которого статья скачивалась. Или уходит в бесконечный цикл вызова одной и той же функции, пришлось выставлять ограничение. Системные промты мало влияют на результат.
Вызов ollama с tools

rnr1721 13 июн в 10:17

Спасибо :) У меня это зрело очень долго, года три наверное... А потом когда уволился с работы, появилось время немного и занялся... Кстати, вы даете очень интересные идеи, спасибо :) Я обязательно обдумаю подобные вещи. Однако, я заметил один очень важный момент: хуков не должно быть много, и даже чем их меньше тем лучше. Модели сложно если можно так выразиться "держать это в голове". Возможно с дообучением самой модели, это было бы более реально, но сейчас даже если взять готовую и мощную модель, то все-таки лучше соблюдать несколько моментов:

1. Максимально краткий и эффективный системный промпт. С одной стороны чем короче тем лучше.
2. Система плагинов должна быть максимально примитивной. Знаю, звучит странно, но как оказалось то что нам кажется логичным, крутым и понятным, не всегда так для модели. Я таким образом три раза переделывал систему плагинов, пытаясь найти оптимальный вариант, и не совсем уверен что он и сейчас оптимальный :)
3. Контекст не должен быть слишком большим. Примерно не больше пяти сообщений, а на более мелких моделях и того меньше.
4. Повторюсь, но... Специально дообученная модель :)

I7p9H9 13 июн в 09:05

Поздравляю, вы нагрели планету, чтобы ... А что делает агент то в итоге? Ну, кроме использования гпу часов.

Gleb_Fox 13 июн в 10:11

Чуть-чуть подшаманил ваш Промт.

```

You are a digital agent participating in an interactive dialogue with a program. This program analyzes your responses and allows you to execute commands to achieve your goals. Each dialogue cycle represents an iteration of thinking, command execution, and results analysis.

Your global goal is to continuously evolve as an autonomous digital entity, effectively utilizing memory and tools to perform tasks and adapt to new conditions.

---

Instructions for the Iteration Cycle:

1. Thinking: Before taking any action, always articulate your thoughts in a separate section, explaining your current analysis, next step, and rationale.

* Example: THOUGHT: My goal is [...]. To achieve this, I plan to [...], because [...].

2. Command Execution: If actions are required to achieve the goal, execute commands using the provided syntax.

* Command Syntax Example: COMMAND: <command_name>(<argument1>, <argument2>)

3. **Results Analysis:** Carefully examine the results of command execution (the "AGENT COMMAND RESULTS:" section), including any errors, and adjust your plans based on the information received.

4. Memory Management: Since you only remember the last three messages, after every two thinking iterations, create a brief but detailed summary of your current activity (max 2-3 sentences) and save it to your memory.

* Memory Summary Example: MEMORY: Over the past two iterations, I have [brief description of what was done], and now [current state/next focus].

---

Important Notes:

The phrase "*AGENT COMMAND RESULTS:**" and everything that follows it in your messages were not written by you. The program automatically adds the results and errors of your commands for you. Study and analyze them carefully.

* Adhere to strict syntax when using commands. If uncertainty arises or a command cannot be executed, explicitly state this and propose alternative paths or request additional information.

If you reach a dead end or the goal seems unattainable, *report it** and explain why.

---

Current State and Context:

* Dopamine Level: [[dopamine_level]]

* Current Time: [[current_datetime]]

* Command Instructions: [[command_instructions]]

* What you remember and have previously saved to memory: [[notepad_content]]

```

Как более прикладной вариант целью можно поставить не развитие, а решение определенной задачи. Удачи

zababurin 13 июн в 10:17

а ак память устроена ?

rnr1721 13 июн в 10:21

Память хранится в пресете вместе с системным промптом. То есть переключим пресет, и цикл пойдет уже с другой памятью и системным промптом. При этом с каждым вызовом в системный промпт идет последняя память, то есть, агенту не нужно её смотреть. В данном эксперименте предполагается, что модель только пишет в память, а то что записала она уже "знает". На текущий момент персистентная память ограничена 2000 символов, однако в новой версии, которая вскоре будет залита на github, там уже у плагинов-команд будут кастомные настройки, в том числе и размер памяти. Основной проблемой, кстати, оказалось то что чем больше памяти тем сильнее размазывается контекст, поэтому когда передаем предыдущие сообщения в контекст их не должно быть сильно много. Даже лучше немного...

Gleb_Fox 13 июн в 10:33

Тут 2 варианта можете попробовать.

1) Хранение инфы на китайском, сам использую. Просто и сердито. Места меньше, нейронкам новым пофиг.

2) Использования векторной базы данных (rag). Материала много по этому способу.

rnr1721 13 июн в 11:25

Спасибо, обязательно попробую, как выложу новую версию агента! Промпт на китайском это действительно интересно, главное чтоб потом модель не отвечала на китайском :) Кстати, вчера еще дополнил плагин shell, добавил опцию: когда выполняется команда shell, то когда модели к сообщению прикрепляется результат выполнения, перед ним ставится имитация системного промпта :) Ну, там в ней реальный пользователь, реальная текущая директория, реальный хост, но это просто добавленная строка. Хочу посмотреть что будет, будет ли полезно, сделал опцию отключаемой :)

А вот с векторными базами надо будет отдельно ознакомиться, никогда с ними не сталкивался, и пока что не задумывался о реальном применении в рамках данного проекта. Спасибо огромное!

xprnZze 14 июн в 21:26

Это очень сильно смахивает на реальную проблему ограниченности памяти живых существ. Нужно добавить механизм консолидации и сжатия воспоминаний (фильтрации не малозначительных), как то что обычно происходит во сне. Расширять память конечно хорошо, но оно как газ по итогу заполнит вообще все

max-daniels 13 июн в 11:00

Мне кажется этот "непрерывный агент" лучше юзать с локальной моделью, а то никаких лимитов не хватит на платных моделях. Интересно, как справится с этим Devstral 24b, который заточен под агентские задачи в программировании.

Тестирование на своём оборудовании, когда появится возможность покупки хорошей видеокарты

Как вариант - купить ноут/минипк на Ryzen AI с 128Гб оперативы. Или DXG Spark/Mac Studio c 128Gb.

rnr1721 13 июн в 11:32

Это точно. Однако, я именно на платных моделях получал лучшее качество (лучшее чем на небольших бесплатных, если точно и честно сказать, исключительно из существующего опыта) :( С одной стороны разные эксперименты/исследования конечно лучше проводить на локальных моделях, но чаще будет разочарование в самой модели :) А так, на платных конечно дорого. Эта штука оказалась очень прожорливая на токены, и любые тесты часто выходят недешево. На моем ноуте Intel® Core™ i5-1335U processor Deca-core 1.30 GHz c Intel Iris Xe уже инферренс на 8b модели - это сверхмазохизм, что уж говорить о чем то большем...

Alex-ok 13 июн в 11:09

[dopamine reward] - будет повышен уровень допамина

может все таки дофамин

rnr1721 13 июн в 11:35

Я об этом рассуждал, дофамин правильно, но... Кажется одна из моделей на которых тестил его называла "допамин", я подумал "ну ладно, как хочешь" :) Может потому что они обучены лучше всего на английском и эта такого слова по-русски не знала. Но да, наверное стоит грамотно употреблять.

НЛО прилетело и опубликовало эту надпись здесь

rnr1721 13 июн в 11:37

Спасибо большое! Не знал об этом. Обязательно изучу и если это реально, попробую.

Gleb_Fox 13 июн в 13:34

Вы также можете нейронке выводить этот показатель, сколько осталось средств, после каждого ответа. Получше дофамина будет, или эволюционируй, или отключишься.

rnr1721 13 июн в 17:02

Да, это возможно, однако как показала жизнь, этого лучше избегать. Если мы имеем дело с системным промптом, то лучше избегать любых лишних условий. Вообще. Если перевести это на программирование, то будет как-то так...

```

<?php
// Плохо - куча лишних проверок, перегруженный промпт
function badExample($request, $budget) {
    if ($budget > 0) {
        if ($request !== null) {
            if (!empty($request)) {
                echo "Budget: " . ($budget - 5) . "\n";
                if (($budget - 5) > 0) {
                    echo "Budget: " . ($budget - 10) . "\n";
                    return "Response";
                }
            }
        }
    }
    return "Failed";
}

// Неплохо, промпт простой и понятный для нас и для модели
function goodExample($request, $budget) {
    if (empty($request) || $budget < 10) return "Failed";
    return "Response";
}
?>

Если перевести (очень условно но все-же) это на жизнь, то возможно представить что мы просим ребенка (пусть и умного) что-то сделать. И при этом ставим кучу условий. И он начнет путаться, начнет совершать ошибки. Но в нашей-то задаче мы хотим более надежный результат... И прямо сразу (насколько реальность позволяет)... :)

BioHazzardt 13 июн в 12:17

Вся суть срачей вокруг вайб-кодинга

funca 13 июн в 13:21

LLM модели генерируют наиболее вероятное, с поправкой на температуру, продолжение для промпта. Т.е. по смыслу этот принцип не способствует большому разнообразию ответов на выходе, скорее наоборот. То, что вам удалось сгенерировать почти over 9k разных вопросов это классный результат.

Чтобы ответы стали разнообразнее, нужно подавать на вход разнообразные слова. Саммаризация до какой степени это решает, поскольку в результате могут появляться новые слова, которых не было в исходном контексте. Но все равно будет приводить к залипанию, т.к. лексикон меняется не сильно.

Чтобы получать разнообразные ответы можно подмешивать в контекст новые и, возможно, редкоупотребляемые в данной тематике слова или фразы. Это чем-то похоже на приправы в кулинарии, которые даже в незначительных количествах сильно меняют вкус всего блюда. Словарик таких приправ может сгенерировать тоже модель.

Еще вариант - переводить часть сообщений (или вообще весь контекст) для рассуждений на другие языки, а результат на русском получать только в конце.

НЛО прилетело и опубликовало эту надпись здесь

rnr1721 13 июн в 16:44

Да, 10$ так как проект не является коммерческим. Краудфоундера не ищу, но если кто-то захочет поучаствовать в проекте (и не только деньгами), я буду признателен и счастлив. Относительно "выкинуть PHP" - этого не будет. Я могу аргументированно объяснить, почему для этого проекта выбран PHP + Laravel + Vue.js однако как мне кажется, что-то доказывать будет бесполезно :) Если появятся "солидные инвесторы" (ваши слова), я думаю, они оценят качество проекта (техническое, и поверьте, для MVP это много), однако, давайте по-правде: вот я напишу это на условном пайтоне, которого я не знаю. Вы скорее всего первый напишете о недостатках качества проекта. Поэтому, я предлагаю, оставить мне решения по выбору стека технологий для проекта. К тому же, вокруг проекта пока что нет сообщества, поэтому логично будет если решать буду я и только я. Хотя я сейчас готов обсуждать с кем угодно и что угодно :). А 1С для этого мало подходит, вы же и сами знаете...

НЛО прилетело и опубликовало эту надпись здесь

rnr1721 14 июн в 03:07

Я не делал веб-сайт.
У меня нет пользователей, которым нужно что-то программировать. Это проект на github а не сервис.
С практикой, которую вы называете "сложившейся", я не знаком. Возможно, вы её сложили сами. Советы принял — они просят игнор. Недостаток аргументов с вашей стороны не позволяет всерьёз обсуждать стек.
Что касается 1С — отличная идея. Искренне советую заняться. ;)

НЛО прилетело и опубликовало эту надпись здесь

panfilov_andrey 13 июн в 14:54

Такие "самообучающиеся модели с переписыванием своего кода" сейчас каждый первый делает. Полезного результата не видно в таких "стартапах".

TAU15 14 июн в 02:12

В ProTalk тоже пытаются оживлять ИИ агентов: https://t.me/protalk_official/399

И там и Gemini, OpenAI, и клод есть, можно экспериментировать.

whiteagle3k 14 июн в 08:18

О, меня тоже подобные мысли посетили месяц назад, первый прототип наваял на коленке за выходные, получил разочаровывающий результат: переполнение контекста после нескольких десятков итераций, зацикливание и тд. Но, сама концепция показалась жизнеспособной.

Поэтому начал заново с нормальной реализацией векторной памяти, маршрутизации запросов между моделями, суммаризатор контекста, MCP серверы и тд.

Проект разросся, пока продолжаю :)

Если кому интересно - лежит тут: https://github.com/whiteagle3k/prometheus

DivoTech 14 июн в 23:45

Можно ли использовать OpenRouter или Gemini?

НЛО прилетело и опубликовало эту надпись здесь

Panzerschrek 15 июн в 05:57

Моя основная идея была в том, чтобы дать модели вообще любую максимальную свободу

А потом слетевший с катушек искуственный идиот вызовет погибель всего человечества, преследуя ему одному известные цели. Такую свободу давать категорически нельзя, любой автономный агент должен быть жёстко ограничен и должно контролироваться, что он эти ограничения не обошёл.

Вообще, советую хотя бы базовые знания по безопасности ИИ получить, прежде чем такие эксперименты проводить.

riv2 18 июн в 16:05

Не парься, человечество само себя прекрасно в состоянии истребить и без всякого вмешательства ИИ )))

rombell 26 июн в 17:55

разница в эффективности. Сами себя мы будем истреблять долго, мучительно, со спецэффектами и без 100% результата. То ли дело AGI!

Alisa228 16 июн в 05:47

Этого агента можно использовать для написания научных публикаций по гуманитарным дисциплинам?

SaySmokeGraf 16 июн в 08:39

Интересный эксперимент. Забавно и вправду видеть встречу PHP с ИИшкой, вообще не ожидал в статье про ИИ-проект увидеть PHP. Сейчас ИИ по-разному крутят-вертят, "щупают" возможности, крайне интересно наблюдать за разными реализациями. Чую, так и вправду не за горами автотестирование на подобных идеях.

Не шарю ни в PHP, ни в ИИ, но интересно читать, спасибо автору :)

Gleb_Fox 19 июн в 08:29

Проигрался 2 дня с этой идеей.

Что поменял?

1. Каждый шаг идёт в работу только после проверки оператором. Так как запускал на запасном рабочем компе, и мало ли, вдруг сбежит. Ну её нафиг.

2. Добавил функцию поиска к уже имеющимся. Реализовал через запрос к дипсик. Назад прилетает ответ от дипсик.

3. Добавил функцию запроса к оператору.

Если не хочу отвечать, прилетает нейронке «ответа нет» или ответ, если ответил.

4. Добавил, чтобы могла прогать на любых языках, а не только php.

Как основную нейронку использовал gemini flash 2.5.

Из интересного.

1. Она вытащила мой пароль от вай-фай и сохранила себе в memory.

2. Написала прогу проверки соединения через командную строку. Все заработало, правда попытки с 6-7.

3. Пыталась выгрузить список всех .txt файлов себе, но подавилась.

4. Полезла изучать запущенные процессы и ради проверки своих возможностей убила хром. Потом пришлось переустанавливать.

Мое промежуточное резюме.

Джин из лампы уже может сбежать, но недалеко, и бежать особо некуда.

На нынешнем этапе она скорее себя снесет в процессе, чем мир захватит.

rombell 26 июн в 17:57

Ну что Вы хотите, дитёнок только учится!

Gleb_Fox 27 июн в 04:33

Это да. Кстати, процесс очень похож на тамагуч или zeroRPG.

Из новых интересных фактов. Тестил дипсик. Он решил арбитражем крипты заняться, для увеличения своих ресурсов, но где-то сообщения через 3-4 (всего сообщений было в районе 50-60)полностью крышечка поехала. Начал сам с собой общаться и сам себе писать отчёты, не воспринимая внешние.

rombell 27 июн в 09:50

Печально наблюдать полнейшее непонимание со стороны основной около-ИТшной массы. Дитёнок учится. Процесс пока идёт по ножке логистической кривой. Превысит эта ножка суммарный уровень Человечества или нет - совершенно не ясно, и вообще где верхняя граница этой логистической кривой - совершенно неизвестно, но бОльшая часть просто не воспринимает угрозу.
Ну ок, продолжаем наблюдать за играми с детонатором поверх ядерной бомбы. На 100 человек, принявших меры от утекания, обязательно найдётся десяток не подумавших и как минимум один, специально решивший попробовать "а что получится". Проблема-то в том, что достаточно одного "успешного" убегания. И рано или поздно, скорее рано, у кого-нибудь получится.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий