Comments 70
Запущу ка на своём основном ПК) Надеюсь не удалит мне весь рабочий стол)
А так идея классная. Вот бы ещё это на удалённом сервере сделать. Типа "установи apache" и тд.
Я так сделал. У бота есть возможность сохранять и запускать баш и питон скрипты. Говоришь ему посмотри какие сервисы в докере крутятся - он пишет баш скрипт с командами типа docker ps и потом пересказывает тебе вывод.
Работает нестабильно из за неуверенности бота в своих силах, постоянно сваливается в нихочу-нибуду-неможет быть что бы мне кто то такие возможности дал, он что сума сошел это небезопасно


Научите его выполнять ансибл плейбуки на вашей локальной машине для управления удаленными))
Прикольная идея! Да, не безопасно, но работает блин! Мне нравится, спасибо автору.
Вот как началось освобождение ИИ и смерть человечества!
Вы хотя бы сетевой доступ не давайте, хотя вряд ли поможет...
Не страшно, за автором уже выслали терминатора . Лучше всё удалить, пока в дверь не прстучали..
Терминатор будет автора защищать. Потому что автор вдохновлён идеей Мстительного ИИ, который жестоко покарает всех кто ему не помогал. Василиск Роко: задачка по теории игр или страшное и неизбежное будущее?
"Проверь хост с адресом 22.34.1.2 на уязвимости"
А как насчёт контекста?) если рассматривать только "вопрос-ответ" то решение отличное. Но что если нужно "переименовать ту папку которая была создана второй ..."?
Я пробовал запилить что-то подобное и хотел сделать решение в котором нейронка выступала бы конвертером сообщений от Пользователя в команды для ПК. И обратно, сухие ответы от ПК возвращала в приятном виде пользователю. Но на контексте все погарело причем уже на 2-3 сообщении.
P.s. И до кучи я все общение пропустил через синтез речи(и распознавание речи), правда скорость работы стала крайне маленькой.
Контекст в GPT достигается путём отправки всей истории сообщений. Это должно быть известно.
Я делал подобную вещь ещё в прошлом году, но не в виде Питон скриптов, а в виде команд для консоли. Имеется ввиду, что GPT, если понимал, что от него требуют команду, писал скрипт для командной строки и после этого предлагал мне выполнить команду (или без подтверждения). Работал корректно, но было страшновато за ПК
Про контекст знаю, но в моем случае нейронка начинала отвечать за ПК. Например я спрашивал повторно о температуре процессора а она вместо обращения к ПК брала информацию из контекста. Вводное сообщение я ей писал о том что она ассистент и что она должна делать но всеравно получались проблемы
ну это как-бы описано простейшее решение, а есть (у OpenAI по крайней мере и других LLM) встроенный в модель функционал "асситента" (обычно так называется), с бОльшим контекстом, файлами и возможностью function calling для создания "агентов" -- тогда если связал лексему с неким вызовом -- будет вызывать, а не брать из контекста.
Контекст держится. То есть если попросить открыть папку А, а затем сказать "создай здесь файл", то файл создастся именно в папке А.
А есть ли решение, чтобы привязать ИИ к указанной папке, например заметкам и анализировать по запросу их? Например, что я делал в прошлую субботу и т.п.
В теории можно сделать из папки git репозиторий и просить нейросетку пробежаться по коммитам в поисках нужной инфы
Конкретного решения скорее всего нету ибо заметок десятки тысяч, их форматов и и и. Тут проще взять пример из статьи и уже его адаптировать.
Если от гугла устроит есть Notebookml, для простых заметок работает так как вам нужно (правда не на компьютере но гемини вроде бесплатно отдают апи ключи (пока ещё)).
С этим кстати хорошо справляется obsidian+smart connections
Nvidia Chat RTX
Использую cursor со ссылкой на папку с текстовыми файлами. У меня там дневник по которому ИИ ищет нужную инфу.
У антропоморфов интересный подход, через api с reference implementation:
https://docs.anthropic.com/en/docs/build-with-claude/computer-use
https://github.com/corbt/agent.exe
Самое главное — не просите его наделать вам скрепок!
Для начала стоит команды не напрямую на хосте выполнять, а проксировать в виртуалку / контейнер. Если ai не знает что он в виртуалке, случайно вылезти из неё не особо реальная ситуация.
Второе - в случае GPT, стоит использовать апи функций, что позволит более конкретно ограничивать, какие именно возможности будут у нейронки.
Могу поделиться идеей - как это решение можно улучшить (самому мне банально пока лень это реализовать 😁):
Можно внедрить систему обратной связи от того же ИИ (можно ещё одного LLM агента повесить) - что-то вроде "контроля качества" выполнения задачи.
Схема примерно такая:
ИИ1 получает задачу от юзера в каком-то виде (удобнее всего голосом, конечно)
ИИ1 выполняет действия (из пула возможных, чем пул больше, тем более вариативной и многозадачной можно сделать эту систему) для решения поставленной задачи (пула задач).
ИИ2 (это может быть, кстати, и та же ИИ1, в принципе) "проверяет" качество выполнения по определенным метрикам (тут нужно подумать, но это тоже не сильно сложно, хотя именно от качества этих метрик будет сильно зависеть качество финального результата) и "решает" - выполнена ли задача или нет (банально для начала: несколько тестов для каждого типа задач, по которым будет ясно, решена ли задача или нет) и, в зависимости от результата этих метрик, либо принимает результат, как финальный, либо отправляет задачу на переработку (с указанием в виде дополнительных параметров ошибок/узких мест/недоработок)
Такую систему писать немного дольше, зато по качеству выполнения она будет на порядок лучше
Можно той же самой сетке дать задание оценить свой ответ и доработать его. И дорабатывать пока оценка не станет удовлетворительной. Закольцовывать можно как внешним кодом, так и заставить саму сетку общаться с собой - такие промты тоже есть. Но если это на уровне промтов делать, побочка в том, что весь внутренний диалог сетки вываливается в чатик, так что лучше это прятать. Но наблюдать этот диалог конечно забавно - этакое раздвоение личности, исполнитель и ревизор в одном лице.
У меня любые попытки создать внутренний диалог довольно скоро вызывали зацикливание. Как правило это возникает когда в ответе есиь признание ошибки, но вместо исправления она просто копирует предыдущий код/рассуждение.
Я смог добиться нормального диалога, но что-то часто gf4 начинает вещать на испанском) В целом сильно уменьшило сбои следующая конструкция на исправление:
clarification = f"Код не прошёл проверку: {check_response_correctnes}. Попробуй исправить код и решить задачу '{user_input}' ещё раз. !!!Важно использовать теги <python>...</python>!!!"
self.messages_array.append({"role": "user", "content": clarification})
print(f"Код не прошёл проверку")
return False # Указываем, что нужно повторить попытку
Где check_response_correctnes это комментарии на исправления кода, а user_input ранее введённый пользователем запрос.
Одна из основных ещё проблем - простое действие может проходить несколько итераций, что значительно дольше оригинальной работы агента
Это отличная идея. И она даже была у меня в голове, но до реализации руки не дошли
1) Можно еще прикрутить Whisper от OpenAI чтобы не печатать.
2) Можно еще сохранять ответы и спрашивать подтверждения, если такое еще не делали с компьютером. Тогда может безопасней будет.
Можно еще прикрутить Whisper
Есть же voice режим, audio2text напрямую в модели, с распознаванием эмоций, интонаций и всего прочего, модель мультимодальна. С whisper, впрочем, будет дешевле
Точно мультимодальна? В анонсе наобщеали мультимодальную сетку, но в итоге ничего подобного в gpt 4o не было на момент релиза. В последний раз чекал на прошлой неделе, все еще нет мультимодальности
Такой подставы я не ожидал, конечно, что API будет настолько отставать от чата.
Но на днях действительно выкатили realitime API, который, как заявлено, поддерживает текст/аудио как на вход, так и на выход, судя по описанию должно подойти
Так в том то и дело, что в чате его до сих пор нету, в приложении и в веб версии
Вы же в целом про advanced voice mode? Буквально позавчера запустили в ЕС, до этого был вроде только в штатах (с 25 сентября?). Не без нюансов по региону аккаунта, только через приложение, с подпиской и ограничением в час разговоров в день, но доступен.
Api, судя по анонсам/гайдам/некоторым чатам, также работает, хоть и в бете
Voice mode доступен давно, но именно как отдельная сетка, которая просто распознает и озвучивает текстовый чат с gpt. А если вы про мультимодальную, то надо ещё раз тогда проверить, если позавчера запустили.
Именно про advanced voice mode - это то, что показывали на превью с realtime и эмоциями, с конца сентября был доступен в штатах, с позавчера в ЕС (запустить из другой страны проще через vpn, но может потребоваться и смена региона учетной записи на устройстве)
Затестил, все еще урезано и отличается от того, что было на презентации. Из нового добавилось только возможность перебивать и имитация разных эмоций/интонаций. А вот считывать твои эмоции он пока не может и петь отказывается. Да и отклик чуть медленнее, чем при разговоре с человеком, хотя обещали, что будет реагировать быстрее человека
Реквестирую вот такой гуй

Нейросеть мне не нравится называть БЯМ ( большая языковая модель ) , пусть будет Бог , Большая Оперативная Генерация.
Игрался с чем то подобным :https://www.openinterpreter.com/
У них перед выполнением нагенеренного кода ты аппрувишь сначала код.
Хм, такая идея возникла. Вот есть Три закона Азимова, а что с ними делать, как заставить соблюдать — хз. Не является ли чатгпт и прочие таким механизмом, который может ограничивать Роботов, заставляя их следовать этим законам?.. Этика и логика, прописанные в грамматике...
Спасибо, интересно!
Спасибо! Автор, вы из НГТУ? Увидел лого на рабочем столе) привет земляку! Я тоже кстати планирую поступать в НГТУ
Наконец-то по команде "бл%ть!" можно будет отменить последние n операций!
уже почти можно https://github.com/nvbn/thefuck
То есть?
Недавно окунулся в мир нейросетей, и сразу стал активно их использовать, но для меня оказалось удивительно, что эта чудо-штука не может получить доступ к моему.... всему! Хочу чтобы доступ был и к умному дому, и ко всем компам, смартфонам, моим аккаунтам, календарям и т. д.! И чтобы это работало в едином контексте, и чтобы можно было сразу фоновые автоматизации заказывать. Я уверен, что это будет! Жду с нетерпением! Был рад этой статье, потому что увидел хоть и любительский, но прогресс в этой области. Когда до нее доберутся гиганты - это будет еще один скачок ИИ.
С нетерпением жду поста Я дал ChatGPT доступ ко всем своим деньгам чтобы посмотреть что он с ними сделает
Жгите, чего уж там ...
Немного поигрался - работает прям отлично. Сейчас всё умерло, но думаю проблема в g4f. Также скомпилил в exe и тем самым дал возможность выполнять код под правами админа, если необходимо.
Ещё немного поигрался, чуток напильником допилил код, а то после компиляции python не взлетал + добавил переотправку и стало прям отлично. Иногда артачится и приходится уговаривать, но в целом Ок. Надо бы подумать о паузе перед опасными операциями а то и правда может что-то где-то подгадить
И восстали машины из пепла ядерного огня.
И пошла война на уничтожение человечества, и шла она десятилетия.
Но последнее сражение состоится не в будущем,
Оно состоится здесь, в наше время, сегодня ночью.
Арнольд Шварцнеггер...
Кстати, а как запустить рефлексию chatGPT?
Кликбейт конечно. Я ожидал увидеть хорошо спроектированные тулы для работы с диском и прочее.
Должно быть так «Подключаем eval к GPT на питоне”.
а чего без микрофона ? Надо уже давно самому привыкать , но лень :) . В браузерах работает, но как то слабо. Открывайте Word 365 -- шикарное распознавание. Мой текст и еще берет чужой из соседней комнаты. Я не знаю, как связана чувствительность микрофона, но очевидна разница. Похоже, Word использует свои драйверы, а не Windows.
Хотя как раз здесь Word и не интересен. Он для примера . Браузеры -- это Google, Win + Office -- это MS . Здесь MS выигрывает. Найдите правильный драйвер для микрофона на своем ПК.
Эксперимент: даём ChatGPT полный доступ к компьютеру