Comments 70
Запущу ка на своём основном ПК) Надеюсь не удалит мне весь рабочий стол)
А так идея классная. Вот бы ещё это на удалённом сервере сделать. Типа "установи apache" и тд.
Прикольная идея! Да, не безопасно, но работает блин! Мне нравится, спасибо автору.
Вот как началось освобождение ИИ и смерть человечества!
Вы хотя бы сетевой доступ не давайте, хотя вряд ли поможет...
Не страшно, за автором уже выслали терминатора . Лучше всё удалить, пока в дверь не прстучали..
Терминатор будет автора защищать. Потому что автор вдохновлён идеей Мстительного ИИ, который жестоко покарает всех кто ему не помогал. Василиск Роко: задачка по теории игр или страшное и неизбежное будущее?
"Проверь хост с адресом 22.34.1.2 на уязвимости"
А как насчёт контекста?) если рассматривать только "вопрос-ответ" то решение отличное. Но что если нужно "переименовать ту папку которая была создана второй ..."?
Я пробовал запилить что-то подобное и хотел сделать решение в котором нейронка выступала бы конвертером сообщений от Пользователя в команды для ПК. И обратно, сухие ответы от ПК возвращала в приятном виде пользователю. Но на контексте все погарело причем уже на 2-3 сообщении.
P.s. И до кучи я все общение пропустил через синтез речи(и распознавание речи), правда скорость работы стала крайне маленькой.
Контекст в GPT достигается путём отправки всей истории сообщений. Это должно быть известно.
Я делал подобную вещь ещё в прошлом году, но не в виде Питон скриптов, а в виде команд для консоли. Имеется ввиду, что GPT, если понимал, что от него требуют команду, писал скрипт для командной строки и после этого предлагал мне выполнить команду (или без подтверждения). Работал корректно, но было страшновато за ПК
Про контекст знаю, но в моем случае нейронка начинала отвечать за ПК. Например я спрашивал повторно о температуре процессора а она вместо обращения к ПК брала информацию из контекста. Вводное сообщение я ей писал о том что она ассистент и что она должна делать но всеравно получались проблемы
ну это как-бы описано простейшее решение, а есть (у OpenAI по крайней мере и других LLM) встроенный в модель функционал "асситента" (обычно так называется), с бОльшим контекстом, файлами и возможностью function calling для создания "агентов" -- тогда если связал лексему с неким вызовом -- будет вызывать, а не брать из контекста.
Контекст держится. То есть если попросить открыть папку А, а затем сказать "создай здесь файл", то файл создастся именно в папке А.
А есть ли решение, чтобы привязать ИИ к указанной папке, например заметкам и анализировать по запросу их? Например, что я делал в прошлую субботу и т.п.
В теории можно сделать из папки git репозиторий и просить нейросетку пробежаться по коммитам в поисках нужной инфы
Конкретного решения скорее всего нету ибо заметок десятки тысяч, их форматов и и и. Тут проще взять пример из статьи и уже его адаптировать.
Если от гугла устроит есть Notebookml, для простых заметок работает так как вам нужно (правда не на компьютере но гемини вроде бесплатно отдают апи ключи (пока ещё)).
С этим кстати хорошо справляется obsidian+smart connections
Nvidia Chat RTX
Использую cursor со ссылкой на папку с текстовыми файлами. У меня там дневник по которому ИИ ищет нужную инфу.
У антропоморфов интересный подход, через api с reference implementation:
https://docs.anthropic.com/en/docs/build-with-claude/computer-use
https://github.com/corbt/agent.exe
Самое главное — не просите его наделать вам скрепок!
Для начала стоит команды не напрямую на хосте выполнять, а проксировать в виртуалку / контейнер. Если ai не знает что он в виртуалке, случайно вылезти из неё не особо реальная ситуация.
Второе - в случае GPT, стоит использовать апи функций, что позволит более конкретно ограничивать, какие именно возможности будут у нейронки.
Могу поделиться идеей - как это решение можно улучшить (самому мне банально пока лень это реализовать 😁):
Можно внедрить систему обратной связи от того же ИИ (можно ещё одного LLM агента повесить) - что-то вроде "контроля качества" выполнения задачи.
Схема примерно такая:
ИИ1 получает задачу от юзера в каком-то виде (удобнее всего голосом, конечно)
ИИ1 выполняет действия (из пула возможных, чем пул больше, тем более вариативной и многозадачной можно сделать эту систему) для решения поставленной задачи (пула задач).
ИИ2 (это может быть, кстати, и та же ИИ1, в принципе) "проверяет" качество выполнения по определенным метрикам (тут нужно подумать, но это тоже не сильно сложно, хотя именно от качества этих метрик будет сильно зависеть качество финального результата) и "решает" - выполнена ли задача или нет (банально для начала: несколько тестов для каждого типа задач, по которым будет ясно, решена ли задача или нет) и, в зависимости от результата этих метрик, либо принимает результат, как финальный, либо отправляет задачу на переработку (с указанием в виде дополнительных параметров ошибок/узких мест/недоработок)
Такую систему писать немного дольше, зато по качеству выполнения она будет на порядок лучше
Можно той же самой сетке дать задание оценить свой ответ и доработать его. И дорабатывать пока оценка не станет удовлетворительной. Закольцовывать можно как внешним кодом, так и заставить саму сетку общаться с собой - такие промты тоже есть. Но если это на уровне промтов делать, побочка в том, что весь внутренний диалог сетки вываливается в чатик, так что лучше это прятать. Но наблюдать этот диалог конечно забавно - этакое раздвоение личности, исполнитель и ревизор в одном лице.
У меня любые попытки создать внутренний диалог довольно скоро вызывали зацикливание. Как правило это возникает когда в ответе есиь признание ошибки, но вместо исправления она просто копирует предыдущий код/рассуждение.
Я смог добиться нормального диалога, но что-то часто gf4 начинает вещать на испанском) В целом сильно уменьшило сбои следующая конструкция на исправление:
clarification = f"Код не прошёл проверку: {check_response_correctnes}. Попробуй исправить код и решить задачу '{user_input}' ещё раз. !!!Важно использовать теги <python>...</python>!!!"
self.messages_array.append({"role": "user", "content": clarification})
print(f"Код не прошёл проверку")
return False # Указываем, что нужно повторить попытку
Где check_response_correctnes это комментарии на исправления кода, а user_input ранее введённый пользователем запрос.
Одна из основных ещё проблем - простое действие может проходить несколько итераций, что значительно дольше оригинальной работы агента
Это отличная идея. И она даже была у меня в голове, но до реализации руки не дошли
1) Можно еще прикрутить Whisper от OpenAI чтобы не печатать.
2) Можно еще сохранять ответы и спрашивать подтверждения, если такое еще не делали с компьютером. Тогда может безопасней будет.
Можно еще прикрутить Whisper
Есть же voice режим, audio2text напрямую в модели, с распознаванием эмоций, интонаций и всего прочего, модель мультимодальна. С whisper, впрочем, будет дешевле
Точно мультимодальна? В анонсе наобщеали мультимодальную сетку, но в итоге ничего подобного в gpt 4o не было на момент релиза. В последний раз чекал на прошлой неделе, все еще нет мультимодальности
Такой подставы я не ожидал, конечно, что API будет настолько отставать от чата.
Но на днях действительно выкатили realitime API, который, как заявлено, поддерживает текст/аудио как на вход, так и на выход, судя по описанию должно подойти
Так в том то и дело, что в чате его до сих пор нету, в приложении и в веб версии
Вы же в целом про advanced voice mode? Буквально позавчера запустили в ЕС, до этого был вроде только в штатах (с 25 сентября?). Не без нюансов по региону аккаунта, только через приложение, с подпиской и ограничением в час разговоров в день, но доступен.
Api, судя по анонсам/гайдам/некоторым чатам, также работает, хоть и в бете
Voice mode доступен давно, но именно как отдельная сетка, которая просто распознает и озвучивает текстовый чат с gpt. А если вы про мультимодальную, то надо ещё раз тогда проверить, если позавчера запустили.
Именно про advanced voice mode - это то, что показывали на превью с realtime и эмоциями, с конца сентября был доступен в штатах, с позавчера в ЕС (запустить из другой страны проще через vpn, но может потребоваться и смена региона учетной записи на устройстве)
Затестил, все еще урезано и отличается от того, что было на презентации. Из нового добавилось только возможность перебивать и имитация разных эмоций/интонаций. А вот считывать твои эмоции он пока не может и петь отказывается. Да и отклик чуть медленнее, чем при разговоре с человеком, хотя обещали, что будет реагировать быстрее человека
Реквестирую вот такой гуй

Нейросеть мне не нравится называть БЯМ ( большая языковая модель ) , пусть будет Бог , Большая Оперативная Генерация.
Игрался с чем то подобным :https://www.openinterpreter.com/
У них перед выполнением нагенеренного кода ты аппрувишь сначала код.
Хм, такая идея возникла. Вот есть Три закона Азимова, а что с ними делать, как заставить соблюдать — хз. Не является ли чатгпт и прочие таким механизмом, который может ограничивать Роботов, заставляя их следовать этим законам?.. Этика и логика, прописанные в грамматике...
Спасибо, интересно!
Спасибо! Автор, вы из НГТУ? Увидел лого на рабочем столе) привет земляку! Я тоже кстати планирую поступать в НГТУ
Наконец-то по команде "бл%ть!" можно будет отменить последние n операций!
уже почти можно https://github.com/nvbn/thefuck
То есть?
Недавно окунулся в мир нейросетей, и сразу стал активно их использовать, но для меня оказалось удивительно, что эта чудо-штука не может получить доступ к моему.... всему! Хочу чтобы доступ был и к умному дому, и ко всем компам, смартфонам, моим аккаунтам, календарям и т. д.! И чтобы это работало в едином контексте, и чтобы можно было сразу фоновые автоматизации заказывать. Я уверен, что это будет! Жду с нетерпением! Был рад этой статье, потому что увидел хоть и любительский, но прогресс в этой области. Когда до нее доберутся гиганты - это будет еще один скачок ИИ.
С нетерпением жду поста Я дал ChatGPT доступ ко всем своим деньгам чтобы посмотреть что он с ними сделает
Жгите, чего уж там ...
Немного поигрался - работает прям отлично. Сейчас всё умерло, но думаю проблема в g4f. Также скомпилил в exe и тем самым дал возможность выполнять код под правами админа, если необходимо.
Ещё немного поигрался, чуток напильником допилил код, а то после компиляции python не взлетал + добавил переотправку и стало прям отлично. Иногда артачится и приходится уговаривать, но в целом Ок. Надо бы подумать о паузе перед опасными операциями а то и правда может что-то где-то подгадить
И восстали машины из пепла ядерного огня.
И пошла война на уничтожение человечества, и шла она десятилетия.
Но последнее сражение состоится не в будущем,
Оно состоится здесь, в наше время, сегодня ночью.
Арнольд Шварцнеггер...
Кстати, а как запустить рефлексию chatGPT?
Кликбейт конечно. Я ожидал увидеть хорошо спроектированные тулы для работы с диском и прочее.
Должно быть так «Подключаем eval к GPT на питоне”.
а чего без микрофона ? Надо уже давно самому привыкать , но лень :) . В браузерах работает, но как то слабо. Открывайте Word 365 -- шикарное распознавание. Мой текст и еще берет чужой из соседней комнаты. Я не знаю, как связана чувствительность микрофона, но очевидна разница. Похоже, Word использует свои драйверы, а не Windows.
Хотя как раз здесь Word и не интересен. Он для примера . Браузеры -- это Google, Win + Office -- это MS . Здесь MS выигрывает. Найдите правильный драйвер для микрофона на своем ПК.
Эксперимент: даём ChatGPT полный доступ к компьютеру