Search
Write a publication
Pull to refresh
1
0
Андрей Кузьминых @Dataist

Технологический предприниматель

Send message

да, годы. до LLM-агентов еще были RL-агенты, а в LLM-агентах бум идет как минимум с начала 2023 года (уже 2 года) со статьи Generative Agents: Interactive Simulacra of Human Behavior

Графики показывают, как часто модель делает определенное число ошибок.
Ось X: сколько ошибок (в лог масштабе)
Ось Y: как часто (в лог масштабе)

Частота 0.7 и ошибка 3 → в 70% случаев модель делает всего 3 ошибки — это хорошо, модель в целом работает нормально.

Частота 0.01 и ошибка 200 → в 1% случаев модель делает целых 200 ошибок — это редкие, но очень серьезные провалы.

Да, заранее заданная длина дает контроль над ответом, но может приводить к перерасходу ресурсов на вычисления и ограничивать гибкость диалога. В этой области есть новые исследования от китайцев, например, оказывается есть возможность управлять скрытым слоем, где можно заранее задать длину ответа (обзор исследования тут), и это не будет вести к перерасходу вычислений. А так идея разделения задачи на две модели выглядит интересной, хотя добавляет архитектурную сложность и потенциальные проблемы с координацией, но, конечно, тут нужна эмпирическая проверка.

В том числе. Все есть яд и все есть лекарство. В данном случае нужно учиться применять "ИИ" как инструмент, осознавая возможные риски.

Думаю да. Мы, конечно, внедряли элементы alignment'а, но все равно ту же GPT-3.5 (на тот момент использовалась она) можно было разговорить написать код.

Дело не в моем опыте. Мне, к счастью, повезло с учителями. Это реальная проблема

Мы использовали LangGraph весной-летом прошлого года (возможно уже выпустили обновления), возникли сложности с отслеживанием состояния агентов (сейчас это решает LangSmith), не было механизмом для задания лимитов рекурсии. В целом "самописное" решение получилось более эффективным в проде и кастомизируемым, но все равно у семейства Lang-* большой потенциал. Я использую LangChain для создания простых агентов, чтобы автоматизировать свою рутину.

CrewAI классный инструмент для автоматизации собственной рутины и создания прототипов. Если хочется больше гибкости, то лучше использовать LangGraph - с помощью него можно проектировать более продвинутые мультиагентные системы в виде графов.

Алексей, спасибо за статью. Согласен с вашей позицией. Сам использую Cursor и Replit в своей работе, а также "приучил" команду разработчиков использовать Cursor - производительность выросла на ±20%! и сами разработчики в восторге.

К сожалению, технически не могу поставить вам "+", непопулярное мнение, в том числе по этим вопросам приводит к отрицательной карме :)

в целом я с вами согласен, тоже занимаюсь исследованиями в области ИИ. На данный момент нет точного определения "интеллекту". Для меня это способность системы решать определенные задачи, используя внутреннюю модель знаний (модель мира). LLM (БЯМ), собственно, и есть языковая модель мира (отсылка к "Логико-философскому трактату" Витгенштейна).

К сожалению, технически не могу поставить вам "+", непопулярное мнение по таким вопросам на хабре приводит к отрицательной карме :)

полностью с вами согласен , у OpenAI в дорожной карте это уровень 2 - Reasoning-агенты. к сожалению, не могу технически вам поставить "+", непопулярное мнение по таким вопросам на хабре приводит к потере "кармы" :)

Проблема в системе образования. Учеников и студентов «натаскивают» на решение тестов и поощряют «зубрежку» материала, который они не понимают. Думаю важно развивать в людях способность к размышлению и анализу, основываясь на нормах этики и морали - это и может быть конкурентным преимуществом перед «AGI». А вычисления и форматирование текстов можем оставить машинам.

Спасибо за статью, добавлю: есть неплохой фреймворк LlamaIndex для работы с RAG-системами + интересная статья про KAG (Knowledge Augmented Generation), а также обзор продвинутых "агентских" техник RAG'а

Спасибо за статью. LangChain и LangGraph очень полезные инструменты, особенно для того, чтобы "обкатать" прототипы ИИ-агентов, но в проде в своих проектов мы обычно обходимся без них. Помимо них есть CrewAI (заточен под мультиагентные взаимодействия) и еще более простой фреймворк AutoGen.

не совсем понял ваш вопрос. вы можете поговорить о своих эмоциях c ИИ-агентом в роли специалиста по КПТ. Это помогает в самоанализе и рефлексии, как описал выше.

я использую последние рассуждающие модели в качестве специалиста по когнитивно-поведенческой терапии (КПТ), это способствует более глубокому самоанализу и позволяет эффективнее рефлексировать. можете попробовать бота, который помогает с эмоциями с помощью КПТ

Вопрос безопасности ИИ-систем очень глубокий и отчасти философский. Логика разработчиков и дистрибьюторов таких систем понятна: не нарушать законодательство и не причинять вреда своим клиентам.

Если с помощью моего инструмента клиент сможет найти потенциально опасную информацию и навредить себе и окружающим, то кто несет за это ответственность? Сегодня ответственность несет разработчик, см., например, Регламент ЕС об ИИ, который я, как разработчик, вынужден соблюдать, чтобы вести коммерческую деятельность.

Про ту же теслу: если ей управляет водитель, то в аварии будет виноват он. А если теслу ведет автопилот? Это очень сложный вопрос, где нужно разбираться в каждом отдельном случае, но в общем случае ответственен тот, кто обучал эту систему.

Мы, как разработчики, должны быть "в ответе за тех, кого обучили".

Вы наверняка слышали случай о человеке, устроившим взрыв в Tesla Cybertruck у Trump International Hotel в Лас-Вегасе. Он использовал ChatGPT для планирования атаки, включая поиск информации о взрывчатке и анонимных покупках.

Information

Rating
1,174-th
Registered
Activity

Specialization

Chief Technology Officer, Head of AI
Lead
Startup management
Company management
Strategic management
Automation of processes
Python
Database
High-loaded systems
Machine learning
Neural networks
Computer Science