Андрей Кузьминых @Dataist
Технологический предприниматель
Information
- Rating
- 1,174-th
- Registered
- Activity
Specialization
Chief Technology Officer, Head of AI
Lead
Startup management
Company management
Strategic management
Automation of processes
Python
Database
High-loaded systems
Machine learning
Neural networks
Computer Science
да, годы. до LLM-агентов еще были RL-агенты, а в LLM-агентах бум идет как минимум с начала 2023 года (уже 2 года) со статьи Generative Agents: Interactive Simulacra of Human Behavior
Графики показывают, как часто модель делает определенное число ошибок.
Ось X: сколько ошибок (в лог масштабе)
Ось Y: как часто (в лог масштабе)
Частота 0.7 и ошибка 3 → в 70% случаев модель делает всего 3 ошибки — это хорошо, модель в целом работает нормально.
Частота 0.01 и ошибка 200 → в 1% случаев модель делает целых 200 ошибок — это редкие, но очень серьезные провалы.
Да, заранее заданная длина дает контроль над ответом, но может приводить к перерасходу ресурсов на вычисления и ограничивать гибкость диалога. В этой области есть новые исследования от китайцев, например, оказывается есть возможность управлять скрытым слоем, где можно заранее задать длину ответа (обзор исследования тут), и это не будет вести к перерасходу вычислений. А так идея разделения задачи на две модели выглядит интересной, хотя добавляет архитектурную сложность и потенциальные проблемы с координацией, но, конечно, тут нужна эмпирическая проверка.
В том числе. Все есть яд и все есть лекарство. В данном случае нужно учиться применять "ИИ" как инструмент, осознавая возможные риски.
В точку, полностью согласен.
Думаю да. Мы, конечно, внедряли элементы alignment'а, но все равно ту же GPT-3.5 (на тот момент использовалась она) можно было разговорить написать код.
Дело не в моем опыте. Мне, к счастью, повезло с учителями. Это реальная проблема
Мы использовали LangGraph весной-летом прошлого года (возможно уже выпустили обновления), возникли сложности с отслеживанием состояния агентов (сейчас это решает LangSmith), не было механизмом для задания лимитов рекурсии. В целом "самописное" решение получилось более эффективным в проде и кастомизируемым, но все равно у семейства Lang-* большой потенциал. Я использую LangChain для создания простых агентов, чтобы автоматизировать свою рутину.
CrewAI классный инструмент для автоматизации собственной рутины и создания прототипов. Если хочется больше гибкости, то лучше использовать LangGraph - с помощью него можно проектировать более продвинутые мультиагентные системы в виде графов.
Алексей, спасибо за статью. Согласен с вашей позицией. Сам использую Cursor и Replit в своей работе, а также "приучил" команду разработчиков использовать Cursor - производительность выросла на ±20%! и сами разработчики в восторге.
К сожалению, технически не могу поставить вам "+", непопулярное мнение, в том числе по этим вопросам приводит к отрицательной карме :)
в целом я с вами согласен, тоже занимаюсь исследованиями в области ИИ. На данный момент нет точного определения "интеллекту". Для меня это способность системы решать определенные задачи, используя внутреннюю модель знаний (модель мира). LLM (БЯМ), собственно, и есть языковая модель мира (отсылка к "Логико-философскому трактату" Витгенштейна).
К сожалению, технически не могу поставить вам "+", непопулярное мнение по таким вопросам на хабре приводит к отрицательной карме :)
полностью с вами согласен , у OpenAI в дорожной карте это уровень 2 - Reasoning-агенты. к сожалению, не могу технически вам поставить "+", непопулярное мнение по таким вопросам на хабре приводит к потере "кармы" :)
Проблема в системе образования. Учеников и студентов «натаскивают» на решение тестов и поощряют «зубрежку» материала, который они не понимают. Думаю важно развивать в людях способность к размышлению и анализу, основываясь на нормах этики и морали - это и может быть конкурентным преимуществом перед «AGI». А вычисления и форматирование текстов можем оставить машинам.
Спасибо за статью, добавлю: есть неплохой фреймворк LlamaIndex для работы с RAG-системами + интересная статья про KAG (Knowledge Augmented Generation), а также обзор продвинутых "агентских" техник RAG'а
Спасибо за статью. LangChain и LangGraph очень полезные инструменты, особенно для того, чтобы "обкатать" прототипы ИИ-агентов, но в проде в своих проектов мы обычно обходимся без них. Помимо них есть CrewAI (заточен под мультиагентные взаимодействия) и еще более простой фреймворк AutoGen.
Спасибо за внимательность! Поправил
не совсем понял ваш вопрос. вы можете поговорить о своих эмоциях c ИИ-агентом в роли специалиста по КПТ. Это помогает в самоанализе и рефлексии, как описал выше.
я использую последние рассуждающие модели в качестве специалиста по когнитивно-поведенческой терапии (КПТ), это способствует более глубокому самоанализу и позволяет эффективнее рефлексировать. можете попробовать бота, который помогает с эмоциями с помощью КПТ
Вопрос безопасности ИИ-систем очень глубокий и отчасти философский. Логика разработчиков и дистрибьюторов таких систем понятна: не нарушать законодательство и не причинять вреда своим клиентам.
Если с помощью моего инструмента клиент сможет найти потенциально опасную информацию и навредить себе и окружающим, то кто несет за это ответственность? Сегодня ответственность несет разработчик, см., например, Регламент ЕС об ИИ, который я, как разработчик, вынужден соблюдать, чтобы вести коммерческую деятельность.
Про ту же теслу: если ей управляет водитель, то в аварии будет виноват он. А если теслу ведет автопилот? Это очень сложный вопрос, где нужно разбираться в каждом отдельном случае, но в общем случае ответственен тот, кто обучал эту систему.
Мы, как разработчики, должны быть "в ответе за тех, кого обучили".
Вы наверняка слышали случай о человеке, устроившим взрыв в Tesla Cybertruck у Trump International Hotel в Лас-Вегасе. Он использовал ChatGPT для планирования атаки, включая поиск информации о взрывчатке и анонимных покупках.