Информация
- В рейтинге
- 1 199-й
- Зарегистрирован
- Активность
Специализация
Chief Technology Officer, Head of AI
Ведущий
Руководство стартапом
Управление компанией
Стратегическое управление
Автоматизация процессов
Python
Базы данных
Высоконагруженные системы
Машинное обучение
Нейронные сети
Computer Science
да, годы. до LLM-агентов еще были RL-агенты, а в LLM-агентах бум идет как минимум с начала 2023 года (уже 2 года) со статьи Generative Agents: Interactive Simulacra of Human Behavior
Графики показывают, как часто модель делает определенное число ошибок.
Ось X: сколько ошибок (в лог масштабе)
Ось Y: как часто (в лог масштабе)
Частота 0.7 и ошибка 3 → в 70% случаев модель делает всего 3 ошибки — это хорошо, модель в целом работает нормально.
Частота 0.01 и ошибка 200 → в 1% случаев модель делает целых 200 ошибок — это редкие, но очень серьезные провалы.
Да, заранее заданная длина дает контроль над ответом, но может приводить к перерасходу ресурсов на вычисления и ограничивать гибкость диалога. В этой области есть новые исследования от китайцев, например, оказывается есть возможность управлять скрытым слоем, где можно заранее задать длину ответа (обзор исследования тут), и это не будет вести к перерасходу вычислений. А так идея разделения задачи на две модели выглядит интересной, хотя добавляет архитектурную сложность и потенциальные проблемы с координацией, но, конечно, тут нужна эмпирическая проверка.
В том числе. Все есть яд и все есть лекарство. В данном случае нужно учиться применять "ИИ" как инструмент, осознавая возможные риски.
В точку, полностью согласен.
Думаю да. Мы, конечно, внедряли элементы alignment'а, но все равно ту же GPT-3.5 (на тот момент использовалась она) можно было разговорить написать код.
Дело не в моем опыте. Мне, к счастью, повезло с учителями. Это реальная проблема
Мы использовали LangGraph весной-летом прошлого года (возможно уже выпустили обновления), возникли сложности с отслеживанием состояния агентов (сейчас это решает LangSmith), не было механизмом для задания лимитов рекурсии. В целом "самописное" решение получилось более эффективным в проде и кастомизируемым, но все равно у семейства Lang-* большой потенциал. Я использую LangChain для создания простых агентов, чтобы автоматизировать свою рутину.
CrewAI классный инструмент для автоматизации собственной рутины и создания прототипов. Если хочется больше гибкости, то лучше использовать LangGraph - с помощью него можно проектировать более продвинутые мультиагентные системы в виде графов.
Алексей, спасибо за статью. Согласен с вашей позицией. Сам использую Cursor и Replit в своей работе, а также "приучил" команду разработчиков использовать Cursor - производительность выросла на ±20%! и сами разработчики в восторге.
К сожалению, технически не могу поставить вам "+", непопулярное мнение, в том числе по этим вопросам приводит к отрицательной карме :)
полностью с вами согласен , у OpenAI в дорожной карте это уровень 2 - Reasoning-агенты. к сожалению, не могу технически вам поставить "+", непопулярное мнение по таким вопросам на хабре приводит к потере "кармы" :)
Проблема в системе образования. Учеников и студентов «натаскивают» на решение тестов и поощряют «зубрежку» материала, который они не понимают. Думаю важно развивать в людях способность к размышлению и анализу, основываясь на нормах этики и морали - это и может быть конкурентным преимуществом перед «AGI». А вычисления и форматирование текстов можем оставить машинам.
Спасибо за статью, добавлю: есть неплохой фреймворк LlamaIndex для работы с RAG-системами + интересная статья про KAG (Knowledge Augmented Generation), а также обзор продвинутых "агентских" техник RAG'а
Спасибо за статью. LangChain и LangGraph очень полезные инструменты, особенно для того, чтобы "обкатать" прототипы ИИ-агентов, но в проде в своих проектов мы обычно обходимся без них. Помимо них есть CrewAI (заточен под мультиагентные взаимодействия) и еще более простой фреймворк AutoGen.
Спасибо за внимательность! Поправил
не совсем понял ваш вопрос. вы можете поговорить о своих эмоциях c ИИ-агентом в роли специалиста по КПТ. Это помогает в самоанализе и рефлексии, как описал выше.
я использую последние рассуждающие модели в качестве специалиста по когнитивно-поведенческой терапии (КПТ), это способствует более глубокому самоанализу и позволяет эффективнее рефлексировать. можете попробовать бота, который помогает с эмоциями с помощью КПТ
Вопрос безопасности ИИ-систем очень глубокий и отчасти философский. Логика разработчиков и дистрибьюторов таких систем понятна: не нарушать законодательство и не причинять вреда своим клиентам.
Если с помощью моего инструмента клиент сможет найти потенциально опасную информацию и навредить себе и окружающим, то кто несет за это ответственность? Сегодня ответственность несет разработчик, см., например, Регламент ЕС об ИИ, который я, как разработчик, вынужден соблюдать, чтобы вести коммерческую деятельность.
Про ту же теслу: если ей управляет водитель, то в аварии будет виноват он. А если теслу ведет автопилот? Это очень сложный вопрос, где нужно разбираться в каждом отдельном случае, но в общем случае ответственен тот, кто обучал эту систему.
Мы, как разработчики, должны быть "в ответе за тех, кого обучили".
Вы наверняка слышали случай о человеке, устроившим взрыв в Tesla Cybertruck у Trump International Hotel в Лас-Вегасе. Он использовал ChatGPT для планирования атаки, включая поиск информации о взрывчатке и анонимных покупках.
Я бы не хотел причинить вреда своим клиентам, например, желая им смерти. Да и брать ответственность за информирование клиентов о том "как создать бомбу в гараже" я бы тоже не хотел - нарушает законодательство отдельных стран. Для всего этого нужен alignment и проверка на безопасность - "цензурируемость".