Информация
- В рейтинге
- 1 630-й
- Зарегистрирован
- Активность
Специализация
Chief Technology Officer, Head of AI
Ведущий
Руководство стартапом
Управление компанией
Стратегическое управление
Автоматизация процессов
Python
Базы данных
Высоконагруженные системы
Машинное обучение
Нейронные сети
Computer Science
да, конечно, если взять малую модель на 4B и большую с 100B+ параметров, то результаты, очевидно, будут различны
Да, конечно. Что-то смущает?
так и есть, вас что-то конкретное из статьи интересует?
> Минус: "Текст похож на сгенерированный"
вам не угодишь
я это в универах преподаю
на заводе amazon они уже работают
спасибо! опечатался - поправил.
да, годы. до LLM-агентов еще были RL-агенты, а в LLM-агентах бум идет как минимум с начала 2023 года (уже 2 года) со статьи Generative Agents: Interactive Simulacra of Human Behavior
Графики показывают, как часто модель делает определенное число ошибок.
Ось X: сколько ошибок (в лог масштабе)
Ось Y: как часто (в лог масштабе)
Частота 0.7 и ошибка 3 → в 70% случаев модель делает всего 3 ошибки — это хорошо, модель в целом работает нормально.
Частота 0.01 и ошибка 200 → в 1% случаев модель делает целых 200 ошибок — это редкие, но очень серьезные провалы.
Да, заранее заданная длина дает контроль над ответом, но может приводить к перерасходу ресурсов на вычисления и ограничивать гибкость диалога. В этой области есть новые исследования от китайцев, например, оказывается есть возможность управлять скрытым слоем, где можно заранее задать длину ответа (обзор исследования тут), и это не будет вести к перерасходу вычислений. А так идея разделения задачи на две модели выглядит интересной, хотя добавляет архитектурную сложность и потенциальные проблемы с координацией, но, конечно, тут нужна эмпирическая проверка.
В том числе. Все есть яд и все есть лекарство. В данном случае нужно учиться применять "ИИ" как инструмент, осознавая возможные риски.
В точку, полностью согласен.
Думаю да. Мы, конечно, внедряли элементы alignment'а, но все равно ту же GPT-3.5 (на тот момент использовалась она) можно было разговорить написать код.
Мы использовали LangGraph весной-летом прошлого года (возможно уже выпустили обновления), возникли сложности с отслеживанием состояния агентов (сейчас это решает LangSmith), не было механизмом для задания лимитов рекурсии. В целом "самописное" решение получилось более эффективным в проде и кастомизируемым, но все равно у семейства Lang-* большой потенциал. Я использую LangChain для создания простых агентов, чтобы автоматизировать свою рутину.
CrewAI классный инструмент для автоматизации собственной рутины и создания прототипов. Если хочется больше гибкости, то лучше использовать LangGraph - с помощью него можно проектировать более продвинутые мультиагентные системы в виде графов.
Алексей, спасибо за статью. Согласен с вашей позицией. Сам использую Cursor и Replit в своей работе, а также "приучил" команду разработчиков использовать Cursor - производительность выросла на ±20%! и сами разработчики в восторге.
К сожалению, технически не могу поставить вам "+", непопулярное мнение, в том числе по этим вопросам приводит к отрицательной карме :)
полностью с вами согласен , у OpenAI в дорожной карте это уровень 2 - Reasoning-агенты. к сожалению, не могу технически вам поставить "+", непопулярное мнение по таким вопросам на хабре приводит к потере "кармы" :)
Спасибо за статью, добавлю: есть неплохой фреймворк LlamaIndex для работы с RAG-системами + интересная статья про KAG (Knowledge Augmented Generation), а также обзор продвинутых "агентских" техник RAG'а
Спасибо за статью. LangChain и LangGraph очень полезные инструменты, особенно для того, чтобы "обкатать" прототипы ИИ-агентов, но в проде в своих проектов мы обычно обходимся без них. Помимо них есть CrewAI (заточен под мультиагентные взаимодействия) и еще более простой фреймворк AutoGen.
Спасибо за внимательность! Поправил