Это правда, согласен с вами. В агентных системах, например, gemini только с выходом 2.0 моделей стал себя более менее чувствовать (но всё равно не дотягивает до 4о). До этого следование инструкциям было на уровне ноунейм моделей. При этом в остальном модели gemini вполне себе составляют конкуренцию (+/-). А в чем-то и превосходят, как с тем же стримингом, который у них работает довольно хорошо.
Стоит ли говорить о том, что у gemini через aistudio совершенно бесплатно доступна даже функция стриминга видео (уже несколько месяцев как (полгода?))?
Так это не контрпример) Оба последних предложения в наших комментариях являются прямыми аналогами.
Я тоже считаю, что основной критерий объективности пользы или вреда каких-либо изменений - это мнение коллективного большинства. Мой пример лишь подсвечивал, что не все правила могут быть лишь вкусовщиной и никак не зависить от случая.
На сегодняшний день лучше всего современные агенты с ИИ справляются с тремя основными таймитерами:
Написание небольших чистых функций/компонентов/etc, в общем - частей без внешних зависимостей.
Написание документации к API таких частей, создание примеров использования и юнит тестов.
Мелкие повседневные таски по типу вашего примера с переименованием файлов: перенос функциональности в другое место, смена формата данных, поиск связанных с чем-либо частей приложения, и много-много чего ещё, на что мы тратим жалкие 1-2-5-10 минут, но можем тратить в 5-10 раз меньше.
В общем: не нужно просить ИИ написать гугл. Сначала решите что должно быть в mvp, выберите подходящую архитектуру, разбейте функциональность на модули, модули на бизнес-логику и чистые компоненты, выделите однозначно переиспользуемые части. И только после этого (и списка других обязательных вещей) запрашивайте у ИИ реализацию отдельных частей приложения. И лучше всего, если у этих частей будет минимальное количество связей с остальным приложением.
Но чтобы это всё действительно работало и давало ощутимый профит по затрачиваемому времени, нужно не только самому отлично разбираться в том, что просишь написать ИИ, но и знать минимальную базу по работе с ИИ (иногда с конкретной моделью или провайдером, у них есть свои нюансы) и агентами на их основе.
Так было несколько лет назад. Сегодня, современные агентные системы для помощи в разработке дают куда больше возможностей, чем просто поиск похожего кода на Stackoverflow и GitHub.
Видел как нейросеть используют для проставления неразрывных пробелов, и, на самом деле, они должны проставляться не только после предлогов и союзов. Но исходя из текущей постановки задачи это действительно оверхед.
Если нужно что-то делать, но кому-то другому (редактору), то это называется не автоматизация, а перекладывание работы.
Если нужна именно автоматизация, то рабочим решением будет скрипт с подключением к LLM и необходимая предобработка через неё. Ошибки будут, но не больше чем при работе того же редактора.
Ну для примера: если большинство в команде работает на 23‘-27‘ fhd мониторах, ставить ограничение в 160-180 символов в строке (у тимлида 4к на пол стены) - объективно выходит за рамки вкусовщины.
В общем, объективность - это когда есть способ измерить потенциальную пользу/вред тех или иных изменений в код-стайл. Остальное действительно вкусовщина. Но и таких правил, которые объективно влияют на удобство - тоже хватает. И тут уже нужно смотреть насколько в конкретной команде и в конкретном проекте будет лучше использовать то или другое.
На самом деле crewAI хорош, но проблемы у него есть и немало:
Мультиязычность работает плохо.
Странное поведение декоратора tool (комменты самого инструмента и аргументов к нему не отправляются в llm, то есть по сути создавать тулзы чуть выше минимальной сложности можно только через классы. Декораторы есть чисто просто чтоб было).
Сложная реализация многозадачного обработчика пользовательских реквестов. То есть те ситуации, когда разработчик не знает, какие задачи должны быть задействованы, так как это должно происходить на основе пользовательского реквеста (простого manager_agent недостаточно, нельзя просто закинуть все таски и всех агентов в crew, так как в этом случае manager не будет выбирать нужное, он попытается сделать всё и это напрямую никак не обойти). Для решения проблемы нужно использовать flow, где на первой линии будет crew с агентом, который определяет какие таски и агенты нужны для реализации пользовательского запроса, а на второй уже crew с этими таскам и агентами.
Плюс много других мелочей, по типу проблем с пробросом base64, нерабочая мультмодальность (нужно свою тулзу по добавлению картинки в запрос делать, так как их неработает).
Но в целом инструмент неплох. API довольно простое, структура действительно гибкая (хоть и не без изъянов, как с manager'ом), добавление tools простое, разворачивается всё быстро, возможность юзать телеметрию есть. Плюс много интересных фич по типу встроенного rag storage (memory), что включается в несколько строк и работает хорошо.
У меня deepseek с cline тоже так себе работал, даже с дополнительным системным промптом.
Чуть ниже описал свой текущий подход:
Из моделей - клауд конечно топ. Но я использую несколько для разных целей. Gemini 2.0 flash thinking для создания плана на тасках средней сложности (справляется неплохо, если данных достаточно). Codestral на реализацию таких планов. Для мелочей подходит и codestral и qwen2.5 7b (который можно и локально поднять).
Получается полностью бесплатно.
Но если есть желание внести куда-нибудь денежку малую, то вариантов становится больше и можно посмотреть на какую-нибудь qwen 2.5 coder 32b, которая по бенчам очень неплохо выглядит (но с cline я её не пробовал).
Но на это надо тратить время, само собой. В этом смысле коробочные решения, конечно, лучше. Но моя сборка на моих тасках лучше работает, чем Cursor.
Лучше бы немного изменил структуру и сделал цикл статей, а не вот это вот...
Не, ну серьезно, полтора часа?
Там вон ниже персонаж отметился. Можно зайти в его комменты, чтобы посмеяться.
Скорее всего вы смотрите во вкладке battle, на ней нет. Нужно смотреть на вкладке direct chat.
Это правда, согласен с вами. В агентных системах, например, gemini только с выходом 2.0 моделей стал себя более менее чувствовать (но всё равно не дотягивает до 4о). До этого следование инструкциям было на уровне ноунейм моделей. При этом в остальном модели gemini вполне себе составляют конкуренцию (+/-). А в чем-то и превосходят, как с тем же стримингом, который у них работает довольно хорошо.
Выше же скидывали ссылку на арену, где можно без проблем потыкать модель.
https://lmarena.ai/
Стоит ли говорить о том, что у gemini через aistudio совершенно бесплатно доступна даже функция стриминга видео (уже несколько месяцев как (полгода?))?
Это перевод? А где тогда плашка?
Что вы хотели от русского репа?
Думаю комментатор opusmode просто ошибся с цифрой, так что ваш комментарий в тему.
Так это не контрпример) Оба последних предложения в наших комментариях являются прямыми аналогами.
Я тоже считаю, что основной критерий объективности пользы или вреда каких-либо изменений - это мнение коллективного большинства. Мой пример лишь подсвечивал, что не все правила могут быть лишь вкусовщиной и никак не зависить от случая.
Всё так.
На сегодняшний день лучше всего современные агенты с ИИ справляются с тремя основными таймитерами:
Написание небольших чистых функций/компонентов/etc, в общем - частей без внешних зависимостей.
Написание документации к API таких частей, создание примеров использования и юнит тестов.
Мелкие повседневные таски по типу вашего примера с переименованием файлов: перенос функциональности в другое место, смена формата данных, поиск связанных с чем-либо частей приложения, и много-много чего ещё, на что мы тратим жалкие 1-2-5-10 минут, но можем тратить в 5-10 раз меньше.
В общем: не нужно просить ИИ написать гугл. Сначала решите что должно быть в mvp, выберите подходящую архитектуру, разбейте функциональность на модули, модули на бизнес-логику и чистые компоненты, выделите однозначно переиспользуемые части. И только после этого (и списка других обязательных вещей) запрашивайте у ИИ реализацию отдельных частей приложения. И лучше всего, если у этих частей будет минимальное количество связей с остальным приложением.
Но чтобы это всё действительно работало и давало ощутимый профит по затрачиваемому времени, нужно не только самому отлично разбираться в том, что просишь написать ИИ, но и знать минимальную базу по работе с ИИ (иногда с конкретной моделью или провайдером, у них есть свои нюансы) и агентами на их основе.
Так было несколько лет назад. Сегодня, современные агентные системы для помощи в разработке дают куда больше возможностей, чем просто поиск похожего кода на Stackoverflow и GitHub.
Тут да, вы правы, в этой задаче LLM будет лишней.
Видел как нейросеть используют для проставления неразрывных пробелов, и, на самом деле, они должны проставляться не только после предлогов и союзов. Но исходя из текущей постановки задачи это действительно оверхед.
Если нужно что-то делать, но кому-то другому (редактору), то это называется не автоматизация, а перекладывание работы.
Если нужна именно автоматизация, то рабочим решением будет скрипт с подключением к LLM и необходимая предобработка через неё. Ошибки будут, но не больше чем при работе того же редактора.
Ну для примера: если большинство в команде работает на 23‘-27‘ fhd мониторах, ставить ограничение в 160-180 символов в строке (у тимлида 4к на пол стены) - объективно выходит за рамки вкусовщины.
В общем, объективность - это когда есть способ измерить потенциальную пользу/вред тех или иных изменений в код-стайл. Остальное действительно вкусовщина. Но и таких правил, которые объективно влияют на удобство - тоже хватает. И тут уже нужно смотреть насколько в конкретной команде и в конкретном проекте будет лучше использовать то или другое.
А через сколько лет начинаешь отстаивать именно тот подход, которой объективно лучше других подходит в каждом конкретном случае?
Или люди столько не живут?
На самом деле crewAI хорош, но проблемы у него есть и немало:
Мультиязычность работает плохо.
Странное поведение декоратора tool (комменты самого инструмента и аргументов к нему не отправляются в llm, то есть по сути создавать тулзы чуть выше минимальной сложности можно только через классы. Декораторы есть чисто просто чтоб было).
Сложная реализация многозадачного обработчика пользовательских реквестов. То есть те ситуации, когда разработчик не знает, какие задачи должны быть задействованы, так как это должно происходить на основе пользовательского реквеста (простого manager_agent недостаточно, нельзя просто закинуть все таски и всех агентов в crew, так как в этом случае manager не будет выбирать нужное, он попытается сделать всё и это напрямую никак не обойти). Для решения проблемы нужно использовать flow, где на первой линии будет crew с агентом, который определяет какие таски и агенты нужны для реализации пользовательского запроса, а на второй уже crew с этими таскам и агентами.
Плюс много других мелочей, по типу проблем с пробросом base64, нерабочая мультмодальность (нужно свою тулзу по добавлению картинки в запрос делать, так как их неработает).
Но в целом инструмент неплох. API довольно простое, структура действительно гибкая (хоть и не без изъянов, как с manager'ом), добавление tools простое, разворачивается всё быстро, возможность юзать телеметрию есть. Плюс много интересных фич по типу встроенного rag storage (memory), что включается в несколько строк и работает хорошо.
Я использую openlit (ставится за три минуты). У crewai в доках есть инфа по интеграции с телеметрическими системами.
Но можно и без них обойтись, там есть свой token usage, и его вроде как можно на step_callback считать.
Я сделал это за тебя, не благодари: https://aistudio.google.com/app/prompts?state={"ids":["1R6iwRj8IuYGNduOmxc6r5FuZAjeHyIoy"],"action":"open","userId":"116226768640275319857","resourceKeys":{}}&usp=sharing
Пункты про локальное развертывание моделей пропусти. Остальное тебе должно помочь.
У меня deepseek с cline тоже так себе работал, даже с дополнительным системным промптом.
Чуть ниже описал свой текущий подход:
Получается полностью бесплатно.
Но если есть желание внести куда-нибудь денежку малую, то вариантов становится больше и можно посмотреть на какую-нибудь qwen 2.5 coder 32b, которая по бенчам очень неплохо выглядит (но с cline я её не пробовал).
Но на это надо тратить время, само собой. В этом смысле коробочные решения, конечно, лучше. Но моя сборка на моих тасках лучше работает, чем Cursor.