Читать всё не стал, но суть интересна и понятна, поскольку взята из, наверно, вашего комментария где-то тут хабре :)
Вообще конечно эти ИИ агенты, то плакать то смеяться с них и с того что происходит хочется. Предпочитаю смеяться - смотрю “mo bitar” на youtube. Очень радует. “This environment does not spark joy and delete the thing”, говорил он о том, что случилось с Амазон
Спасибо за ответ, хоть вы и не автор оригинального сообщения. То, что он «умнее» вы на каких задачах видите? Конкретно на решении проблемы, описанной в статье - на удивление справился хуже.
Медленность - на этом железе - согласен, сильно медленнее
В статье речь про тестирование, а в заголовке про QA. Если есть стремление приносить пользу, то лучше начать с азов: чтобы ваши сотрудники понимали разницу в этих терминах.
Но кому задавать эти самые вопросы? Где взять ссылку на чат-бота?
Локально, без регистрации и СМС. Делаем вот так для автоматизации тестирования https://habr.com/ru/articles/887226/ но очевидно можно не только для неё.
Нет, я имел ввиду что это серьезный недостаток инструмента
по крайней мере добавляет лишний код
Не могу согласиться. Вынести ожидание и получение элемента во враппер и пользоваться враппером везде вместо find_element. Вряд ли код, написанный для переиспользования и реализации какой либо функциональности (в данном случае «нормальное ожидание») можно назвать лишним. Разве что он «лишний» по сравнению с Selenide, где, судя по всему, эта функциональность не нуждается в реализации.
готово - https://habr.com/ru/articles/1037082/
вот видео, о котором речь: https://youtu.be/0vvVo0Um1HY?is=iLSJichN53GqcdDM
Читать всё не стал, но суть интересна и понятна, поскольку взята из, наверно, вашего комментария где-то тут хабре :)
Вообще конечно эти ИИ агенты, то плакать то смеяться с них и с того что происходит хочется. Предпочитаю смеяться - смотрю “mo bitar” на youtube. Очень радует. “This environment does not spark joy and delete the thing”, говорил он о том, что случилось с Амазон
планирую вторую статью-продолжение сделать
Не до конца раскрыл свою мысль - в статье действительно сравнение 3.5-9B с 3.5B-30B-A3B.
Говоря
"Конкретно на решении проблемы, описанной в статье - на удивление справился хуже"
я пытался донести, что сравнивал результат 3.6-27B c 3.6-35B-A3B - эти эксперименты не были описаны в этой статье.
P.S.: результаты бенчмарка на huggingface видел, поэтому и удивился что в моей задаче более умная по бенчмарку модель оказалась хуже :)
у меня на Macbook обратные результаты с инфраструктурными задачами - Gemma4 справилась гораздо лучше.
Интересно было почитать. Про свой опыт локальных моделей с слабым и помощнее Mac железом написал здесь:
https://habr.com/ru/articles/1033614/
Спасибо за ответ, хоть вы и не автор оригинального сообщения. То, что он «умнее» вы на каких задачах видите? Конкретно на решении проблемы, описанной в статье - на удивление справился хуже.
Медленность - на этом железе - согласен, сильно медленнее
Qwen3.6-27b - лучше по какому критерию и для какой задачи?
В статье речь про тестирование, а в заголовке про QA. Если есть стремление приносить пользу, то лучше начать с азов: чтобы ваши сотрудники понимали разницу в этих терминах.
Я писал под комментарием @vagon333 :)
Ваш опыт интересен, но комментарий мог бы быть более полезен если указать конкретные LLM, с которыми наступили на эти минусы и получили плюсы
Да. И сам себя ревьювить, пропуская галлюцинации, потому что галлюцинировал.
Первое впечатление было такое же :)
Локально, без регистрации и СМС. Делаем вот так для автоматизации тестирования https://habr.com/ru/articles/887226/ но очевидно можно не только для неё.
Уже используем: https://habr.com/ru/articles/887226/
Используйте локальные модели. Бесплатно. Пожалуйста.
Жестко завязан на структуру, поэтому более хрупок, чем:
//a[descendant::h3[text()=‘*** QA Group’]]Можно почитать подробнее про XPath Axes
Нет, я имел ввиду что это серьезный недостаток инструмента
Не могу согласиться. Вынести ожидание и получение элемента во враппер и пользоваться враппером везде вместо find_element. Вряд ли код, написанный для переиспользования и реализации какой либо функциональности (в данном случае «нормальное ожидание») можно назвать лишним. Разве что он «лишний» по сравнению с Selenide, где, судя по всему, эта функциональность не нуждается в реализации.