Обновить

GitHub Copilot Custom Agents: от универсального чата к специализированным ролям (на примере VS Code)

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели7.4K
Всего голосов 6: ↑2 и ↓4-2
Комментарии4

Комментарии 4

А в итоге какие модели адекватно подходят для AI тестирования? Чтобы не совсем все печально


Чтобы не совсем печально, я бы обратила внимание на 3 варианта:

  • Claude Sonnet 4.5

  • Claude Opus 4.5

  • Gemini 3 Pro 

Gemini - главное преимущество модели - огромное контекстное окно. В 5-10 раз больше, чем у Opus и Sonnet (и больше, чем у остальных, вне списка). Например, в нее можно в нее загрузить очень много документации/файлов, скриншоты, логи и тд. 

Еще одним преимуществом выделяют точность в визуальном направлении, с точки зрения тестирования - сравнение скриншотов разных версий или с макетами. Я не пробовала эту сторону возможностей gemini пока, только читала. 

Sonnet - хорош для кодинга тестов. Я бы на текущий момент его назвала самым универсальным и достаточно качественным для решения основных задач написания тестов. Минус - контекстного окна может не хватать для большого количества итераций или для анализа больших проектов. 

Opus - тяжелая артиллерия. Для большинства стандартных задач autoQA, по моему мнению, избыточен. Но если нужно очень хорошо подумать над сложными задачами или копнуть глубже в архитектуру проекта или тестов, перед написанием, то стоит выбирать Opus. Главный минус модели - стоимость (в Copilot - x3 от Sonnet и Gemini).

Итого: на текущий момент, я за жонглирование этими тремя моделями в зависимости от задач. Для типовых задач написания тестов autoQA можно использовать Claude Sonnet 4.5. Если нужно работать со скриншотами или переработать огромный контекст - Gemini 3 pro. Если задача очень сложная и Sonnet не справляется или нужен глубокий анализ - Claude Opus 4.5.

Ну вот у меня пока Опус 4.5 (4.6) показал себя лучшим образом, но дорого, конечно

да, поэтому приходится не просто выбирать самую оптимальную и крутую модель, а еще и каждый раз балансировать между качеством результата и стоимостью

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации