
Комментарии 4
А в итоге какие модели адекватно подходят для AI тестирования? Чтобы не совсем все печально
Чтобы не совсем печально, я бы обратила внимание на 3 варианта:
Claude Sonnet 4.5
Claude Opus 4.5
Gemini 3 Pro
Gemini - главное преимущество модели - огромное контекстное окно. В 5-10 раз больше, чем у Opus и Sonnet (и больше, чем у остальных, вне списка). Например, в нее можно в нее загрузить очень много документации/файлов, скриншоты, логи и тд.
Еще одним преимуществом выделяют точность в визуальном направлении, с точки зрения тестирования - сравнение скриншотов разных версий или с макетами. Я не пробовала эту сторону возможностей gemini пока, только читала.
Sonnet - хорош для кодинга тестов. Я бы на текущий момент его назвала самым универсальным и достаточно качественным для решения основных задач написания тестов. Минус - контекстного окна может не хватать для большого количества итераций или для анализа больших проектов.
Opus - тяжелая артиллерия. Для большинства стандартных задач autoQA, по моему мнению, избыточен. Но если нужно очень хорошо подумать над сложными задачами или копнуть глубже в архитектуру проекта или тестов, перед написанием, то стоит выбирать Opus. Главный минус модели - стоимость (в Copilot - x3 от Sonnet и Gemini).
Итого: на текущий момент, я за жонглирование этими тремя моделями в зависимости от задач. Для типовых задач написания тестов autoQA можно использовать Claude Sonnet 4.5. Если нужно работать со скриншотами или переработать огромный контекст - Gemini 3 pro. Если задача очень сложная и Sonnet не справляется или нужен глубокий анализ - Claude Opus 4.5.
GitHub Copilot Custom Agents: от универсального чата к специализированным ролям (на примере VS Code)