Обновить

Что перестаёт работать в тестировании, когда приходит LLM

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5.6K
Всего голосов 8: ↑5 и ↓3+4
Комментарии4

Комментарии 4

Отличный разбор актуальных проблем при тестировании, сам пришёл к таким же выводам через похожую боль. Шпаргалка вообще золото, сохранил.

Спасибо. Шпаргалку я как раз делала по принципу «что самой хотелось бы получить в начале работы с LLM». Курс по тестированию AI-систем. Если тема интересна — вот ссылка: https://stepik.org/course/291671/promo

Как QA могу сказать, что в LLM действительно меняется сам подход к тестированию. Мы уже проверяем не точное совпадение ответа, а его качество, безопасность и релевантность. Поэтому для AI-продуктов становятся критичны evals, мониторинг в проде и анализ поведения модели на реальных данных, а не только классическая регрессия.

Да, полностью согласна — классическая регрессия действительно перестаёт работать как единственный способ проверки в LLM-системах. Когда стала углубляться, материала стало столько — я оформила все же это в курс по AI QA, где разбираю evals, golden set, agent testing и CI/CD для LLM, даю пример фреймворка Playwright/JS

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации