Комментарии 4
Отличный разбор актуальных проблем при тестировании, сам пришёл к таким же выводам через похожую боль. Шпаргалка вообще золото, сохранил.
Спасибо. Шпаргалку я как раз делала по принципу «что самой хотелось бы получить в начале работы с LLM». Курс по тестированию AI-систем. Если тема интересна — вот ссылка: https://stepik.org/course/291671/promo
Как QA могу сказать, что в LLM действительно меняется сам подход к тестированию. Мы уже проверяем не точное совпадение ответа, а его качество, безопасность и релевантность. Поэтому для AI-продуктов становятся критичны evals, мониторинг в проде и анализ поведения модели на реальных данных, а не только классическая регрессия.
Да, полностью согласна — классическая регрессия действительно перестаёт работать как единственный способ проверки в LLM-системах. Когда стала углубляться, материала стало столько — я оформила все же это в курс по AI QA, где разбираю evals, golden set, agent testing и CI/CD для LLM, даю пример фреймворка Playwright/JS

Что перестаёт работать в тестировании, когда приходит LLM