VeronLezh19 июн в 09:15

Что перестаёт работать в тестировании, когда приходит LLM

Простой

3 мин

6.7K

Искусственный интеллектТестирование IT-систем *

Мнение

Из песочницы

Комментарии 5

iiibax 19 июн в 10:30

Отличный разбор актуальных проблем при тестировании, сам пришёл к таким же выводам через похожую боль. Шпаргалка вообще золото, сохранил.

VeronLezh 19 июн в 12:51

Спасибо. Шпаргалку я как раз делала по принципу «что самой хотелось бы получить в начале работы с LLM». Курс по тестированию AI-систем. Если тема интересна — вот ссылка: https://stepik.org/course/291671/promo

vikavorobieva 19 июн в 12:35

Как QA могу сказать, что в LLM действительно меняется сам подход к тестированию. Мы уже проверяем не точное совпадение ответа, а его качество, безопасность и релевантность. Поэтому для AI-продуктов становятся критичны evals, мониторинг в проде и анализ поведения модели на реальных данных, а не только классическая регрессия.

VeronLezh 19 июн в 12:45

Да, полностью согласна — классическая регрессия действительно перестаёт работать как единственный способ проверки в LLM-системах. Когда стала углубляться, материала стало столько — я оформила все же это в курс по AI QA, где разбираю evals, golden set, agent testing и CI/CD для LLM, даю пример фреймворка Playwright/JS

vadisun 3 июл в 08:08

Да, с LLM классический баг-репорт быстро разваливается. Без сохранения промпта, контекста, версии модели и ожидаемого критерия качества потом сложно даже повторить проблему, не то что нормально её исправить.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий