Emelian191720 мар в 21:56

Лена, прости! Или как мы заменили QA тестировщика на автономного AI-агента за 24 часа

3 мин

17K

Развитие стартапаУправление разработкой * Тестирование веб-сервисов *

Кейс

-22

Комментарии 79

funca 20 мар в 22:15

У вас подписка на Claude Code? Сколько вам стоит прогон таких тестов? Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов при использовании моделей во время траблшутинга?

Dhwtj 21 мар в 04:35

Думаю, рублей 5 за анализ каждого скриншота включая затраты на создание этой LLM системы. Окупается если для теста нужен ввод пользовательских данных (долго). Иначе проще глазами

ZetaTetra 21 мар в 08:40

Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов

Возможно, это тестовое окружение?

Livadies 20 мар в 22:16

Забавно,интересно кто исправляет галлюцинации агента?если тестировщика нет?

Emelian1917 21 мар в 07:36

Мы столкнулись почти с таким же вопросом: кто исправляет галлюцинации людей, именуемыми человеческими ошибками, из-за которых может легко пролететь тот или иной баг.

Ankorra 21 мар в 08:00

сравнивать галлюцинации ии и человеческий фактор - это сильно, конечно

Emelian1917 21 мар в 08:30

Сравнивать галлюцинации ИИ и человеческие ошибки и оценивать экономически потери от них — это правильно.

Livadies 21 мар в 09:59

Настоящий киберпанк, к сожалению LLM , модели не дают экономической выгоды...они могут лишь увеличить количество работы и ускорить какие то процессы...если Вы покажите пример хотя бы одного успешного долговременного кейса применения LLM в экономических и производственных процессах, то можно Ваши тезисы серьезно воспринимать...к сожалению Выгоды от них в реальнольной экономике нет,это всего лишь инструмент для увеличения производительности для специалистов которых ещё нет..а именно для операторов ИИ...

Emelian1917 21 мар в 11:04

Я описал реальный кейс сокращения времени и затрат.

ExoticHadron 23 мар в 15:37

А если без стёба? Какова частота ложно-положительных ошибок до и после? А ложно-отрицательных? Какова структура важности дефектов до и после? А то вы так весело стебёте некую Лену, а может, у вас просто не было дня Лены задач?

hafewix 20 мар в 23:51

как мы заменили QA тестировщика на автономного AI-агента за 24 часа

а через год жрали своё дерьмо в перемешку со слезами. Простите, не удержался от сарказма)

nikerossxp 21 мар в 03:12

имхо, надо просто минусить такие слоп-статьи и интернет постепенно очистится.

trezubec 21 мар в 08:29

От чего ?

Emelian1917 21 мар в 07:38

Я думаю стоит понять о какой части процесса разработки идёт речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса.

Arlekcangp 23 мар в 12:28

Как раз замену авто-тестов ещё можно понять. Но вы выкинули единственного человека из цепи обратной связи. (Если не считать пользователей продакшена разумеется 😁) Готовьтесь к сюрпризам, однако 😁

Намного больше можно было сэкономить, если освободить ваших разрабов от тех же юнит-тестов на каждый пук. (Либо сократить их количество, либо пусть ИИ их пишет. Там как минимум больше вероятность, что косяк увидят в той же итерации сами разработчики. А при вашем подходе все косяки вылезут на проде)

ExoticHadron 23 мар в 15:42

Почему вы решили, что эта имитация работает? Иными словами, как вы убедились, что ваше гиканье в адрес Лены не являет примером ложной экономии? Потому что снизился поток запросов в поддержку? Из текста вообще непонятно.

durnoy 21 мар в 02:55

И статью, похоже, тоже Клод писал 😀

Emelian1917 21 мар в 07:39

Как и всегда https://habr.com/ru/articles/970820/

k1yuchnikov 21 мар в 12:05

такой себе повод для гордости, ты не пишешь тексты с ИИ - судя по этой статье, ИИ пишет тебе тексты, а ты даже правок никаких не вносишь

и очень ошибочно не вносишь, нейрослопом воняет хуже курсача не очень сообразительного второкурсника

тут или кардинально пересматривать подход к написанию статей (начать их писать) или прекращать засирать интернет этим гoвнoм, занимайся-ка ты лучше автоматизацией своих сотрудников (и начать стоит с себя, самое легкое будет скорее всего)

эмельян, прости!

Emelian1917 21 мар в 12:05

Я так понял статью никто не прочитал.

maaGames 21 мар в 03:43

Во всей статье был бы интересен только один момент, но его нет:

Сколько в год тратилось на "QA Лену" и сколько тратится на выполнение этой же работы при помощи кучи ИИ?

ExoticHadron 23 мар в 15:47

Тут нужно смотреть именно TCO. То что рутину регресса можно заменить автоматизацией, это понятно ежу. А вот какова структура выявленных и пропущенных дефектов, совсем не ясно. Что делать с галлюцинациями — генерацией ошибок там, где их нет? Как оценить корректность интерпретации смыслов в интеграционных тестах? А в пользовательских?

Какая-то статья из разряда «Мы купили аэрогриль и уволили повара». Ну браво. Может, повар просто был не нужен и раньше?

maaGames 23 мар в 15:51

Я сделал допущение, что ИИ работает на том же качестве анализа, что и живая Лена. Что-то находит лучше, что-то находит хуже. Сделал допущение, что по этому показателю паритет. В этом случае становится важна стоимость выполненной работы. Если ИИ работает так же или чуть лучше, но стоит в 2 раза дороже, то это одно, а если ИИ работает так же или чуть хуже, но стоит в два раза дешевле - это другое. А если разница не в два, а на порядок, то это уже совсем третье.

ExoticHadron 23 мар в 16:25

Именно так. Но в статье об этом ни слова. Нужен анализ. Иначе это всё карго-культ. ИИ сам распознаёт смыслы, говорит нам автор. Ну и? А гомоморфизм того, что делала Лена, и того, что теперь делает ИИ, есть?! Что происходит, если ИИ неправильно распознаёт смысл? А ещё интересное, что происходит, если распознаёт там, где его нет. Без стоимости ошибки совокупная стоимость тоже не столь важна...

oldfox31 21 мар в 04:59

я бы посмотрел на экономику процесса

ExoticHadron 23 мар в 15:53

Именно! Причём интегрально. Иначе потенциально выглядит как ошибка выжившего.

MaksimusDecius 21 мар в 05:12

Ну горите в аду, что ещё сказать.

Kir_Moisha 21 мар в 05:54

Кожаные недовольны xD

saag 21 мар в 05:46

Мы решили, что платить за «прокликивание» дашбордов в 2026 году — это грех

Платить за работу хомо это грех, это вот настоящий ящер в плохом смысле этого слова

ohrenet 21 мар в 08:16

Ну когда айтишники автоматизировали всё вокруг, лишая людей работы и заработка, грехом это тогда не являлось. А когда автоматизация и до них добралась, то "ааа спасите памагите!!!".

saag 21 мар в 08:20

Мой пост был гораздо шире чем одна отрасль

Dhwtj 21 мар в 05:53

Лена ушла работать альтушкой на госуслугах

ohrenet 21 мар в 11:57

Всё было бы не так смешно, но реально может уйти на Онлифанс. От безысходности.

Долгосрочные социальные последствия всех этих автоматизаций сильно недооцениваются. Типа главное что в моменте кто-то урвал-сэкономил, а после нас хоть потоп.

Emelian1917 21 мар в 20:36

Поэтому был изобретен коммунизм. Я за.

bold_qa 21 мар в 07:05

Спасибо, что предупредили, буду знать, чьих продуктов избегать)

Emelian1917 21 мар в 07:22

Если стартап не экономит деньги инвесторов - не будет никаких продуктов. И работы.

Vydra77 21 мар в 07:28

Экономия должна быть разумной.

Emelian1917 21 мар в 07:35

Это и есть разумная экономия. Вместо долгого прокликивания вручную тестерами с поправкой на их человеческие ошибки мы получаем фидбек об ошибках, с которыми могут столкнуться наши пользователи через несколько минут. Это повышение качества нашего продукта для конечных пользователей и забота о деньгах, которые нам дают инвесторы на развитие.

Vydra77 21 мар в 07:41

А ещё получаете кучу галюцинаций и нерациональных предложений об улучшениях, то есть качество не сильно-то повышается. Уже многие компании ввели ИИ-разработку, но что-то повышения качества продуктов не наблюдается, только новые баги. Вот у вас, кто будет отлавливать галюны? Если в обучающей выборке ИИ не было ничего похожего, то хоть как составь промпт – он просто не знает в чём проблема и будет предлагать одно и то же в попытке починить, то есть вы будете тупо сжигать токены на ровном месте и без результата.

Emelian1917 21 мар в 07:45

Это ваша гипотеза о наших результатах? Не стоит делать утверждения исключительно на гипотезах. Надо их подтверждать. Например, запустить ручное тестирование и тестирование с AI ботом и сравнить результаты.

Вы видимо абсолютно не поняли о чём речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса. Галлюцинаций пока не наблюдается, а вот с галлюцинациями людей, называемыми человеческими ошибками, мы наблюдали неоднократно.

Vydra77 21 мар в 08:13

Оперируем чем можем, ведь вы это сравнение тоже не предоставили. И правильно вам выше написали, что сравнивать человеческий фактор и галлюцинации модели – это сильно. Хороший спец и так нашёл бы упомянутый вами пропущенный фильтр в БД, так что вопрос ещё и к квалификации человека. Судя по рассуждениям об экономии, это мог быть и студент, работающий за доширак))

Emelian1917 21 мар в 08:26

Да. Это был студент, работающий за доширак, $25 в час. Поэтому между выбором увеличивать стоимость, чтобы получить лучший результат или уменьшать стоимость, чтобы получить лучший результат — мы выбрали второе. Я оцениваю галлюцинации ИксИн и человека исключительно финансово и принимаю решение. Можете поделиться как вы это делаете в своём бизнесе?

goodfree 23 мар в 08:39

Вы платили человеку студенту 25$ в час за прокликивание? Извините, у вас точно всё нормально с наймом и оценкой сотрудников? У нас такой сотрудник-студент стоит 7-8$ в час.

Emelian1917 23 мар в 12:18

У вас - это где?

ExoticHadron 23 мар в 16:41

Вы сейчас стебётесь или всерьёз? Если вы платили 25 баков в час за клики, это 4 гранда. Если вы настолько богаты, почему б не оставить Лену следить за рассадой. Но вы явно что-то опускаете.

ExoticHadron 23 мар в 16:35

Ну клёво вы парировали. Вам как раз говорят о том, что вы в статье ничем не подтвердили свои утверждения.

Что значит «просто имитация пользовательского поведения»? Имитация не бывает просто. За ней всегда модель, которая описана параметрами.

Щи с мясом, ей богу.

xaoc80 21 мар в 12:54

Вот у вас текст комментариев совершенно другой по стилю, более человеческий. Если все ваши комментарии соеденить, то получится статья без маркетинговых оборотов, ключевых слов и т.д.

Emelian1917 21 мар в 13:42

Большую часть статьи писал наш CTO на английском и это было скорее просто техническое перечисление шагов, поэтому, конечно, мой язык сильно отличается, можно посмотреть по другим статьям.

Georgiy_z 21 мар в 20:37

Выбрали ошибки ии , а не ошибки человека. Судя по статье в результате вышел Лев Толстой, а на деле мы знаем че ))

ExoticHadron 23 мар в 16:30

Только вот вы ж ничего об этой обратной связи не рассказали. Ни про структуру ошибок, ни про классы, ни о чём. А без этого немного грустно.

ИИ нашёл нам 1 трлн трещин в асфальте. Ну круто. А может, не нужно было этого делать, а достаточно раз в N лет перестелить покрытие?

Выглядит как экономика поиска блох, извините.

ZhanGevorgiz 21 мар в 07:22

Лена не уходи

Ankorra 21 мар в 07:55

Ну, когда ии наплодит вам кучу багов - не бегите за Леной и не просите её вернуться и разгребать то, что вы наоптимизировали)

Emelian1917 21 мар в 08:28

Вы же понимаете функционал QA тестирования и что там не ведется разработка? AI также ограничен в правах, как и QA тестер.

venya2k 21 мар в 12:06

Звучит как будто вы в 1619-1865гг. 😂

alexanderniki 21 мар в 19:52

Так ведь на разработке свет клином не сошелся. Вы же не думаете, что кроме разработки, больше ничего не может вам сломать продукт, команду и процессы? Как пример, сотен этак 5 нагаллюцинированных баг-репортов в трекере.

Хотя, понятно, что для генерального кабанчика проще дропнуть базу трекера и притвориться, что проблемы нет.

Emelian1917 21 мар в 20:35

Я не могу понять откуда такие гипотезы? Собственный опыт?

titulusdesiderio вчера в 12:46

А тут всё просто. зачем вы регресс раньше делали? для того чтобы убедиться что программисты не наплодили багов.

Теперь вы его не делаете. ну точнее делаете чисто для галочки. не так качественно как раньше.

Соответственно все баги от которых раньше вас регресс мог защитить теперь пролезут в продакшн.

R3B3LL10N вчера в 11:53

Я так понимаю, тут только вы и не понимаете. А Лена у вас была манки тестером, который кнопочки жмёт, но не инженером. И вместо того чтобы расширить её компетенцию, повысив качество продукта, вы пошли по пути наименьшего сопротивления. Ну окей. Когда через год ваш продукт все будут называть калом, потому-что UX тестирования не было, не удивляйтесь.

Зато деньги инвесторов сэкономили)))

goodfree 23 мар в 08:47

Я бы еще сказал, что этот ии вряд ли будет локализовать проблему. И вся локализация и разгребание уйдет на сторону разработки. И как логическое продолжение, то разработка будет заниматься не тем, чем им следовало бы.

titan_pc 21 мар в 08:13

На Qwen32b Поедет такая лена?

Надоело закидывать баксы этим всяким клодам. Подумывается собирать мини серваки с тремя rtx4090 или даже двумя.

Чтобы экономия была реально разумной. А то иной раз за день прожигает 500 баксов. Чтоб я ещё раз этого краба запустил, клешню ему в брюхо.

Вот и думается, в месяц тратишь 3000 баксов на клода. Может тупо собрать сервак себе на эти бабки.

Я думаю что заменять ручной труд на машинный надо покупками машин, а не подписок в где то там. Ну снял офис, вместо людей наставил системники. Ноутбуки распродал, которыми люди пользовались, часть направил на мини серваки. И вот - заменился труд рутинный.

А клоды шмоды эти сегодня 20 баксов, потом 40. Потом у них суперакции и ещё впн этот проплачивай. А РФ чебурнетиться останавливаться не планирует. Отрезаться хочет от интернета глобального.

Triton5 21 мар в 09:13

Как промежуточный вариант - может, попробовать использовать китайские модели? Они в 5-10 раз дешевле этих вот клодов ненасытных. Потестить штук пять топовых китайских, например через API openrouter, а потом купить подписку прямо на китайских сайтах, там прямо интересные варианты есть, например

https://platform.minimax.io/subscribe/token-plan

Свой сервак на 4090 (или ещё можно на 3090, если экономить:) это хорошая штука, но там у вас могут крутиться модели средней тяжести или жёстко квантизованные тяжёлые модели.

ArkadiyShuvaev 21 мар в 09:14

Спасибо за статью!

Я сейчас пробую автоматизировать анализ заявок в нашей компании и в вашей статье увидел потенциал для следующего проекта.

У меня несколько вопросов по статье, если можно.

Сессионная память: Куки выживают после перезапуска

У вас нет картинки высокоуровневого дизайна вашего решения, чтобы понять, как это работает в CI?
Сколько раз в день у вас запускается CI и сколько это стоит? Хочу понять бюджет.
Вы не пытались написать плагин для Claude Code, возможно это вышло бы дешевле? Или это решение уже не запустить автономно а CI?

ekiyasheva 21 мар в 09:42

Здравствуйте, выглядит, как революция, как и писал Уиттакер. А вы отслеживание область тестового покрытия ботом? Я имею в виду перечень тестов, которые проводит бот или только по багам ориентируетесь?

Человеческое тестирование управляемо через связку домен+ требования+ реализация+ тесты, а как с ИИ тестированием? Очень интересно, чем оно управляется и управляется ли.. или становится черным ящиком, что найдет то найдет

Xuxicheta 21 мар в 10:34

После Лены следующие на выход - команда разработки Алекс и Денис, а потом владельцы ИИ решат, что получатель денег Аркадий Аркадьевич тут тоже совершенно лишний, все и так на их серверах крутится

Vfadeev 21 мар в 10:37

Чтобы гонять тесты на БОЕВОЙ бд, нужно быть безнадежным оптимистом.

Один запрос агента вида "alter database..", который угробит данные, и вся "экономия" выйдет боком. Я не увидел в описании схемы работы, что жёстко написанными скриптами( которые не меняются ) поднимается копия БД, и на ней уже агент / QA сотрудник воспроизводит ошибку, и экспериментирует с БД.

В целом, подход разумный, в качестве метода дополнительного контроля ( ну и QA специалист часть времени занимается настройкой QA агента ). Но, все же, IMHO, агенту ( равно как и живому сотруднику уровня junior ) давать лазить в боевую БД не стоит. Вот работать с копией БД ( которую, если угробит, то не особо жалко) вполне можно доверить.

svbbattah 21 мар в 11:07

Раньше просто читал ресурс, но сейчас загорелось кресло, поэтому даже решил зарегаться.

Где-то прочитал интересную мысль - к ИИ надо относиться как к стажеру, которому доверили рутинные тесты, и у которого нужно стоять за спиной и смотреть, не накосячил ли он. Если да - то проводить "вычитку" его косяков и вносить правки.

Тестирование - это не тупо регресс на деве, это ещё и тест-дизайн, и тест-менеджмент и взаимодействие с командой - разрабы, аналитики, PM, PO и т.д.

Если ты не понимаешь сути и роли тестирования и обеспечения качества - мне тебя искренне жаль. Хотя, возможно, и не очен искренне :)

Желаю твоему стартапу (jonah_jameson_laughing_meme.gif) всего наилучшего ;)

DaggerMouse 21 мар в 12:50

У вас очень короткая статья, поэтому я решил просто ее прочитать от начала до конца. Я думаю, до вас не дошло, что на этой фразе вы проиграли любую дискуссию:

Customer-Triggered QA: Если клиент жалуется на баг, система автоматом логинится в его контекст, воспроизводит сценарий, лезет в его данные в БД и кидает готовый диагноз прямо в Jira-тикет. От тикета до Root Cause — минуты.

Это ошибка "между стулом и клавиатурой", - плевок в душу каждому, кто посвятил свою карьеру чему-угодно в продакшене, хвастовство которым вызывает недоумение.

Хабровчане справедливо рассудили, что RankCaster относится к проектам, которые вытянули деньги из людей, не понимающих насколько некомпетентна команда проекта, а потому не вызывает желания дискутировать предметно.

Emelian1917 21 мар в 13:19

Вижу, что фраза про "логин в контекст" прозвучала двусмысленно и напугала тех, кто заботится о безопасности (и правильно сделала).

Хочу прояснить: мы не камикадзе. Агент работает исключительно в песочнице. "Контекст клиента" для нас — это конфигурационный JSON с параметрами среды, а не сессия живого юзера. Мы эмулируем проблему на синтетических данных, чтобы не дергать разработчика на рутинный дебаг. Никакого доступа к персональным данным у AI нет и не будет. У агента Read-Only доступ только к техническим таблицам. Он не видит паролей, имен или карт — он сверяет данные, например APR.

ArkadiyShuvaev 21 мар в 14:10

Я никакого отношения к автору не имею, просто хочу поинтересоваться.

Не поймите меня неправильно, но у нас в команде реально много задач и хотелось бы свою работу хоть как-то упростить/облегчить.

система автоматом логинится в его (пользователя) контекст

Я правильно понимаю, что это единственная претензия и что по-уму нужно на Staging склонировать/создать аккаунт с теми же самыми настройками/правами доступа?

lurkinme 21 мар в 13:25

Человеку или обычному E2E-тесту такая связка недоступна.

Нужна пояснительная бригада или это трындёж и нейрослоп?

Boethiah 21 мар в 17:50

А потом мы видим плохо работающий г**но-продукт, потому что AI тоже делает ошибки и упускает многие ньюансы. Надеюсь, ни один человек от "продукта" автора не пострадал

alexanderniki 21 мар в 19:56

ни один человек [...] не пострадал

Я сталкивался с людьми, чей стиль мышления похож на автора статьи. В таких продуктах пользователи пострадывают по умолчанию. Они и тестировщики, и сами себе техподдержка.

titulusdesiderio 22 мар в 08:58

Я ежедневно пользуюсь agent-browser - отличный инструмент! И по этому я с уверенностью могу сказать что это брехня полная:

Время регрессии: Снизилось с 48 часов работы команды до 10–40 минут автономной работы агента.

Агент на каждое действие тратит около 10-20 секунд, когда человеку то же самое протыкать - пара секунд.

Ускорение всей регрессии в сто раз при замедлении каждого отдельного теста в десять раз, возможно только за счёт уменьшения количества и качества кейсов. Я ни за что не поверю, что вы смогли организовать параллелизацию на тысячу одновременных агентов.

Так что по итогу вы просто плохо делаете регресс. Ухудшили качество в угоду скорости и стоимости.