Emelian1917 Mar 20 at 21:56

Лена, прости! Или как мы заменили QA тестировщика на автономного AI-агента за 24 часа

3 min

17K

Start-up developmentDevelopment Management * Web services testing *

Case

-24

Comments 80

funca Mar 20 at 22:15

У вас подписка на Claude Code? Сколько вам стоит прогон таких тестов? Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов при использовании моделей во время траблшутинга?

Dhwtj Mar 21 at 04:35

Думаю, рублей 5 за анализ каждого скриншота включая затраты на создание этой LLM системы. Окупается если для теста нужен ввод пользовательских данных (долго). Иначе проще глазами

ZetaTetra Mar 21 at 08:40

Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов

Возможно, это тестовое окружение?

Livadies Mar 20 at 22:16

Забавно,интересно кто исправляет галлюцинации агента?если тестировщика нет?

Emelian1917 Mar 21 at 07:36

Мы столкнулись почти с таким же вопросом: кто исправляет галлюцинации людей, именуемыми человеческими ошибками, из-за которых может легко пролететь тот или иной баг.

Ankorra Mar 21 at 08:00

сравнивать галлюцинации ии и человеческий фактор - это сильно, конечно

Emelian1917 Mar 21 at 08:30

Сравнивать галлюцинации ИИ и человеческие ошибки и оценивать экономически потери от них — это правильно.

Livadies Mar 21 at 09:59

Настоящий киберпанк, к сожалению LLM , модели не дают экономической выгоды...они могут лишь увеличить количество работы и ускорить какие то процессы...если Вы покажите пример хотя бы одного успешного долговременного кейса применения LLM в экономических и производственных процессах, то можно Ваши тезисы серьезно воспринимать...к сожалению Выгоды от них в реальнольной экономике нет,это всего лишь инструмент для увеличения производительности для специалистов которых ещё нет..а именно для операторов ИИ...

Emelian1917 Mar 21 at 11:04

Я описал реальный кейс сокращения времени и затрат.

ExoticHadron Mar 23 at 15:37

А если без стёба? Какова частота ложно-положительных ошибок до и после? А ложно-отрицательных? Какова структура важности дефектов до и после? А то вы так весело стебёте некую Лену, а может, у вас просто не было дня Лены задач?

hafewix Mar 20 at 23:51

как мы заменили QA тестировщика на автономного AI-агента за 24 часа

а через год жрали своё дерьмо в перемешку со слезами. Простите, не удержался от сарказма)

nikerossxp Mar 21 at 03:12

имхо, надо просто минусить такие слоп-статьи и интернет постепенно очистится.

trezubec Mar 21 at 08:29

От чего ?

Emelian1917 Mar 21 at 07:38

Я думаю стоит понять о какой части процесса разработки идёт речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса.

Arlekcangp Mar 23 at 12:28

Как раз замену авто-тестов ещё можно понять. Но вы выкинули единственного человека из цепи обратной связи. (Если не считать пользователей продакшена разумеется 😁) Готовьтесь к сюрпризам, однако 😁

Намного больше можно было сэкономить, если освободить ваших разрабов от тех же юнит-тестов на каждый пук. (Либо сократить их количество, либо пусть ИИ их пишет. Там как минимум больше вероятность, что косяк увидят в той же итерации сами разработчики. А при вашем подходе все косяки вылезут на проде)

ExoticHadron Mar 23 at 15:42

Почему вы решили, что эта имитация работает? Иными словами, как вы убедились, что ваше гиканье в адрес Лены не являет примером ложной экономии? Потому что снизился поток запросов в поддержку? Из текста вообще непонятно.

durnoy Mar 21 at 02:55

И статью, похоже, тоже Клод писал 😀

Emelian1917 Mar 21 at 07:39

Как и всегда https://habr.com/ru/articles/970820/

k1yuchnikov Mar 21 at 12:05

такой себе повод для гордости, ты не пишешь тексты с ИИ - судя по этой статье, ИИ пишет тебе тексты, а ты даже правок никаких не вносишь

и очень ошибочно не вносишь, нейрослопом воняет хуже курсача не очень сообразительного второкурсника

тут или кардинально пересматривать подход к написанию статей (начать их писать) или прекращать засирать интернет этим гoвнoм, занимайся-ка ты лучше автоматизацией своих сотрудников (и начать стоит с себя, самое легкое будет скорее всего)

эмельян, прости!

Emelian1917 Mar 21 at 12:05

Я так понял статью никто не прочитал.

maaGames Mar 21 at 03:43

Во всей статье был бы интересен только один момент, но его нет:

Сколько в год тратилось на "QA Лену" и сколько тратится на выполнение этой же работы при помощи кучи ИИ?

ExoticHadron Mar 23 at 15:47

Тут нужно смотреть именно TCO. То что рутину регресса можно заменить автоматизацией, это понятно ежу. А вот какова структура выявленных и пропущенных дефектов, совсем не ясно. Что делать с галлюцинациями — генерацией ошибок там, где их нет? Как оценить корректность интерпретации смыслов в интеграционных тестах? А в пользовательских?

Какая-то статья из разряда «Мы купили аэрогриль и уволили повара». Ну браво. Может, повар просто был не нужен и раньше?

maaGames Mar 23 at 15:51

Я сделал допущение, что ИИ работает на том же качестве анализа, что и живая Лена. Что-то находит лучше, что-то находит хуже. Сделал допущение, что по этому показателю паритет. В этом случае становится важна стоимость выполненной работы. Если ИИ работает так же или чуть лучше, но стоит в 2 раза дороже, то это одно, а если ИИ работает так же или чуть хуже, но стоит в два раза дешевле - это другое. А если разница не в два, а на порядок, то это уже совсем третье.

ExoticHadron Mar 23 at 16:25

Именно так. Но в статье об этом ни слова. Нужен анализ. Иначе это всё карго-культ. ИИ сам распознаёт смыслы, говорит нам автор. Ну и? А гомоморфизм того, что делала Лена, и того, что теперь делает ИИ, есть?! Что происходит, если ИИ неправильно распознаёт смысл? А ещё интересное, что происходит, если распознаёт там, где его нет. Без стоимости ошибки совокупная стоимость тоже не столь важна...

oldfox31 Mar 21 at 04:59

я бы посмотрел на экономику процесса

ExoticHadron Mar 23 at 15:53

Именно! Причём интегрально. Иначе потенциально выглядит как ошибка выжившего.

MaksimusDecius Mar 21 at 05:12

Ну горите в аду, что ещё сказать.

Kir_Moisha Mar 21 at 05:54

Кожаные недовольны xD

saag Mar 21 at 05:46

Мы решили, что платить за «прокликивание» дашбордов в 2026 году — это грех

Платить за работу хомо это грех, это вот настоящий ящер в плохом смысле этого слова

ohrenet Mar 21 at 08:16

Ну когда айтишники автоматизировали всё вокруг, лишая людей работы и заработка, грехом это тогда не являлось. А когда автоматизация и до них добралась, то "ааа спасите памагите!!!".

saag Mar 21 at 08:20

Мой пост был гораздо шире чем одна отрасль

Dhwtj Mar 21 at 05:53

Лена ушла работать альтушкой на госуслугах

ohrenet Mar 21 at 11:57

Всё было бы не так смешно, но реально может уйти на Онлифанс. От безысходности.

Долгосрочные социальные последствия всех этих автоматизаций сильно недооцениваются. Типа главное что в моменте кто-то урвал-сэкономил, а после нас хоть потоп.

Emelian1917 Mar 21 at 20:36

Поэтому был изобретен коммунизм. Я за.

bold_qa Mar 21 at 07:05

Спасибо, что предупредили, буду знать, чьих продуктов избегать)

Emelian1917 Mar 21 at 07:22

Если стартап не экономит деньги инвесторов - не будет никаких продуктов. И работы.

Vydra77 Mar 21 at 07:28

Экономия должна быть разумной.

Emelian1917 Mar 21 at 07:35

Это и есть разумная экономия. Вместо долгого прокликивания вручную тестерами с поправкой на их человеческие ошибки мы получаем фидбек об ошибках, с которыми могут столкнуться наши пользователи через несколько минут. Это повышение качества нашего продукта для конечных пользователей и забота о деньгах, которые нам дают инвесторы на развитие.

Vydra77 Mar 21 at 07:41

А ещё получаете кучу галюцинаций и нерациональных предложений об улучшениях, то есть качество не сильно-то повышается. Уже многие компании ввели ИИ-разработку, но что-то повышения качества продуктов не наблюдается, только новые баги. Вот у вас, кто будет отлавливать галюны? Если в обучающей выборке ИИ не было ничего похожего, то хоть как составь промпт – он просто не знает в чём проблема и будет предлагать одно и то же в попытке починить, то есть вы будете тупо сжигать токены на ровном месте и без результата.

Emelian1917 Mar 21 at 07:45

Это ваша гипотеза о наших результатах? Не стоит делать утверждения исключительно на гипотезах. Надо их подтверждать. Например, запустить ручное тестирование и тестирование с AI ботом и сравнить результаты.

Вы видимо абсолютно не поняли о чём речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса. Галлюцинаций пока не наблюдается, а вот с галлюцинациями людей, называемыми человеческими ошибками, мы наблюдали неоднократно.

Vydra77 Mar 21 at 08:13

Оперируем чем можем, ведь вы это сравнение тоже не предоставили. И правильно вам выше написали, что сравнивать человеческий фактор и галлюцинации модели – это сильно. Хороший спец и так нашёл бы упомянутый вами пропущенный фильтр в БД, так что вопрос ещё и к квалификации человека. Судя по рассуждениям об экономии, это мог быть и студент, работающий за доширак))

Emelian1917 Mar 21 at 08:26

Да. Это был студент, работающий за доширак, $25 в час. Поэтому между выбором увеличивать стоимость, чтобы получить лучший результат или уменьшать стоимость, чтобы получить лучший результат — мы выбрали второе. Я оцениваю галлюцинации ИксИн и человека исключительно финансово и принимаю решение. Можете поделиться как вы это делаете в своём бизнесе?

goodfree Mar 23 at 08:39

Вы платили человеку студенту 25$ в час за прокликивание? Извините, у вас точно всё нормально с наймом и оценкой сотрудников? У нас такой сотрудник-студент стоит 7-8$ в час.

Emelian1917 Mar 23 at 12:18

У вас - это где?

ExoticHadron Mar 23 at 16:41

Вы сейчас стебётесь или всерьёз? Если вы платили 25 баков в час за клики, это 4 гранда. Если вы настолько богаты, почему б не оставить Лену следить за рассадой. Но вы явно что-то опускаете.

ExoticHadron Mar 23 at 16:35

Ну клёво вы парировали. Вам как раз говорят о том, что вы в статье ничем не подтвердили свои утверждения.

Что значит «просто имитация пользовательского поведения»? Имитация не бывает просто. За ней всегда модель, которая описана параметрами.

Щи с мясом, ей богу.

xaoc80 Mar 21 at 12:54

Вот у вас текст комментариев совершенно другой по стилю, более человеческий. Если все ваши комментарии соеденить, то получится статья без маркетинговых оборотов, ключевых слов и т.д.

Emelian1917 Mar 21 at 13:42

Большую часть статьи писал наш CTO на английском и это было скорее просто техническое перечисление шагов, поэтому, конечно, мой язык сильно отличается, можно посмотреть по другим статьям.

Georgiy_z Mar 21 at 20:37

Выбрали ошибки ии , а не ошибки человека. Судя по статье в результате вышел Лев Толстой, а на деле мы знаем че ))

ExoticHadron Mar 23 at 16:30

Только вот вы ж ничего об этой обратной связи не рассказали. Ни про структуру ошибок, ни про классы, ни о чём. А без этого немного грустно.

ИИ нашёл нам 1 трлн трещин в асфальте. Ну круто. А может, не нужно было этого делать, а достаточно раз в N лет перестелить покрытие?

Выглядит как экономика поиска блох, извините.

ZhanGevorgiz Mar 21 at 07:22

Лена не уходи

Ankorra Mar 21 at 07:55

Ну, когда ии наплодит вам кучу багов - не бегите за Леной и не просите её вернуться и разгребать то, что вы наоптимизировали)

Emelian1917 Mar 21 at 08:28

Вы же понимаете функционал QA тестирования и что там не ведется разработка? AI также ограничен в правах, как и QA тестер.

venya2k Mar 21 at 12:06

Звучит как будто вы в 1619-1865гг. 😂

alexanderniki Mar 21 at 19:52

Так ведь на разработке свет клином не сошелся. Вы же не думаете, что кроме разработки, больше ничего не может вам сломать продукт, команду и процессы? Как пример, сотен этак 5 нагаллюцинированных баг-репортов в трекере.

Хотя, понятно, что для генерального кабанчика проще дропнуть базу трекера и притвориться, что проблемы нет.

Emelian1917 Mar 21 at 20:35

Я не могу понять откуда такие гипотезы? Собственный опыт?

titulusdesiderio Mar 24 at 12:46

А тут всё просто. зачем вы регресс раньше делали? для того чтобы убедиться что программисты не наплодили багов.

Теперь вы его не делаете. ну точнее делаете чисто для галочки. не так качественно как раньше.

Соответственно все баги от которых раньше вас регресс мог защитить теперь пролезут в продакшн.

R3B3LL10N Mar 24 at 11:53

Я так понимаю, тут только вы и не понимаете. А Лена у вас была манки тестером, который кнопочки жмёт, но не инженером. И вместо того чтобы расширить её компетенцию, повысив качество продукта, вы пошли по пути наименьшего сопротивления. Ну окей. Когда через год ваш продукт все будут называть калом, потому-что UX тестирования не было, не удивляйтесь.

Зато деньги инвесторов сэкономили)))

goodfree Mar 23 at 08:47

Я бы еще сказал, что этот ии вряд ли будет локализовать проблему. И вся локализация и разгребание уйдет на сторону разработки. И как логическое продолжение, то разработка будет заниматься не тем, чем им следовало бы.

titan_pc Mar 21 at 08:13

На Qwen32b Поедет такая лена?

Надоело закидывать баксы этим всяким клодам. Подумывается собирать мини серваки с тремя rtx4090 или даже двумя.

Чтобы экономия была реально разумной. А то иной раз за день прожигает 500 баксов. Чтоб я ещё раз этого краба запустил, клешню ему в брюхо.

Вот и думается, в месяц тратишь 3000 баксов на клода. Может тупо собрать сервак себе на эти бабки.

Я думаю что заменять ручной труд на машинный надо покупками машин, а не подписок в где то там. Ну снял офис, вместо людей наставил системники. Ноутбуки распродал, которыми люди пользовались, часть направил на мини серваки. И вот - заменился труд рутинный.

А клоды шмоды эти сегодня 20 баксов, потом 40. Потом у них суперакции и ещё впн этот проплачивай. А РФ чебурнетиться останавливаться не планирует. Отрезаться хочет от интернета глобального.

Triton5 Mar 21 at 09:13

Как промежуточный вариант - может, попробовать использовать китайские модели? Они в 5-10 раз дешевле этих вот клодов ненасытных. Потестить штук пять топовых китайских, например через API openrouter, а потом купить подписку прямо на китайских сайтах, там прямо интересные варианты есть, например

https://platform.minimax.io/subscribe/token-plan

Свой сервак на 4090 (или ещё можно на 3090, если экономить:) это хорошая штука, но там у вас могут крутиться модели средней тяжести или жёстко квантизованные тяжёлые модели.

ArkadiyShuvaev Mar 21 at 09:14

Спасибо за статью!

Я сейчас пробую автоматизировать анализ заявок в нашей компании и в вашей статье увидел потенциал для следующего проекта.

У меня несколько вопросов по статье, если можно.

Сессионная память: Куки выживают после перезапуска

У вас нет картинки высокоуровневого дизайна вашего решения, чтобы понять, как это работает в CI?
Сколько раз в день у вас запускается CI и сколько это стоит? Хочу понять бюджет.
Вы не пытались написать плагин для Claude Code, возможно это вышло бы дешевле? Или это решение уже не запустить автономно а CI?

ekiyasheva Mar 21 at 09:42

Здравствуйте, выглядит, как революция, как и писал Уиттакер. А вы отслеживание область тестового покрытия ботом? Я имею в виду перечень тестов, которые проводит бот или только по багам ориентируетесь?

Человеческое тестирование управляемо через связку домен+ требования+ реализация+ тесты, а как с ИИ тестированием? Очень интересно, чем оно управляется и управляется ли.. или становится черным ящиком, что найдет то найдет

Xuxicheta Mar 21 at 10:34

После Лены следующие на выход - команда разработки Алекс и Денис, а потом владельцы ИИ решат, что получатель денег Аркадий Аркадьевич тут тоже совершенно лишний, все и так на их серверах крутится

Vfadeev Mar 21 at 10:37

Чтобы гонять тесты на БОЕВОЙ бд, нужно быть безнадежным оптимистом.

Один запрос агента вида "alter database..", который угробит данные, и вся "экономия" выйдет боком. Я не увидел в описании схемы работы, что жёстко написанными скриптами( которые не меняются ) поднимается копия БД, и на ней уже агент / QA сотрудник воспроизводит ошибку, и экспериментирует с БД.

В целом, подход разумный, в качестве метода дополнительного контроля ( ну и QA специалист часть времени занимается настройкой QA агента ). Но, все же, IMHO, агенту ( равно как и живому сотруднику уровня junior ) давать лазить в боевую БД не стоит. Вот работать с копией БД ( которую, если угробит, то не особо жалко) вполне можно доверить.

svbbattah Mar 21 at 11:07

Раньше просто читал ресурс, но сейчас загорелось кресло, поэтому даже решил зарегаться.

Где-то прочитал интересную мысль - к ИИ надо относиться как к стажеру, которому доверили рутинные тесты, и у которого нужно стоять за спиной и смотреть, не накосячил ли он. Если да - то проводить "вычитку" его косяков и вносить правки.

Тестирование - это не тупо регресс на деве, это ещё и тест-дизайн, и тест-менеджмент и взаимодействие с командой - разрабы, аналитики, PM, PO и т.д.

Если ты не понимаешь сути и роли тестирования и обеспечения качества - мне тебя искренне жаль. Хотя, возможно, и не очен искренне :)

Желаю твоему стартапу (jonah_jameson_laughing_meme.gif) всего наилучшего ;)

DaggerMouse Mar 21 at 12:50

У вас очень короткая статья, поэтому я решил просто ее прочитать от начала до конца. Я думаю, до вас не дошло, что на этой фразе вы проиграли любую дискуссию:

Customer-Triggered QA: Если клиент жалуется на баг, система автоматом логинится в его контекст, воспроизводит сценарий, лезет в его данные в БД и кидает готовый диагноз прямо в Jira-тикет. От тикета до Root Cause — минуты.

Это ошибка "между стулом и клавиатурой", - плевок в душу каждому, кто посвятил свою карьеру чему-угодно в продакшене, хвастовство которым вызывает недоумение.

Хабровчане справедливо рассудили, что RankCaster относится к проектам, которые вытянули деньги из людей, не понимающих насколько некомпетентна команда проекта, а потому не вызывает желания дискутировать предметно.

Emelian1917 Mar 21 at 13:19

Вижу, что фраза про "логин в контекст" прозвучала двусмысленно и напугала тех, кто заботится о безопасности (и правильно сделала).

Хочу прояснить: мы не камикадзе. Агент работает исключительно в песочнице. "Контекст клиента" для нас — это конфигурационный JSON с параметрами среды, а не сессия живого юзера. Мы эмулируем проблему на синтетических данных, чтобы не дергать разработчика на рутинный дебаг. Никакого доступа к персональным данным у AI нет и не будет. У агента Read-Only доступ только к техническим таблицам. Он не видит паролей, имен или карт — он сверяет данные, например APR.

ArkadiyShuvaev Mar 21 at 14:10

Я никакого отношения к автору не имею, просто хочу поинтересоваться.

Не поймите меня неправильно, но у нас в команде реально много задач и хотелось бы свою работу хоть как-то упростить/облегчить.

система автоматом логинится в его (пользователя) контекст

Я правильно понимаю, что это единственная претензия и что по-уму нужно на Staging склонировать/создать аккаунт с теми же самыми настройками/правами доступа?

freiman Mar 26 at 11:24

В том числе.

А тут:

Тестировние, по сути, происходит на проде, что уже нехорошо.
ИИ-шке отдают все пользовательские данные с прода. Что прям очень и очень плохо.

Кстати, на сайте никакого пользовательского соглашения, согласия на обработку персданных и прочего нет.

lurkinme Mar 21 at 13:25

Человеку или обычному E2E-тесту такая связка недоступна.

Нужна пояснительная бригада или это трындёж и нейрослоп?

Boethiah Mar 21 at 17:50

А потом мы видим плохо работающий г**но-продукт, потому что AI тоже делает ошибки и упускает многие ньюансы. Надеюсь, ни один человек от "продукта" автора не пострадал

alexanderniki Mar 21 at 19:56

ни один человек [...] не пострадал

Я сталкивался с людьми, чей стиль мышления похож на автора статьи. В таких продуктах пользователи пострадывают по умолчанию. Они и тестировщики, и сами себе техподдержка.

titulusdesiderio Mar 22 at 08:58

Я ежедневно пользуюсь agent-browser - отличный инструмент! И по этому я с уверенностью могу сказать что это брехня полная:

Время регрессии: Снизилось с 48 часов работы команды до 10–40 минут автономной работы агента.

Агент на каждое действие тратит около 10-20 секунд, когда человеку то же самое протыкать - пара секунд.

Ускорение всей регрессии в сто раз при замедлении каждого отдельного теста в десять раз, возможно только за счёт уменьшения количества и качества кейсов. Я ни за что не поверю, что вы смогли организовать параллелизацию на тысячу одновременных агентов.

Так что по итогу вы просто плохо делаете регресс. Ухудшили качество в угоду скорости и стоимости.