Комментарии 79
У вас подписка на Claude Code? Сколько вам стоит прогон таких тестов? Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов при использовании моделей во время траблшутинга?
Думаю, рублей 5 за анализ каждого скриншота включая затраты на создание этой LLM системы. Окупается если для теста нужен ввод пользовательских данных (долго). Иначе проще глазами
Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов
Возможно, это тестовое окружение?
Забавно,интересно кто исправляет галлюцинации агента?если тестировщика нет?
Мы столкнулись почти с таким же вопросом: кто исправляет галлюцинации людей, именуемыми человеческими ошибками, из-за которых может легко пролететь тот или иной баг.
сравнивать галлюцинации ии и человеческий фактор - это сильно, конечно
Сравнивать галлюцинации ИИ и человеческие ошибки и оценивать экономически потери от них — это правильно.
Настоящий киберпанк, к сожалению LLM , модели не дают экономической выгоды...они могут лишь увеличить количество работы и ускорить какие то процессы...если Вы покажите пример хотя бы одного успешного долговременного кейса применения LLM в экономических и производственных процессах, то можно Ваши тезисы серьезно воспринимать...к сожалению Выгоды от них в реальнольной экономике нет,это всего лишь инструмент для увеличения производительности для специалистов которых ещё нет..а именно для операторов ИИ...
А если без стёба? Какова частота ложно-положительных ошибок до и после? А ложно-отрицательных? Какова структура важности дефектов до и после? А то вы так весело стебёте некую Лену, а может, у вас просто не было дня Лены задач?
как мы заменили QA тестировщика на автономного AI-агента за 24 часа
а через год жрали своё дерьмо в перемешку со слезами. Простите, не удержался от сарказма)
имхо, надо просто минусить такие слоп-статьи и интернет постепенно очистится.
Я думаю стоит понять о какой части процесса разработки идёт речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса.
Как раз замену авто-тестов ещё можно понять. Но вы выкинули единственного человека из цепи обратной связи. (Если не считать пользователей продакшена разумеется 😁) Готовьтесь к сюрпризам, однако 😁
Намного больше можно было сэкономить, если освободить ваших разрабов от тех же юнит-тестов на каждый пук. (Либо сократить их количество, либо пусть ИИ их пишет. Там как минимум больше вероятность, что косяк увидят в той же итерации сами разработчики. А при вашем подходе все косяки вылезут на проде)
Почему вы решили, что эта имитация работает? Иными словами, как вы убедились, что ваше гиканье в адрес Лены не являет примером ложной экономии? Потому что снизился поток запросов в поддержку? Из текста вообще непонятно.
И статью, похоже, тоже Клод писал 😀
Как и всегда https://habr.com/ru/articles/970820/
такой себе повод для гордости, ты не пишешь тексты с ИИ - судя по этой статье, ИИ пишет тебе тексты, а ты даже правок никаких не вносишь
и очень ошибочно не вносишь, нейрослопом воняет хуже курсача не очень сообразительного второкурсника
тут или кардинально пересматривать подход к написанию статей (начать их писать) или прекращать засирать интернет этим гoвнoм, занимайся-ка ты лучше автоматизацией своих сотрудников (и начать стоит с себя, самое легкое будет скорее всего)
эмельян, прости!
Во всей статье был бы интересен только один момент, но его нет:
Сколько в год тратилось на "QA Лену" и сколько тратится на выполнение этой же работы при помощи кучи ИИ?
Тут нужно смотреть именно TCO. То что рутину регресса можно заменить автоматизацией, это понятно ежу. А вот какова структура выявленных и пропущенных дефектов, совсем не ясно. Что делать с галлюцинациями — генерацией ошибок там, где их нет? Как оценить корректность интерпретации смыслов в интеграционных тестах? А в пользовательских?
Какая-то статья из разряда «Мы купили аэрогриль и уволили повара». Ну браво. Может, повар просто был не нужен и раньше?
Я сделал допущение, что ИИ работает на том же качестве анализа, что и живая Лена. Что-то находит лучше, что-то находит хуже. Сделал допущение, что по этому показателю паритет. В этом случае становится важна стоимость выполненной работы. Если ИИ работает так же или чуть лучше, но стоит в 2 раза дороже, то это одно, а если ИИ работает так же или чуть хуже, но стоит в два раза дешевле - это другое. А если разница не в два, а на порядок, то это уже совсем третье.
Именно так. Но в статье об этом ни слова. Нужен анализ. Иначе это всё карго-культ. ИИ сам распознаёт смыслы, говорит нам автор. Ну и? А гомоморфизм того, что делала Лена, и того, что теперь делает ИИ, есть?! Что происходит, если ИИ неправильно распознаёт смысл? А ещё интересное, что происходит, если распознаёт там, где его нет. Без стоимости ошибки совокупная стоимость тоже не столь важна...
я бы посмотрел на экономику процесса
Ну горите в аду, что ещё сказать.
Мы решили, что платить за «прокликивание» дашбордов в 2026 году — это грех
Платить за работу хомо это грех, это вот настоящий ящер в плохом смысле этого слова
Лена ушла работать альтушкой на госуслугах
Спасибо, что предупредили, буду знать, чьих продуктов избегать)
Если стартап не экономит деньги инвесторов - не будет никаких продуктов. И работы.
Экономия должна быть разумной.
Это и есть разумная экономия. Вместо долгого прокликивания вручную тестерами с поправкой на их человеческие ошибки мы получаем фидбек об ошибках, с которыми могут столкнуться наши пользователи через несколько минут. Это повышение качества нашего продукта для конечных пользователей и забота о деньгах, которые нам дают инвесторы на развитие.
А ещё получаете кучу галюцинаций и нерациональных предложений об улучшениях, то есть качество не сильно-то повышается. Уже многие компании ввели ИИ-разработку, но что-то повышения качества продуктов не наблюдается, только новые баги. Вот у вас, кто будет отлавливать галюны? Если в обучающей выборке ИИ не было ничего похожего, то хоть как составь промпт – он просто не знает в чём проблема и будет предлагать одно и то же в попытке починить, то есть вы будете тупо сжигать токены на ровном месте и без результата.
Это ваша гипотеза о наших результатах? Не стоит делать утверждения исключительно на гипотезах. Надо их подтверждать. Например, запустить ручное тестирование и тестирование с AI ботом и сравнить результаты.
Вы видимо абсолютно не поняли о чём речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса. Галлюцинаций пока не наблюдается, а вот с галлюцинациями людей, называемыми человеческими ошибками, мы наблюдали неоднократно.
Оперируем чем можем, ведь вы это сравнение тоже не предоставили. И правильно вам выше написали, что сравнивать человеческий фактор и галлюцинации модели – это сильно. Хороший спец и так нашёл бы упомянутый вами пропущенный фильтр в БД, так что вопрос ещё и к квалификации человека. Судя по рассуждениям об экономии, это мог быть и студент, работающий за доширак))
Да. Это был студент, работающий за доширак, $25 в час. Поэтому между выбором увеличивать стоимость, чтобы получить лучший результат или уменьшать стоимость, чтобы получить лучший результат — мы выбрали второе. Я оцениваю галлюцинации ИксИн и человека исключительно финансово и принимаю решение. Можете поделиться как вы это делаете в своём бизнесе?
Вы платили человеку студенту 25$ в час за прокликивание? Извините, у вас точно всё нормально с наймом и оценкой сотрудников? У нас такой сотрудник-студент стоит 7-8$ в час.
Ну клёво вы парировали. Вам как раз говорят о том, что вы в статье ничем не подтвердили свои утверждения.
Что значит «просто имитация пользовательского поведения»? Имитация не бывает просто. За ней всегда модель, которая описана параметрами.
Щи с мясом, ей богу.
Вот у вас текст комментариев совершенно другой по стилю, более человеческий. Если все ваши комментарии соеденить, то получится статья без маркетинговых оборотов, ключевых слов и т.д.
Выбрали ошибки ии , а не ошибки человека. Судя по статье в результате вышел Лев Толстой, а на деле мы знаем че ))
Только вот вы ж ничего об этой обратной связи не рассказали. Ни про структуру ошибок, ни про классы, ни о чём. А без этого немного грустно.
ИИ нашёл нам 1 трлн трещин в асфальте. Ну круто. А может, не нужно было этого делать, а достаточно раз в N лет перестелить покрытие?
Выглядит как экономика поиска блох, извините.
Лена не уходи
Ну, когда ии наплодит вам кучу багов - не бегите за Леной и не просите её вернуться и разгребать то, что вы наоптимизировали)
Вы же понимаете функционал QA тестирования и что там не ведется разработка? AI также ограничен в правах, как и QA тестер.
Звучит как будто вы в 1619-1865гг. 😂
Так ведь на разработке свет клином не сошелся. Вы же не думаете, что кроме разработки, больше ничего не может вам сломать продукт, команду и процессы? Как пример, сотен этак 5 нагаллюцинированных баг-репортов в трекере.
Хотя, понятно, что для генерального кабанчика проще дропнуть базу трекера и притвориться, что проблемы нет.
Я не могу понять откуда такие гипотезы? Собственный опыт?
Я так понимаю, тут только вы и не понимаете. А Лена у вас была манки тестером, который кнопочки жмёт, но не инженером. И вместо того чтобы расширить её компетенцию, повысив качество продукта, вы пошли по пути наименьшего сопротивления. Ну окей. Когда через год ваш продукт все будут называть калом, потому-что UX тестирования не было, не удивляйтесь.
Зато деньги инвесторов сэкономили)))
Я бы еще сказал, что этот ии вряд ли будет локализовать проблему. И вся локализация и разгребание уйдет на сторону разработки. И как логическое продолжение, то разработка будет заниматься не тем, чем им следовало бы.
На Qwen32b Поедет такая лена?
Надоело закидывать баксы этим всяким клодам. Подумывается собирать мини серваки с тремя rtx4090 или даже двумя.
Чтобы экономия была реально разумной. А то иной раз за день прожигает 500 баксов. Чтоб я ещё раз этого краба запустил, клешню ему в брюхо.
Вот и думается, в месяц тратишь 3000 баксов на клода. Может тупо собрать сервак себе на эти бабки.
Я думаю что заменять ручной труд на машинный надо покупками машин, а не подписок в где то там. Ну снял офис, вместо людей наставил системники. Ноутбуки распродал, которыми люди пользовались, часть направил на мини серваки. И вот - заменился труд рутинный.
А клоды шмоды эти сегодня 20 баксов, потом 40. Потом у них суперакции и ещё впн этот проплачивай. А РФ чебурнетиться останавливаться не планирует. Отрезаться хочет от интернета глобального.
Как промежуточный вариант - может, попробовать использовать китайские модели? Они в 5-10 раз дешевле этих вот клодов ненасытных. Потестить штук пять топовых китайских, например через API openrouter, а потом купить подписку прямо на китайских сайтах, там прямо интересные варианты есть, например
https://platform.minimax.io/subscribe/token-plan
Свой сервак на 4090 (или ещё можно на 3090, если экономить:) это хорошая штука, но там у вас могут крутиться модели средней тяжести или жёстко квантизованные тяжёлые модели.
Спасибо за статью!
Я сейчас пробую автоматизировать анализ заявок в нашей компании и в вашей статье увидел потенциал для следующего проекта.
У меня несколько вопросов по статье, если можно.
Сессионная память: Куки выживают после перезапуска
У вас нет картинки высокоуровневого дизайна вашего решения, чтобы понять, как это работает в CI?
Сколько раз в день у вас запускается CI и сколько это стоит? Хочу понять бюджет.
Вы не пытались написать плагин для Claude Code, возможно это вышло бы дешевле? Или это решение уже не запустить автономно а CI?
Здравствуйте, выглядит, как революция, как и писал Уиттакер. А вы отслеживание область тестового покрытия ботом? Я имею в виду перечень тестов, которые проводит бот или только по багам ориентируетесь?
Человеческое тестирование управляемо через связку домен+ требования+ реализация+ тесты, а как с ИИ тестированием? Очень интересно, чем оно управляется и управляется ли.. или становится черным ящиком, что найдет то найдет
После Лены следующие на выход - команда разработки Алекс и Денис, а потом владельцы ИИ решат, что получатель денег Аркадий Аркадьевич тут тоже совершенно лишний, все и так на их серверах крутится
Чтобы гонять тесты на БОЕВОЙ бд, нужно быть безнадежным оптимистом.
Один запрос агента вида "alter database..", который угробит данные, и вся "экономия" выйдет боком. Я не увидел в описании схемы работы, что жёстко написанными скриптами( которые не меняются ) поднимается копия БД, и на ней уже агент / QA сотрудник воспроизводит ошибку, и экспериментирует с БД.
В целом, подход разумный, в качестве метода дополнительного контроля ( ну и QA специалист часть времени занимается настройкой QA агента ). Но, все же, IMHO, агенту ( равно как и живому сотруднику уровня junior ) давать лазить в боевую БД не стоит. Вот работать с копией БД ( которую, если угробит, то не особо жалко) вполне можно доверить.
Раньше просто читал ресурс, но сейчас загорелось кресло, поэтому даже решил зарегаться.
Где-то прочитал интересную мысль - к ИИ надо относиться как к стажеру, которому доверили рутинные тесты, и у которого нужно стоять за спиной и смотреть, не накосячил ли он. Если да - то проводить "вычитку" его косяков и вносить правки.
Тестирование - это не тупо регресс на деве, это ещё и тест-дизайн, и тест-менеджмент и взаимодействие с командой - разрабы, аналитики, PM, PO и т.д.
Если ты не понимаешь сути и роли тестирования и обеспечения качества - мне тебя искренне жаль. Хотя, возможно, и не очен искренне :)
Желаю твоему стартапу (jonah_jameson_laughing_meme.gif) всего наилучшего ;)
У вас очень короткая статья, поэтому я решил просто ее прочитать от начала до конца. Я думаю, до вас не дошло, что на этой фразе вы проиграли любую дискуссию:
Customer-Triggered QA: Если клиент жалуется на баг, система автоматом логинится в его контекст, воспроизводит сценарий, лезет в его данные в БД и кидает готовый диагноз прямо в Jira-тикет. От тикета до Root Cause — минуты.
Это ошибка "между стулом и клавиатурой", - плевок в душу каждому, кто посвятил свою карьеру чему-угодно в продакшене, хвастовство которым вызывает недоумение.
Хабровчане справедливо рассудили, что RankCaster относится к проектам, которые вытянули деньги из людей, не понимающих насколько некомпетентна команда проекта, а потому не вызывает желания дискутировать предметно.
Вижу, что фраза про "логин в контекст" прозвучала двусмысленно и напугала тех, кто заботится о безопасности (и правильно сделала).
Хочу прояснить: мы не камикадзе. Агент работает исключительно в песочнице. "Контекст клиента" для нас — это конфигурационный JSON с параметрами среды, а не сессия живого юзера. Мы эмулируем проблему на синтетических данных, чтобы не дергать разработчика на рутинный дебаг. Никакого доступа к персональным данным у AI нет и не будет. У агента Read-Only доступ только к техническим таблицам. Он не видит паролей, имен или карт — он сверяет данные, например APR.
Я никакого отношения к автору не имею, просто хочу поинтересоваться.
Не поймите меня неправильно, но у нас в команде реально много задач и хотелось бы свою работу хоть как-то упростить/облегчить.
система автоматом логинится в его (пользователя) контекст
Я правильно понимаю, что это единственная претензия и что по-уму нужно на Staging склонировать/создать аккаунт с теми же самыми настройками/правами доступа?
Человеку или обычному E2E-тесту такая связка недоступна.
Нужна пояснительная бригада или это трындёж и нейрослоп?
А потом мы видим плохо работающий г**но-продукт, потому что AI тоже делает ошибки и упускает многие ньюансы. Надеюсь, ни один человек от "продукта" автора не пострадал
Я ежедневно пользуюсь agent-browser - отличный инструмент! И по этому я с уверенностью могу сказать что это брехня полная:
Время регрессии: Снизилось с 48 часов работы команды до 10–40 минут автономной работы агента.
Агент на каждое действие тратит около 10-20 секунд, когда человеку то же самое протыкать - пара секунд.
Ускорение всей регрессии в сто раз при замедлении каждого отдельного теста в десять раз, возможно только за счёт уменьшения количества и качества кейсов. Я ни за что не поверю, что вы смогли организовать параллелизацию на тысячу одновременных агентов.
Так что по итогу вы просто плохо делаете регресс. Ухудшили качество в угоду скорости и стоимости.
Такой громкий заголовок) а оказался кусочек г... завернутый в блестящий фантик
вы уж расскажите потом, сколько горя хапнули от этого решения)
если ты - Лена, напиши, возможно, найдем тебе удаленную работу в нормальной компании, где люди в курсе, что AI - лишь инструмент, а не панацея ;)
Давать гонять ИИшке регрессы мдаа... Про эффект пестицида слышали?
Забавно, какое количество грамотных и образованых людей не имеет представления о современных "фабриках тролей".
Или большая часть комментирующих аккаунтов это боты Хасбара?

Лена, прости! Или как мы заменили QA тестировщика на автономного AI-агента за 24 часа