Comments 58
У вас подписка на Claude Code? Сколько вам стоит прогон таких тестов? Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов при использовании моделей во время траблшутинга?
Думаю, рублей 5 за анализ каждого скриншота включая затраты на создание этой LLM системы. Окупается если для теста нужен ввод пользовательских данных (долго). Иначе проще глазами
Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов
Возможно, это тестовое окружение?
Забавно,интересно кто исправляет галлюцинации агента?если тестировщика нет?
Мы столкнулись почти с таким же вопросом: кто исправляет галлюцинации людей, именуемыми человеческими ошибками, из-за которых может легко пролететь тот или иной баг.
сравнивать галлюцинации ии и человеческий фактор - это сильно, конечно
Сравнивать галлюцинации ИИ и человеческие ошибки и оценивать экономически потери от них — это правильно.
Настоящий киберпанк, к сожалению LLM , модели не дают экономической выгоды...они могут лишь увеличить количество работы и ускорить какие то процессы...если Вы покажите пример хотя бы одного успешного долговременного кейса применения LLM в экономических и производственных процессах, то можно Ваши тезисы серьезно воспринимать...к сожалению Выгоды от них в реальнольной экономике нет,это всего лишь инструмент для увеличения производительности для специалистов которых ещё нет..а именно для операторов ИИ...
как мы заменили QA тестировщика на автономного AI-агента за 24 часа
а через год жрали своё дерьмо в перемешку со слезами. Простите, не удержался от сарказма)
имхо, надо просто минусить такие слоп-статьи и интернет постепенно очистится.
Я думаю стоит понять о какой части процесса разработки идёт речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса.
И статью, похоже, тоже Клод писал 😀
Как и всегда https://habr.com/ru/articles/970820/
такой себе повод для гордости, ты не пишешь тексты с ИИ - судя по этой статье, ИИ пишет тебе тексты, а ты даже правок никаких не вносишь
и очень ошибочно не вносишь, нейрослопом воняет хуже курсача не очень сообразительного второкурсника
тут или кардинально пересматривать подход к написанию статей (начать их писать) или прекращать засирать интернет этим гoвнoм, занимайся-ка ты лучше автоматизацией своих сотрудников (и начать стоит с себя, самое легкое будет скорее всего)
эмельян, прости!
Во всей статье был бы интересен только один момент, но его нет:
Сколько в год тратилось на "QA Лену" и сколько тратится на выполнение этой же работы при помощи кучи ИИ?
я бы посмотрел на экономику процесса
Ну горите в аду, что ещё сказать.
Мы решили, что платить за «прокликивание» дашбордов в 2026 году — это грех
Платить за работу хомо это грех, это вот настоящий ящер в плохом смысле этого слова
Лена ушла работать альтушкой на госуслугах
Спасибо, что предупредили, буду знать, чьих продуктов избегать)
Если стартап не экономит деньги инвесторов - не будет никаких продуктов. И работы.
Экономия должна быть разумной.
Это и есть разумная экономия. Вместо долгого прокликивания вручную тестерами с поправкой на их человеческие ошибки мы получаем фидбек об ошибках, с которыми могут столкнуться наши пользователи через несколько минут. Это повышение качества нашего продукта для конечных пользователей и забота о деньгах, которые нам дают инвесторы на развитие.
А ещё получаете кучу галюцинаций и нерациональных предложений об улучшениях, то есть качество не сильно-то повышается. Уже многие компании ввели ИИ-разработку, но что-то повышения качества продуктов не наблюдается, только новые баги. Вот у вас, кто будет отлавливать галюны? Если в обучающей выборке ИИ не было ничего похожего, то хоть как составь промпт – он просто не знает в чём проблема и будет предлагать одно и то же в попытке починить, то есть вы будете тупо сжигать токены на ровном месте и без результата.
Это ваша гипотеза о наших результатах? Не стоит делать утверждения исключительно на гипотезах. Надо их подтверждать. Например, запустить ручное тестирование и тестирование с AI ботом и сравнить результаты.
Вы видимо абсолютно не поняли о чём речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса. Галлюцинаций пока не наблюдается, а вот с галлюцинациями людей, называемыми человеческими ошибками, мы наблюдали неоднократно.
Оперируем чем можем, ведь вы это сравнение тоже не предоставили. И правильно вам выше написали, что сравнивать человеческий фактор и галлюцинации модели – это сильно. Хороший спец и так нашёл бы упомянутый вами пропущенный фильтр в БД, так что вопрос ещё и к квалификации человека. Судя по рассуждениям об экономии, это мог быть и студент, работающий за доширак))
Да. Это был студент, работающий за доширак, $25 в час. Поэтому между выбором увеличивать стоимость, чтобы получить лучший результат или уменьшать стоимость, чтобы получить лучший результат — мы выбрали второе. Я оцениваю галлюцинации ИксИн и человека исключительно финансово и принимаю решение. Можете поделиться как вы это делаете в своём бизнесе?
Вот у вас текст комментариев совершенно другой по стилю, более человеческий. Если все ваши комментарии соеденить, то получится статья без маркетинговых оборотов, ключевых слов и т.д.
Выбрали ошибки ии , а не ошибки человека. Судя по статье в результате вышел Лев Толстой, а на деле мы знаем че ))
Лена не уходи
Ну, когда ии наплодит вам кучу багов - не бегите за Леной и не просите её вернуться и разгребать то, что вы наоптимизировали)
Вы же понимаете функционал QA тестирования и что там не ведется разработка? AI также ограничен в правах, как и QA тестер.
Звучит как будто вы в 1619-1865гг. 😂
Так ведь на разработке свет клином не сошелся. Вы же не думаете, что кроме разработки, больше ничего не может вам сломать продукт, команду и процессы? Как пример, сотен этак 5 нагаллюцинированных баг-репортов в трекере.
Хотя, понятно, что для генерального кабанчика проще дропнуть базу трекера и притвориться, что проблемы нет.
На Qwen32b Поедет такая лена?
Надоело закидывать баксы этим всяким клодам. Подумывается собирать мини серваки с тремя rtx4090 или даже двумя.
Чтобы экономия была реально разумной. А то иной раз за день прожигает 500 баксов. Чтоб я ещё раз этого краба запустил, клешню ему в брюхо.
Вот и думается, в месяц тратишь 3000 баксов на клода. Может тупо собрать сервак себе на эти бабки.
Я думаю что заменять ручной труд на машинный надо покупками машин, а не подписок в где то там. Ну снял офис, вместо людей наставил системники. Ноутбуки распродал, которыми люди пользовались, часть направил на мини серваки. И вот - заменился труд рутинный.
А клоды шмоды эти сегодня 20 баксов, потом 40. Потом у них суперакции и ещё впн этот проплачивай. А РФ чебурнетиться останавливаться не планирует. Отрезаться хочет от интернета глобального.
Как промежуточный вариант - может, попробовать использовать китайские модели? Они в 5-10 раз дешевле этих вот клодов ненасытных. Потестить штук пять топовых китайских, например через API openrouter, а потом купить подписку прямо на китайских сайтах, там прямо интересные варианты есть, например
https://platform.minimax.io/subscribe/token-plan
Свой сервак на 4090 (или ещё можно на 3090, если экономить:) это хорошая штука, но там у вас могут крутиться модели средней тяжести или жёстко квантизованные тяжёлые модели.
Спасибо за статью!
Я сейчас пробую автоматизировать анализ заявок в нашей компании и в вашей статье увидел потенциал для следующего проекта.
У меня несколько вопросов по статье, если можно.
Сессионная память: Куки выживают после перезапуска
У вас нет картинки высокоуровневого дизайна вашего решения, чтобы понять, как это работает в CI?
Сколько раз в день у вас запускается CI и сколько это стоит? Хочу понять бюджет.
Вы не пытались написать плагин для Claude Code, возможно это вышло бы дешевле? Или это решение уже не запустить автономно а CI?
Здравствуйте, выглядит, как революция, как и писал Уиттакер. А вы отслеживание область тестового покрытия ботом? Я имею в виду перечень тестов, которые проводит бот или только по багам ориентируетесь?
Человеческое тестирование управляемо через связку домен+ требования+ реализация+ тесты, а как с ИИ тестированием? Очень интересно, чем оно управляется и управляется ли.. или становится черным ящиком, что найдет то найдет
После Лены следующие на выход - команда разработки Алекс и Денис, а потом владельцы ИИ решат, что получатель денег Аркадий Аркадьевич тут тоже совершенно лишний, все и так на их серверах крутится
Чтобы гонять тесты на БОЕВОЙ бд, нужно быть безнадежным оптимистом.
Один запрос агента вида "alter database..", который угробит данные, и вся "экономия" выйдет боком. Я не увидел в описании схемы работы, что жёстко написанными скриптами( которые не меняются ) поднимается копия БД, и на ней уже агент / QA сотрудник воспроизводит ошибку, и экспериментирует с БД.
В целом, подход разумный, в качестве метода дополнительного контроля ( ну и QA специалист часть времени занимается настройкой QA агента ). Но, все же, IMHO, агенту ( равно как и живому сотруднику уровня junior ) давать лазить в боевую БД не стоит. Вот работать с копией БД ( которую, если угробит, то не особо жалко) вполне можно доверить.
Раньше просто читал ресурс, но сейчас загорелось кресло, поэтому даже решил зарегаться.
Где-то прочитал интересную мысль - к ИИ надо относиться как к стажеру, которому доверили рутинные тесты, и у которого нужно стоять за спиной и смотреть, не накосячил ли он. Если да - то проводить "вычитку" его косяков и вносить правки.
Тестирование - это не тупо регресс на деве, это ещё и тест-дизайн, и тест-менеджмент и взаимодействие с командой - разрабы, аналитики, PM, PO и т.д.
Если ты не понимаешь сути и роли тестирования и обеспечения качества - мне тебя искренне жаль. Хотя, возможно, и не очен искренне :)
Желаю твоему стартапу (jonah_jameson_laughing_meme.gif) всего наилучшего ;)
У вас очень короткая статья, поэтому я решил просто ее прочитать от начала до конца. Я думаю, до вас не дошло, что на этой фразе вы проиграли любую дискуссию:
Customer-Triggered QA: Если клиент жалуется на баг, система автоматом логинится в его контекст, воспроизводит сценарий, лезет в его данные в БД и кидает готовый диагноз прямо в Jira-тикет. От тикета до Root Cause — минуты.
Это ошибка "между стулом и клавиатурой", - плевок в душу каждому, кто посвятил свою карьеру чему-угодно в продакшене, хвастовство которым вызывает недоумение.
Хабровчане справедливо рассудили, что RankCaster относится к проектам, которые вытянули деньги из людей, не понимающих насколько некомпетентна команда проекта, а потому не вызывает желания дискутировать предметно.
Вижу, что фраза про "логин в контекст" прозвучала двусмысленно и напугала тех, кто заботится о безопасности (и правильно сделала).
Хочу прояснить: мы не камикадзе. Агент работает исключительно в песочнице. "Контекст клиента" для нас — это конфигурационный JSON с параметрами среды, а не сессия живого юзера. Мы эмулируем проблему на синтетических данных, чтобы не дергать разработчика на рутинный дебаг. Никакого доступа к персональным данным у AI нет и не будет. У агента Read-Only доступ только к техническим таблицам. Он не видит паролей, имен или карт — он сверяет данные, например APR.
Я никакого отношения к автору не имею, просто хочу поинтересоваться.
Не поймите меня неправильно, но у нас в команде реально много задач и хотелось бы свою работу хоть как-то упростить/облегчить.
система автоматом логинится в его (пользователя) контекст
Я правильно понимаю, что это единственная претензия и что по-уму нужно на Staging склонировать/создать аккаунт с теми же самыми настройками/правами доступа?
Человеку или обычному E2E-тесту такая связка недоступна.
Нужна пояснительная бригада или это трындёж и нейрослоп?
А потом мы видим плохо работающий г**но-продукт, потому что AI тоже делает ошибки и упускает многие ньюансы. Надеюсь, ни один человек от "продукта" автора не пострадал
Я ежедневно пользуюсь agent-browser - отличный инструмент! И по этому я с уверенностью могу сказать что это брехня полная:
Время регрессии: Снизилось с 48 часов работы команды до 10–40 минут автономной работы агента.
Агент на каждое действие тратит около 10-20 секунд, когда человеку то же самое протыкать - пара секунд.
Ускорение всей регрессии в сто раз при замедлении каждого отдельного теста в десять раз, возможно только за счёт уменьшения количества и качества кейсов. Я ни за что не поверю, что вы смогли организовать параллелизацию на тысячу одновременных агентов.
Так что по итогу вы просто плохо делаете регресс. Ухудшили качество в угоду скорости и стоимости.
Лена, прости! Или как мы заменили QA тестировщика на автономного AI-агента за 24 часа