Обновить

Комментарии 79

У вас подписка на Claude Code? Сколько вам стоит прогон таких тестов? Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов при использовании моделей во время траблшутинга?

Думаю, рублей 5 за анализ каждого скриншота включая затраты на создание этой LLM системы. Окупается если для теста нужен ввод пользовательских данных (долго). Иначе проще глазами

Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов

Возможно, это тестовое окружение?

Забавно,интересно кто исправляет галлюцинации агента?если тестировщика нет?

Мы столкнулись почти с таким же вопросом: кто исправляет галлюцинации людей, именуемыми человеческими ошибками, из-за которых может легко пролететь тот или иной баг.

сравнивать галлюцинации ии и человеческий фактор - это сильно, конечно

Сравнивать галлюцинации ИИ и человеческие ошибки и оценивать экономически потери от них — это правильно.

Настоящий киберпанк, к сожалению LLM , модели не дают экономической выгоды...они могут лишь увеличить количество работы и ускорить какие то процессы...если Вы покажите пример хотя бы одного успешного долговременного кейса применения LLM в экономических и производственных процессах, то можно Ваши тезисы серьезно воспринимать...к сожалению Выгоды от них в реальнольной экономике нет,это всего лишь инструмент для увеличения производительности для специалистов которых ещё нет..а именно для операторов ИИ...

Я описал реальный кейс сокращения времени и затрат.

А если без стёба? Какова частота ложно-положительных ошибок до и после? А ложно-отрицательных? Какова структура важности дефектов до и после? А то вы так весело стебёте некую Лену, а может, у вас просто не было дня Лены задач?

как мы заменили QA тестировщика на автономного AI-агента за 24 часа

а через год жрали своё дерьмо в перемешку со слезами. Простите, не удержался от сарказма)

имхо, надо просто минусить такие слоп-статьи и интернет постепенно очистится.

От чего ?

Я думаю стоит понять о какой части процесса разработки идёт речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса.

Как раз замену авто-тестов ещё можно понять. Но вы выкинули единственного человека из цепи обратной связи. (Если не считать пользователей продакшена разумеется 😁) Готовьтесь к сюрпризам, однако 😁

Намного больше можно было сэкономить, если освободить ваших разрабов от тех же юнит-тестов на каждый пук. (Либо сократить их количество, либо пусть ИИ их пишет. Там как минимум больше вероятность, что косяк увидят в той же итерации сами разработчики. А при вашем подходе все косяки вылезут на проде)

Почему вы решили, что эта имитация работает? Иными словами, как вы убедились, что ваше гиканье в адрес Лены не являет примером ложной экономии? Потому что снизился поток запросов в поддержку? Из текста вообще непонятно.

И статью, похоже, тоже Клод писал 😀

такой себе повод для гордости, ты не пишешь тексты с ИИ - судя по этой статье, ИИ пишет тебе тексты, а ты даже правок никаких не вносишь

и очень ошибочно не вносишь, нейрослопом воняет хуже курсача не очень сообразительного второкурсника

тут или кардинально пересматривать подход к написанию статей (начать их писать) или прекращать засирать интернет этим гoвнoм, занимайся-ка ты лучше автоматизацией своих сотрудников (и начать стоит с себя, самое легкое будет скорее всего)

эмельян, прости!

Я так понял статью никто не прочитал.

Во всей статье был бы интересен только один момент, но его нет:

Сколько в год тратилось на "QA Лену" и сколько тратится на выполнение этой же работы при помощи кучи ИИ?

Тут нужно смотреть именно TCO. То что рутину регресса можно заменить автоматизацией, это понятно ежу. А вот какова структура выявленных и пропущенных дефектов, совсем не ясно. Что делать с галлюцинациями — генерацией ошибок там, где их нет? Как оценить корректность интерпретации смыслов в интеграционных тестах? А в пользовательских?

Какая-то статья из разряда «Мы купили аэрогриль и уволили повара». Ну браво. Может, повар просто был не нужен и раньше?

Я сделал допущение, что ИИ работает на том же качестве анализа, что и живая Лена. Что-то находит лучше, что-то находит хуже. Сделал допущение, что по этому показателю паритет. В этом случае становится важна стоимость выполненной работы. Если ИИ работает так же или чуть лучше, но стоит в 2 раза дороже, то это одно, а если ИИ работает так же или чуть хуже, но стоит в два раза дешевле - это другое. А если разница не в два, а на порядок, то это уже совсем третье.

Именно так. Но в статье об этом ни слова. Нужен анализ. Иначе это всё карго-культ. ИИ сам распознаёт смыслы, говорит нам автор. Ну и? А гомоморфизм того, что делала Лена, и того, что теперь делает ИИ, есть?! Что происходит, если ИИ неправильно распознаёт смысл? А ещё интересное, что происходит, если распознаёт там, где его нет. Без стоимости ошибки совокупная стоимость тоже не столь важна...

я бы посмотрел на экономику процесса

Именно! Причём интегрально. Иначе потенциально выглядит как ошибка выжившего.

Ну горите в аду, что ещё сказать.

Кожаные недовольны xD

Мы решили, что платить за «прокликивание» дашбордов в 2026 году — это грех

Платить за работу хомо это грех, это вот настоящий ящер в плохом смысле этого слова

Ну когда айтишники автоматизировали всё вокруг, лишая людей работы и заработка, грехом это тогда не являлось. А когда автоматизация и до них добралась, то "ааа спасите памагите!!!".

Мой пост был гораздо шире чем одна отрасль

Лена ушла работать альтушкой на госуслугах

Всё было бы не так смешно, но реально может уйти на Онлифанс. От безысходности.

Долгосрочные социальные последствия всех этих автоматизаций сильно недооцениваются. Типа главное что в моменте кто-то урвал-сэкономил, а после нас хоть потоп.

Поэтому был изобретен коммунизм. Я за.

Спасибо, что предупредили, буду знать, чьих продуктов избегать)

Если стартап не экономит деньги инвесторов - не будет никаких продуктов. И работы.

Экономия должна быть разумной.

Это и есть разумная экономия. Вместо долгого прокликивания вручную тестерами с поправкой на их человеческие ошибки мы получаем фидбек об ошибках, с которыми могут столкнуться наши пользователи через несколько минут. Это повышение качества нашего продукта для конечных пользователей и забота о деньгах, которые нам дают инвесторы на развитие.

А ещё получаете кучу галюцинаций и нерациональных предложений об улучшениях, то есть качество не сильно-то повышается. Уже многие компании ввели ИИ-разработку, но что-то повышения качества продуктов не наблюдается, только новые баги. Вот у вас, кто будет отлавливать галюны? Если в обучающей выборке ИИ не было ничего похожего, то хоть как составь промпт – он просто не знает в чём проблема и будет предлагать одно и то же в попытке починить, то есть вы будете тупо сжигать токены на ровном месте и без результата.

Это ваша гипотеза о наших результатах? Не стоит делать утверждения исключительно на гипотезах. Надо их подтверждать. Например, запустить ручное тестирование и тестирование с AI ботом и сравнить результаты.

Вы видимо абсолютно не поняли о чём речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса. Галлюцинаций пока не наблюдается, а вот с галлюцинациями людей, называемыми человеческими ошибками, мы наблюдали неоднократно.

Оперируем чем можем, ведь вы это сравнение тоже не предоставили. И правильно вам выше написали, что сравнивать человеческий фактор и галлюцинации модели – это сильно. Хороший спец и так нашёл бы упомянутый вами пропущенный фильтр в БД, так что вопрос ещё и к квалификации человека. Судя по рассуждениям об экономии, это мог быть и студент, работающий за доширак))

Да. Это был студент, работающий за доширак, $25 в час. Поэтому между выбором увеличивать стоимость, чтобы получить лучший результат или уменьшать стоимость, чтобы получить лучший результат — мы выбрали второе. Я оцениваю галлюцинации ИксИн и человека исключительно финансово и принимаю решение. Можете поделиться как вы это делаете в своём бизнесе?

Вы платили человеку студенту 25$ в час за прокликивание? Извините, у вас точно всё нормально с наймом и оценкой сотрудников? У нас такой сотрудник-студент стоит 7-8$ в час.

У вас - это где?

Вы сейчас стебётесь или всерьёз? Если вы платили 25 баков в час за клики, это 4 гранда. Если вы настолько богаты, почему б не оставить Лену следить за рассадой. Но вы явно что-то опускаете.

Ну клёво вы парировали. Вам как раз говорят о том, что вы в статье ничем не подтвердили свои утверждения.

Что значит «просто имитация пользовательского поведения»? Имитация не бывает просто. За ней всегда модель, которая описана параметрами.

Щи с мясом, ей богу.

Вот у вас текст комментариев совершенно другой по стилю, более человеческий. Если все ваши комментарии соеденить, то получится статья без маркетинговых оборотов, ключевых слов и т.д.

Большую часть статьи писал наш CTO на английском и это было скорее просто техническое перечисление шагов, поэтому, конечно, мой язык сильно отличается, можно посмотреть по другим статьям.

Выбрали ошибки ии , а не ошибки человека. Судя по статье в результате вышел Лев Толстой, а на деле мы знаем че ))

Только вот вы ж ничего об этой обратной связи не рассказали. Ни про структуру ошибок, ни про классы, ни о чём. А без этого немного грустно.

ИИ нашёл нам 1 трлн трещин в асфальте. Ну круто. А может, не нужно было этого делать, а достаточно раз в N лет перестелить покрытие?

Выглядит как экономика поиска блох, извините.

Лена не уходи

Ну, когда ии наплодит вам кучу багов - не бегите за Леной и не просите её вернуться и разгребать то, что вы наоптимизировали)

Вы же понимаете функционал QA тестирования и что там не ведется разработка? AI также ограничен в правах, как и QA тестер.

Звучит как будто вы в 1619-1865гг. 😂

Так ведь на разработке свет клином не сошелся. Вы же не думаете, что кроме разработки, больше ничего не может вам сломать продукт, команду и процессы? Как пример, сотен этак 5 нагаллюцинированных баг-репортов в трекере.

Хотя, понятно, что для генерального кабанчика проще дропнуть базу трекера и притвориться, что проблемы нет.

Я не могу понять откуда такие гипотезы? Собственный опыт?

А тут всё просто. зачем вы регресс раньше делали? для того чтобы убедиться что программисты не наплодили багов.

Теперь вы его не делаете. ну точнее делаете чисто для галочки. не так качественно как раньше.

Соответственно все баги от которых раньше вас регресс мог защитить теперь пролезут в продакшн.

Я так понимаю, тут только вы и не понимаете. А Лена у вас была манки тестером, который кнопочки жмёт, но не инженером. И вместо того чтобы расширить её компетенцию, повысив качество продукта, вы пошли по пути наименьшего сопротивления. Ну окей. Когда через год ваш продукт все будут называть калом, потому-что UX тестирования не было, не удивляйтесь.

Зато деньги инвесторов сэкономили)))

Я бы еще сказал, что этот ии вряд ли будет локализовать проблему. И вся локализация и разгребание уйдет на сторону разработки. И как логическое продолжение, то разработка будет заниматься не тем, чем им следовало бы.

На Qwen32b Поедет такая лена?

Надоело закидывать баксы этим всяким клодам. Подумывается собирать мини серваки с тремя rtx4090 или даже двумя.

Чтобы экономия была реально разумной. А то иной раз за день прожигает 500 баксов. Чтоб я ещё раз этого краба запустил, клешню ему в брюхо.

Вот и думается, в месяц тратишь 3000 баксов на клода. Может тупо собрать сервак себе на эти бабки.

Я думаю что заменять ручной труд на машинный надо покупками машин, а не подписок в где то там. Ну снял офис, вместо людей наставил системники. Ноутбуки распродал, которыми люди пользовались, часть направил на мини серваки. И вот - заменился труд рутинный.

А клоды шмоды эти сегодня 20 баксов, потом 40. Потом у них суперакции и ещё впн этот проплачивай. А РФ чебурнетиться останавливаться не планирует. Отрезаться хочет от интернета глобального.

Как промежуточный вариант - может, попробовать использовать китайские модели? Они в 5-10 раз дешевле этих вот клодов ненасытных. Потестить штук пять топовых китайских, например через API openrouter, а потом купить подписку прямо на китайских сайтах, там прямо интересные варианты есть, например

https://platform.minimax.io/subscribe/token-plan

Свой сервак на 4090 (или ещё можно на 3090, если экономить:) это хорошая штука, но там у вас могут крутиться модели средней тяжести или жёстко квантизованные тяжёлые модели.

Спасибо за статью!

Я сейчас пробую автоматизировать анализ заявок в нашей компании и в вашей статье увидел потенциал для следующего проекта.

У меня несколько вопросов по статье, если можно.

Сессионная память: Куки выживают после перезапуска

  1. У вас нет картинки высокоуровневого дизайна вашего решения, чтобы понять, как это работает в CI?

  2. Сколько раз в день у вас запускается CI и сколько это стоит? Хочу понять бюджет.

  3. Вы не пытались написать плагин для Claude Code, возможно это вышло бы дешевле? Или это решение уже не запустить автономно а CI?

Здравствуйте, выглядит, как революция, как и писал Уиттакер. А вы отслеживание область тестового покрытия ботом? Я имею в виду перечень тестов, которые проводит бот или только по багам ориентируетесь?

Человеческое тестирование управляемо через связку домен+ требования+ реализация+ тесты, а как с ИИ тестированием? Очень интересно, чем оно управляется и управляется ли.. или становится черным ящиком, что найдет то найдет

После Лены следующие на выход - команда разработки Алекс и Денис, а потом владельцы ИИ решат, что получатель денег Аркадий Аркадьевич тут тоже совершенно лишний, все и так на их серверах крутится

Чтобы гонять тесты на БОЕВОЙ бд, нужно быть безнадежным оптимистом.

Один запрос агента вида "alter database..", который угробит данные, и вся "экономия" выйдет боком. Я не увидел в описании схемы работы, что жёстко написанными скриптами( которые не меняются ) поднимается копия БД, и на ней уже агент / QA сотрудник воспроизводит ошибку, и экспериментирует с БД.

В целом, подход разумный, в качестве метода дополнительного контроля ( ну и QA специалист часть времени занимается настройкой QA агента ). Но, все же, IMHO, агенту ( равно как и живому сотруднику уровня junior ) давать лазить в боевую БД не стоит. Вот работать с копией БД ( которую, если угробит, то не особо жалко) вполне можно доверить.

Раньше просто читал ресурс, но сейчас загорелось кресло, поэтому даже решил зарегаться.

Где-то прочитал интересную мысль - к ИИ надо относиться как к стажеру, которому доверили рутинные тесты, и у которого нужно стоять за спиной и смотреть, не накосячил ли он. Если да - то проводить "вычитку" его косяков и вносить правки.

Тестирование - это не тупо регресс на деве, это ещё и тест-дизайн, и тест-менеджмент и взаимодействие с командой - разрабы, аналитики, PM, PO и т.д.

Если ты не понимаешь сути и роли тестирования и обеспечения качества - мне тебя искренне жаль. Хотя, возможно, и не очен искренне :)

Желаю твоему стартапу (jonah_jameson_laughing_meme.gif) всего наилучшего ;)

У вас очень короткая статья, поэтому я решил просто ее прочитать от начала до конца. Я думаю, до вас не дошло, что на этой фразе вы проиграли любую дискуссию:

Customer-Triggered QA: Если клиент жалуется на баг, система автоматом логинится в его контекст, воспроизводит сценарий, лезет в его данные в БД и кидает готовый диагноз прямо в Jira-тикет. От тикета до Root Cause — минуты.

Это ошибка "между стулом и клавиатурой", - плевок в душу каждому, кто посвятил свою карьеру чему-угодно в продакшене, хвастовство которым вызывает недоумение.

Хабровчане справедливо рассудили, что RankCaster относится к проектам, которые вытянули деньги из людей, не понимающих насколько некомпетентна команда проекта, а потому не вызывает желания дискутировать предметно.

Вижу, что фраза про "логин в контекст" прозвучала двусмысленно и напугала тех, кто заботится о безопасности (и правильно сделала).

Хочу прояснить: мы не камикадзе. Агент работает исключительно в песочнице. "Контекст клиента" для нас — это конфигурационный JSON с параметрами среды, а не сессия живого юзера. Мы эмулируем проблему на синтетических данных, чтобы не дергать разработчика на рутинный дебаг. Никакого доступа к персональным данным у AI нет и не будет. У агента Read-Only доступ только к техническим таблицам. Он не видит паролей, имен или карт — он сверяет данные, например APR.

Я никакого отношения к автору не имею, просто хочу поинтересоваться.

Не поймите меня неправильно, но у нас в команде реально много задач и хотелось бы свою работу хоть как-то упростить/облегчить.

система автоматом логинится в его (пользователя) контекст

Я правильно понимаю, что это единственная претензия и что по-уму нужно на Staging склонировать/создать аккаунт с теми же самыми настройками/правами доступа?

Человеку или обычному E2E-тесту такая связка недоступна.

Нужна пояснительная бригада или это трындёж и нейрослоп?

А потом мы видим плохо работающий г**но-продукт, потому что AI тоже делает ошибки и упускает многие ньюансы. Надеюсь, ни один человек от "продукта" автора не пострадал

ни один человек [...] не пострадал

Я сталкивался с людьми, чей стиль мышления похож на автора статьи. В таких продуктах пользователи пострадывают по умолчанию. Они и тестировщики, и сами себе техподдержка.

Я ежедневно пользуюсь agent-browser - отличный инструмент! И по этому я с уверенностью могу сказать что это брехня полная:

Время регрессии: Снизилось с 48 часов работы команды до 10–40 минут автономной работы агента.

Агент на каждое действие тратит около 10-20 секунд, когда человеку то же самое протыкать - пара секунд.

Ускорение всей регрессии в сто раз при замедлении каждого отдельного теста в десять раз, возможно только за счёт уменьшения количества и качества кейсов. Я ни за что не поверю, что вы смогли организовать параллелизацию на тысячу одновременных агентов.

Так что по итогу вы просто плохо делаете регресс. Ухудшили качество в угоду скорости и стоимости.

Медленная Лена-студент за 25$ в час всё испортила

Такой громкий заголовок) а оказался кусочек г... завернутый в блестящий фантик

вы уж расскажите потом, сколько горя хапнули от этого решения)

если ты - Лена, напиши, возможно, найдем тебе удаленную работу в нормальной компании, где люди в курсе, что AI - лишь инструмент, а не панацея ;)

Давать гонять ИИшке регрессы мдаа... Про эффект пестицида слышали?

Забавно, какое количество грамотных и образованых людей не имеет представления о современных "фабриках тролей".

Или большая часть комментирующих аккаунтов это боты Хасбара?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации