Pull to refresh

Comments 58

У вас подписка на Claude Code? Сколько вам стоит прогон таких тестов? Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов при использовании моделей во время траблшутинга?

Думаю, рублей 5 за анализ каждого скриншота включая затраты на создание этой LLM системы. Окупается если для теста нужен ввод пользовательских данных (долго). Иначе проще глазами

Как вы решаете вопрос с возможной утечкой конфиденциальных или персональных данных клиентов

Возможно, это тестовое окружение?

Забавно,интересно кто исправляет галлюцинации агента?если тестировщика нет?

Мы столкнулись почти с таким же вопросом: кто исправляет галлюцинации людей, именуемыми человеческими ошибками, из-за которых может легко пролететь тот или иной баг.

сравнивать галлюцинации ии и человеческий фактор - это сильно, конечно

Сравнивать галлюцинации ИИ и человеческие ошибки и оценивать экономически потери от них — это правильно.

Настоящий киберпанк, к сожалению LLM , модели не дают экономической выгоды...они могут лишь увеличить количество работы и ускорить какие то процессы...если Вы покажите пример хотя бы одного успешного долговременного кейса применения LLM в экономических и производственных процессах, то можно Ваши тезисы серьезно воспринимать...к сожалению Выгоды от них в реальнольной экономике нет,это всего лишь инструмент для увеличения производительности для специалистов которых ещё нет..а именно для операторов ИИ...

Я описал реальный кейс сокращения времени и затрат.

как мы заменили QA тестировщика на автономного AI-агента за 24 часа

а через год жрали своё дерьмо в перемешку со слезами. Простите, не удержался от сарказма)

имхо, надо просто минусить такие слоп-статьи и интернет постепенно очистится.

Я думаю стоит понять о какой части процесса разработки идёт речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса.

И статью, похоже, тоже Клод писал 😀

такой себе повод для гордости, ты не пишешь тексты с ИИ - судя по этой статье, ИИ пишет тебе тексты, а ты даже правок никаких не вносишь

и очень ошибочно не вносишь, нейрослопом воняет хуже курсача не очень сообразительного второкурсника

тут или кардинально пересматривать подход к написанию статей (начать их писать) или прекращать засирать интернет этим гoвнoм, занимайся-ка ты лучше автоматизацией своих сотрудников (и начать стоит с себя, самое легкое будет скорее всего)

эмельян, прости!

Я так понял статью никто не прочитал.

Во всей статье был бы интересен только один момент, но его нет:

Сколько в год тратилось на "QA Лену" и сколько тратится на выполнение этой же работы при помощи кучи ИИ?

я бы посмотрел на экономику процесса

Кожаные недовольны xD

Мы решили, что платить за «прокликивание» дашбордов в 2026 году — это грех

Платить за работу хомо это грех, это вот настоящий ящер в плохом смысле этого слова

Ну когда айтишники автоматизировали всё вокруг, лишая людей работы и заработка, грехом это тогда не являлось. А когда автоматизация и до них добралась, то "ааа спасите памагите!!!".

Мой пост был гораздо шире чем одна отрасль

Лена ушла работать альтушкой на госуслугах

Всё было бы не так смешно, но реально может уйти на Онлифанс. От безысходности.

Долгосрочные социальные последствия всех этих автоматизаций сильно недооцениваются. Типа главное что в моменте кто-то урвал-сэкономил, а после нас хоть потоп.

Поэтому был изобретен коммунизм. Я за.

Спасибо, что предупредили, буду знать, чьих продуктов избегать)

Если стартап не экономит деньги инвесторов - не будет никаких продуктов. И работы.

Экономия должна быть разумной.

Это и есть разумная экономия. Вместо долгого прокликивания вручную тестерами с поправкой на их человеческие ошибки мы получаем фидбек об ошибках, с которыми могут столкнуться наши пользователи через несколько минут. Это повышение качества нашего продукта для конечных пользователей и забота о деньгах, которые нам дают инвесторы на развитие.

А ещё получаете кучу галюцинаций и нерациональных предложений об улучшениях, то есть качество не сильно-то повышается. Уже многие компании ввели ИИ-разработку, но что-то повышения качества продуктов не наблюдается, только новые баги. Вот у вас, кто будет отлавливать галюны? Если в обучающей выборке ИИ не было ничего похожего, то хоть как составь промпт – он просто не знает в чём проблема и будет предлагать одно и то же в попытке починить, то есть вы будете тупо сжигать токены на ровном месте и без результата.

Это ваша гипотеза о наших результатах? Не стоит делать утверждения исключительно на гипотезах. Надо их подтверждать. Например, запустить ручное тестирование и тестирование с AI ботом и сравнить результаты.

Вы видимо абсолютно не поняли о чём речь. Это не замена разработки и не замена программных тестов. Это просто имитиация пользовательского поведения, которая сама по себе не вносит изменений, а просто создаёт баг-репорты для проверки и фикса. Галлюцинаций пока не наблюдается, а вот с галлюцинациями людей, называемыми человеческими ошибками, мы наблюдали неоднократно.

Оперируем чем можем, ведь вы это сравнение тоже не предоставили. И правильно вам выше написали, что сравнивать человеческий фактор и галлюцинации модели – это сильно. Хороший спец и так нашёл бы упомянутый вами пропущенный фильтр в БД, так что вопрос ещё и к квалификации человека. Судя по рассуждениям об экономии, это мог быть и студент, работающий за доширак))

Да. Это был студент, работающий за доширак, $25 в час. Поэтому между выбором увеличивать стоимость, чтобы получить лучший результат или уменьшать стоимость, чтобы получить лучший результат — мы выбрали второе. Я оцениваю галлюцинации ИксИн и человека исключительно финансово и принимаю решение. Можете поделиться как вы это делаете в своём бизнесе?

Вот у вас текст комментариев совершенно другой по стилю, более человеческий. Если все ваши комментарии соеденить, то получится статья без маркетинговых оборотов, ключевых слов и т.д.

Большую часть статьи писал наш CTO на английском и это было скорее просто техническое перечисление шагов, поэтому, конечно, мой язык сильно отличается, можно посмотреть по другим статьям.

Выбрали ошибки ии , а не ошибки человека. Судя по статье в результате вышел Лев Толстой, а на деле мы знаем че ))

Ну, когда ии наплодит вам кучу багов - не бегите за Леной и не просите её вернуться и разгребать то, что вы наоптимизировали)

Вы же понимаете функционал QA тестирования и что там не ведется разработка? AI также ограничен в правах, как и QA тестер.

Звучит как будто вы в 1619-1865гг. 😂

Так ведь на разработке свет клином не сошелся. Вы же не думаете, что кроме разработки, больше ничего не может вам сломать продукт, команду и процессы? Как пример, сотен этак 5 нагаллюцинированных баг-репортов в трекере.

Хотя, понятно, что для генерального кабанчика проще дропнуть базу трекера и притвориться, что проблемы нет.

Я не могу понять откуда такие гипотезы? Собственный опыт?

На Qwen32b Поедет такая лена?

Надоело закидывать баксы этим всяким клодам. Подумывается собирать мини серваки с тремя rtx4090 или даже двумя.

Чтобы экономия была реально разумной. А то иной раз за день прожигает 500 баксов. Чтоб я ещё раз этого краба запустил, клешню ему в брюхо.

Вот и думается, в месяц тратишь 3000 баксов на клода. Может тупо собрать сервак себе на эти бабки.

Я думаю что заменять ручной труд на машинный надо покупками машин, а не подписок в где то там. Ну снял офис, вместо людей наставил системники. Ноутбуки распродал, которыми люди пользовались, часть направил на мини серваки. И вот - заменился труд рутинный.

А клоды шмоды эти сегодня 20 баксов, потом 40. Потом у них суперакции и ещё впн этот проплачивай. А РФ чебурнетиться останавливаться не планирует. Отрезаться хочет от интернета глобального.

Как промежуточный вариант - может, попробовать использовать китайские модели? Они в 5-10 раз дешевле этих вот клодов ненасытных. Потестить штук пять топовых китайских, например через API openrouter, а потом купить подписку прямо на китайских сайтах, там прямо интересные варианты есть, например

https://platform.minimax.io/subscribe/token-plan

Свой сервак на 4090 (или ещё можно на 3090, если экономить:) это хорошая штука, но там у вас могут крутиться модели средней тяжести или жёстко квантизованные тяжёлые модели.

Спасибо за статью!

Я сейчас пробую автоматизировать анализ заявок в нашей компании и в вашей статье увидел потенциал для следующего проекта.

У меня несколько вопросов по статье, если можно.

Сессионная память: Куки выживают после перезапуска

  1. У вас нет картинки высокоуровневого дизайна вашего решения, чтобы понять, как это работает в CI?

  2. Сколько раз в день у вас запускается CI и сколько это стоит? Хочу понять бюджет.

  3. Вы не пытались написать плагин для Claude Code, возможно это вышло бы дешевле? Или это решение уже не запустить автономно а CI?

Здравствуйте, выглядит, как революция, как и писал Уиттакер. А вы отслеживание область тестового покрытия ботом? Я имею в виду перечень тестов, которые проводит бот или только по багам ориентируетесь?

Человеческое тестирование управляемо через связку домен+ требования+ реализация+ тесты, а как с ИИ тестированием? Очень интересно, чем оно управляется и управляется ли.. или становится черным ящиком, что найдет то найдет

После Лены следующие на выход - команда разработки Алекс и Денис, а потом владельцы ИИ решат, что получатель денег Аркадий Аркадьевич тут тоже совершенно лишний, все и так на их серверах крутится

Чтобы гонять тесты на БОЕВОЙ бд, нужно быть безнадежным оптимистом.

Один запрос агента вида "alter database..", который угробит данные, и вся "экономия" выйдет боком. Я не увидел в описании схемы работы, что жёстко написанными скриптами( которые не меняются ) поднимается копия БД, и на ней уже агент / QA сотрудник воспроизводит ошибку, и экспериментирует с БД.

В целом, подход разумный, в качестве метода дополнительного контроля ( ну и QA специалист часть времени занимается настройкой QA агента ). Но, все же, IMHO, агенту ( равно как и живому сотруднику уровня junior ) давать лазить в боевую БД не стоит. Вот работать с копией БД ( которую, если угробит, то не особо жалко) вполне можно доверить.

Раньше просто читал ресурс, но сейчас загорелось кресло, поэтому даже решил зарегаться.

Где-то прочитал интересную мысль - к ИИ надо относиться как к стажеру, которому доверили рутинные тесты, и у которого нужно стоять за спиной и смотреть, не накосячил ли он. Если да - то проводить "вычитку" его косяков и вносить правки.

Тестирование - это не тупо регресс на деве, это ещё и тест-дизайн, и тест-менеджмент и взаимодействие с командой - разрабы, аналитики, PM, PO и т.д.

Если ты не понимаешь сути и роли тестирования и обеспечения качества - мне тебя искренне жаль. Хотя, возможно, и не очен искренне :)

Желаю твоему стартапу (jonah_jameson_laughing_meme.gif) всего наилучшего ;)

У вас очень короткая статья, поэтому я решил просто ее прочитать от начала до конца. Я думаю, до вас не дошло, что на этой фразе вы проиграли любую дискуссию:

Customer-Triggered QA: Если клиент жалуется на баг, система автоматом логинится в его контекст, воспроизводит сценарий, лезет в его данные в БД и кидает готовый диагноз прямо в Jira-тикет. От тикета до Root Cause — минуты.

Это ошибка "между стулом и клавиатурой", - плевок в душу каждому, кто посвятил свою карьеру чему-угодно в продакшене, хвастовство которым вызывает недоумение.

Хабровчане справедливо рассудили, что RankCaster относится к проектам, которые вытянули деньги из людей, не понимающих насколько некомпетентна команда проекта, а потому не вызывает желания дискутировать предметно.

Вижу, что фраза про "логин в контекст" прозвучала двусмысленно и напугала тех, кто заботится о безопасности (и правильно сделала).

Хочу прояснить: мы не камикадзе. Агент работает исключительно в песочнице. "Контекст клиента" для нас — это конфигурационный JSON с параметрами среды, а не сессия живого юзера. Мы эмулируем проблему на синтетических данных, чтобы не дергать разработчика на рутинный дебаг. Никакого доступа к персональным данным у AI нет и не будет. У агента Read-Only доступ только к техническим таблицам. Он не видит паролей, имен или карт — он сверяет данные, например APR.

Я никакого отношения к автору не имею, просто хочу поинтересоваться.

Не поймите меня неправильно, но у нас в команде реально много задач и хотелось бы свою работу хоть как-то упростить/облегчить.

система автоматом логинится в его (пользователя) контекст

Я правильно понимаю, что это единственная претензия и что по-уму нужно на Staging склонировать/создать аккаунт с теми же самыми настройками/правами доступа?

Человеку или обычному E2E-тесту такая связка недоступна.

Нужна пояснительная бригада или это трындёж и нейрослоп?

А потом мы видим плохо работающий г**но-продукт, потому что AI тоже делает ошибки и упускает многие ньюансы. Надеюсь, ни один человек от "продукта" автора не пострадал

ни один человек [...] не пострадал

Я сталкивался с людьми, чей стиль мышления похож на автора статьи. В таких продуктах пользователи пострадывают по умолчанию. Они и тестировщики, и сами себе техподдержка.

Я ежедневно пользуюсь agent-browser - отличный инструмент! И по этому я с уверенностью могу сказать что это брехня полная:

Время регрессии: Снизилось с 48 часов работы команды до 10–40 минут автономной работы агента.

Агент на каждое действие тратит около 10-20 секунд, когда человеку то же самое протыкать - пара секунд.

Ускорение всей регрессии в сто раз при замедлении каждого отдельного теста в десять раз, возможно только за счёт уменьшения количества и качества кейсов. Я ни за что не поверю, что вы смогли организовать параллелизацию на тысячу одновременных агентов.

Так что по итогу вы просто плохо делаете регресс. Ухудшили качество в угоду скорости и стоимости.

Sign up to leave a comment.

Articles