Red Teaming LLM-агентов: методы, автоматизация, кейсы
CEO Doubletapp Сергей Анчутин выступил на Студкемпе в Уральском федеральном университете с докладом.
LLM всё активнее работают в бизнесе — и каждая ошибка грозит потерей денег и репутации. Как избежать рисков?
Red Teaming — это процесс поиска уязвимостей в системе, когда команда экспертов играет роль хакеров и ищет слабые места. Цель — заранее выявить проблемы и защитить компанию от реальных инцидентов и их последствий.
В видео: - как масштабировать человеческие креативные возможности, чтобы находить реальные уязвимости LLM; - как работают пайплайны «LLM против LLM» и методы MART и DART; - почему автоматизация не всегда нужна и где ИИ проигрывает человеку; - когда остановится развитие нейросетей.
Doubletapp — ML-эксперты с 2018 года. Мы помогаем клиентам внедрять ИИ так, чтобы он приносил выгоду их бизнесу, и специализируемся на внедрении и обучении LLM и RAG-систем.
Что делаем: - экспертные датасеты - обучаем LLM под задачи клиента - проводим аудит и консалтинг ИИ-продуктов - разрабатываем кастомные ML-решения.
И как это экономит ресурсы, улучшает продукт и снижает количество переделок
Одна из ключевых проблем, с которыми сталкиваются компании, заказывающие разработку — это разрыв между ожиданиями и реальностью. Причины бывают разные: неполное или неструктурированное ТЗ, размытые пользовательские сценарии, неучтённые роли или ветвления логики, которые всплывают на стадии разработки и тестирования.
Команда Doubletapp приняла решение: QA подключаются к проекту на этапе первого ознакомления с ТЗ от заказчика, ещё до оценки, дизайна и начала разработки. Этот подход сильно влияет на качество итогового продукта и помогает заказчику получить то, что действительно нужно — без множества итераций «переделать» и «добавить, потому что забыли».
Ниже расскажем, как у нас выстроен процесс, какие задачи берут на себя QA, и почему мы считаем, что раннее подключение тестирования — это не просто хорошая практика, а основа устойчивой разработки.
Роль QA в нашей команде: не только тестирование
Наши QA участвуют в проекте с первых дней.
Структурируют поступившее от заказчика ТЗ
Выделяют функциональные блоки
Формируют уточняющие вопросы
Работают над схемами и диаграммами логики
Проверяют, насколько требования реализуемы и согласованы между собой.
Наша задача на этом этапе — перевести бизнес-язык заказчика на язык разработки и одновременно выловить противоречия и пустые места в логике до того, как они станут багами.
QA плотно взаимодействуют с селлерами и лидами разработки и помогают им формализовать требования. Это снижает нагрузку на менеджеров и ускоряет проработку проекта.
Как это работает на практике
Заказчик приходит с ТЗ. Оно может быть подробным, а может состоять из тезисов, что хотелось бы реализовать в продукте.
QA разбивают информацию на структурные блоки — экраны, роли, сценарии, ограничения, точки перехода.
Составляют вопросы, которые передаются в команду, ответственную за коммуникацию с заказчиком.
Параллельно разработчики начинают верхнеуровневую оценку трудозатрат. Они тоже собирают вопросы, если логика не до конца ясна.
Все вопросы объединяются, уточняются и через менеджеров идут в диалог с заказчиком.
Такой процесс позволяет уточнить максимум информации до старта разработки и значительно уменьшает риск изменения требований на лету.
Когда это спасло проект
Один из проектов, с которым мы работали, сопровождался очень подробным бизнес-ТЗ — документ содержал более 70 страниц описания сервиса. Всё выглядело детально и проработанно.
Однако при формировании схемы ролей и доступов наши QA обнаружили логические противоречия: несколько ролей получали доступ к функциям, к которым не должны были иметь отношения. Это было связано с тем, что в тексте документа не было визуального представления логики переходов, и ошибки остались незамеченными.
На этом этапе проблема была решена за один день — без этой работы её бы пришлось исправлять на этапе тестирования, переделывая часть кода и логику авторизации.
Внутренние процессы: как это устроено
Мы работаем по agile: QA входят в спринты наравне с разработкой. Внутри спринта QA выполняют не только тестирование, но и работу, близкую к системной аналитике: анализ, структурирование, детализация, согласование требований, построение логики.
Тест-кейсы и баг-репорты ведём в YouTrack и Qase, используем CI/CD, чтобы как можно раньше получать обратную связь по стабильности продукта.
Зачем это заказчику
Когда QA работают с самого начала, заказчик получает
Прозрачную архитектуру с понятной логикой
Согласованные требования, переведённые в схемы
Минимум доработок в процессе разработки
Экономию времени — на исправление неочевидных ошибок
Повышенное доверие команды к требованиям — все понимают, что делают и зачем
Если вы находитесь в поиске команды, которая помогает не просто писать код, а проектирует продукт вместе с вами, задаёт неудобные вопросы до начала разработки и экономит вам месяцы правок — значит, вам нужен именно такой подход.
У наших друзей и партнеров участились случаи мошенничества. Расскажем об одной из новых схем. Может быть, вы уже сталкивались с подобной историей? Напишите в комментариях о своем опыте.
Сейчас мошенники работают по такой схеме: • Вам пишет якобы рекрутер от лица Doubletapp и приглашает на собеседование. • «Рекрутер» предлагает пройти тестирование, а для этого нужно войти в «корпоративный iCloud» • Соискатель вводит свои данные, злоумышленники получают доступ к его аккаунту и начинают шантажировать и вымогать деньги.
Как вычислить мошенника, если он представляется «рекрутером от Doubletapp»?Обратите внимание на 6 признаков:
Мы никогда не просим логиниться в iCloud, Google, Telegram-ботов или другие «корпоративные сервисы» для выполнения тестового задания. Все задания мы отправляем в нормальном формате: PDF, Figma, GitHub, Google Docs.
Мы не просим установить никакие приложения, расширения, VPN и т.п. для прохождения отбора.
Всю переписку мы ведем либо с корпоративной почты @doubletapp.ai, либо через официальные Telegram-аккаунты. Контакт рекрутера Doubletapp: @zhdanova_doubletapp
Имена наших рекрутеров и сотрудников есть в открытом доступе наХабр Карьере. Сомневаетесь — проверьте.
Никаких оплат «обучения», «оформления», «гарантийных депозитов» — никогда. Если просят заплатить за что-либо — это 100% мошенники.
Если вас приглашают на собеседование, но вы сомневаетесь, что это наш сотрудник, отправьте письмо на hr@doubletapp.ai с пометкой «мошенники», и мы вместе разберемся.
Вебинар, вебинар и еще раз… круглый стол: апрельский дайджест Doubletapp
Привет, это команда Doubletapp. В апреле мы провели несколько вебинаров, опубликовали статьи и лекции — поделимся ссылками, расскажем новости. Под занавес — традиционные вакансии.
Что новенького?
Вебинар Doubletapp x Верфь: как построить эффективную IT-команду Заколлабились с HR-агентством Верфь и провели совместный вебинар, где обсудили тонкости найма, собеседования за рулем, совпадение темпераментов и ценностей у соискателя и команды, как проводить тимбилдинг для удаленных сотрудников и множество других HR-тем. Полезным опытом и забавными историями поделились СЕО Doubletapp Сергей Анчутин и СЕО Верфь Дарья Алхимова. Смотреть вебинар.
Вебинар Doubletapp х pmclub: как мы внедряли методологию P3.express PM Head Руслан рассказал о нашем опыте перехода на методологию P3.express. Легко ли перестроить процессы и сколько времени это занимает? Как команда отнеслась к нововведениям — смотрите в записи вебинара. Смотреть вебинар.
Гастроли СЕО СЕО Doubletapp Сергей Анчутин отправился в деловой тур по США, Бразилии и Турции. Сергей рассказывает о своих впечатлениях в соцсетях и приглашает познакомиться и пообщаться. Где его можно поймать и о чем поговорить — читайте в телеграм-канале «Всем привет это Серега».
Собрали SOLD OUT на IT-конференции DUMP 2025 CTO Doubletapp Никита Анчутин провел круглый стол «Как собрать управленческую команду». Это наш пятый круглый стол на DUMP, и к нам пришли спикеры, чей коллективный опыт управления превышает 35 лет: Андрей Смирнов (X5 Tech, IPONWEB, Rambler), Стас Жуковский (Technology Adoption, Yandex) и Сергей Бердников (Koronatech). Вместе со зрителями на примерах из практики осудили, где брать руководителей, как их развивать и измерять эффективность работы, а также в какие моменты увольнение управленца становится необходимостью. Запись круглого стола скоро опубликуем на YouTube-канале Doubletapp.
Ruward Award 2025 Вместе с продюсерским центром «ЛАД», который проводит в Екб Ural Music Night, Красную строку, New/Open и кучу других крутых ивентов, мы получили главную награду в номинации «Заказчик года». Делимся фото и поздравляем всех, кто также ушел с церемонии с заветными статуэтками!
Получили товарный знак Doubletapp …поэтому нам теперь не страшны патентные тролли, мы имеем право зарабатывать на своем товарном знаке, а также вести рекламу в любом СМИ. Подробнее о пользе товарного знака и как его получить расскажем в отдельной публикации, следите за новостями в блоге.
Что по контенту?
В тестировщики пойду, пусть меня научат Задали нашим QA-инженерам самые очевидные вопросы про вход в IT через тестирование. Терпеливые инженеры не только рассказали, как они сами делали первые шаги в профессии, но и поделились лайфхаками — что почитать и посмотреть, как попасть на собеседование, о чем там спрашивают и что лучше отвечать, как завести полезные знакомства и удастся ли заработать 300К в час. Планируете сами поменять профессию или замучились отвечать знакомым на одни и те же вопросы — юзайте наш гайд.
Как мы собираем SWE-bench на других языках ИИ-разработчики все активнее заменяют джунов и мидлов. С одной стороны, они не берут больничных и не уходят в отпуск. А с другой — всегда ли качество их работы безупречно, как его проверить? Мы создали инструмент для оценки цифровых помощников и рассказали в статье, как его применять и кому он может быть полезен.
Обновили бесплатный курс по разработке на YouTube-канале Все лекции курсов по Андроид- и Backend-разработке мы публикуем в открытом доступе абсолютно бесплатно. В апреле выложили 2 новые лекции для Андроид-курса с домашними заданиями.
В IT-отрасли многие компании привлекают внешних специалистов или отправляют своих сотрудников на аутстаф. Чтобы разобраться в этом формате, мы поговорили с руководителем аутстаф-направления Doubletapp и сотрудниками, которые работают в этом режиме.
Обсудили ключевые вопросы и подготовили серию постов, где подробно разобрали:
Как готовят специалистов к работе?
Чем аутстаффер лучше штатного сотрудника?
Есть ли различия в процессах, когда работаешь в корпорации или стартапе?
Какая польза разработчику от аутстаффинга?
С какими проблемами сталкиваются аутстаферы?
Зачем компании нанимают аутстаферов?
Опыт эксперта
Данил Миронов, руководитель бэкенд-направления Doubletapp, поделился своим опытом работы в зарубежных бигтехах и рассказал, как он помогает своим сотрудникам готовиться к собеседованиям и работать на аутстафе с удовольствием и отдачей.
Из видео вы узнаете:
Как давать реалистичные оценки и не сдвигать дедлайны?
Почему алгоритмы решают твое будущее в аутстафе?
Как влиться в команду и сразу начать решать задачи?
Январь в Doubletapp: удаление YouTube, статьи, курсы и вакансии
На связи Doubletapp, и в январском дайджесте расскажем, что у нас случилось и что делать, чтобы этого не случилось у вас. Главная жесть месяца – мы остались без подкаста ЧТНП и пласта истории компании за 5 лет! Потому что заблокировали наш YouTube-канал, где хранилось все. Это было неожиданно, без страйков и видимых причин. Рассказали в посте подробности истории — читайте, как не попасть в такую же ситуацию. О том, как мы будем дальше развивать свои видеоканалы (а мы будем!), расскажем ниже.
На Хабре опубликовали статью, в которой рассказали, как автоматизация ручного труда по верификации данных сэкономила время и деньги нашему клиенту. Читайте и обращайтесь к нам, мы вам тоже поможем сэкономить.
Тестирование Если вы давно планируете войти в IT через тестирование, но думаете, что у вас не получится, то читайте скорее статью Марии Горбуновой о ее опыте и берите на вооружение практические советы.
Фронтенд Мы давно работаем по собственному гайдлайну для создания архитектуры фронтенд-приложений. Рассказали об этом в статье на Хабре и вызвали горячее обсуждение! Читайте статью и присоединяйтесь к одной из сторон.
Повышение личной эффективности Бэкенд-разработчик Дмитрий Васильев никогда ничего не забывает. Для этого он использует автоматизированную систему, основанную на методике интервальных повторений. В статье он рассказал и о методике, и о способе автоматизации, и о плюсах/минусах решения. Не забудьте прочитать.
Бизнес и управление В блоге на сайте Doubletapp опубликовали интервью с Вадимом Митякиным — автором книги «Метод параноика», проджект-раннером и разработчиком оригинальной методики продуктовой разработки, основанной на методах кинематографа. Читайте, как создать успешный IT-продукт.
Выпустили статью на основе интервью с Григорием Бакуновым (Bobuk). Читайте, что думает наш гость про удаленку и офис, вторую (и третью) работу, а также миссию программистов по спасению мира.
Александр Науменко занимается менторингом, разрабатывает продукты на основе ИИ и вырастил годовой оборот своей компании до 500 миллионов. Читайте, как у него это получается.
Фаундер JetStyle Алексей Кулаков хорошо разбирается в том, как продавать заказную разработку в России и за рубежом и как сделать нетворкинг эффективным. Делимся в статье только работающими лайфхаками.
ЧТО НОВЕНЬКОГО?
Как рассказывали выше, наш старый YouTube-канал закрылся. И мы открыли два новых: • Даблтап youtube.com/@doubletapp_ai — смотрите здесь новости компании Doubletapp • ЧТНП youtube.com/@chtnp_podcast — ищите здесь старые и новые выпуски подкаста. Подписывайтесь, нам как никогда нужна ваша поддержка!
• Начали подготовку к фестивалю Ural Music Night, который пройдет в июне. Восьмой год подряд мы поддерживаем и совершенствуем IT-инфраструктуру мероприятия, сейчас мы обновляем веб-страницы и вносим изменения в анкеты CRM-системы.
Опубликовали видео с Digital Tour 2024: мы посетили три екатеринбургских корпорации с мощной IT-составляющей — Контур, Жизньмарт и Галамарт. • Контур: о масштабировании системы управления YouTube/ VK • Жизньмарт – история развития франшизы YouTube/ VK • Галамарт про автоматизацию работы 500 магазинов YouTube/ VK
Организовали Digital Party в Лиссабоне в рамках Web Summit совместно с Tagline. Узнать подробности.
Развиваем корпоративную CRM DTIS, которая заняла II место на CrossConf. Добавили автоматизацию для финотдела и инструменты для PM.
Запустили собственную игру в Telegram Mini Apps — Doubletapalka. Играйте и выигрывайте фирменный мерч, итоги розыгрыша подведем 20 декабря. Узнать больше о призах.
SouthHub CEO Сергей Анчутин и его заместитель Ксения Кондратова съездили на South Hubи записали с топами рынка несколько подкастов. Ждите новые выпуски ЧТНП.
IT-Регата CEO Сергей Анчутин, Ксения Кондратова и руководитель производства Федор Горбунов отправились на IT-Регату. Впечатления Федора — в видео
Контент Выпустили подкаст о ситуации на тревел-рынке с Кириллом Антошиным. Смотрите, слушайте и читайте.
Смотрите ЧТНП с DevRel Evrone Григорием Петровым — о нейрофизиологии, продажах и развитии личной эффективности: видео, аудио, текст.
Майский дайджест Doubletapp: самое вкусное вино и топ-20 в мобилке
Читайте о том, что произошло в команде и с командой Doubletapp в мае.
Выпустили подкаст ЧТНП с CIO Simple Петром Асратяном о работе руководителя, психологических тестах, менталитете, выборе вина и других занимательных вещах. Смотрите и слушайте.
Опубликовали на YouTube-канале инструкцию Сергея Анчутина о том, как быстро стать программистом, смотрите гайд для начинающих.
Написали статью про то, как мы поэтапно создаем анимационные ролики и сколько времени нужно на каждую стадию. Читайте, сравнивайте процессы, показывайте заказчикам, когда объясняете, как устроено производство.
Рейтинги Tagline 31 мая СEO Doubletapp Сергей Анчутин и руководитель образовательных программ Ксения Кондратова посетили церемонию оглашения обновленных рейтингов Tagline за 2024 г. Подробности в видео.
Doubletapp занял: 18-е место среди разработчиков мобильных приложений 28-е место среди аутстаф-разработчиков 54-е место среди веб-разработчиков 56-е место среди студий digital-дизайна 77-е место среди веб-студий и digital-продакшнов России.
CodeFest iOS-разработчик Антон Захаров съездил на главную российскую конференцию для IT-специалистов. Его отзыв в дайджесте.
РИФ Сергей Анчутин и Ксения Кондратова продуктивно нетворкали на главном российском digital-ивенте.
Кирилл Антошин: как человек с богословским образованием создал компанию с годовым оборотом в 20 млн евро
В свежем выпуске подкаста Doubletapp «Что-то на программистском» встретились с фаундером и СЕО сервиса по прокату автомобилей Localrent Кириллом Антошиным. Поговорили о том, как на энтузиазме и личных инвестициях выросла компания, продвигающая услуги в 17 странах, как удается конкурировать с игроками рынка мирового уровня и нужно ли айтишное образование для того, чтобы руководить айтишниками.
Из беседы вы узнаете:
— Как устроен рынок аренды автомобилей и можно ли арендовать мотоцикл. — Зачем команда Booking’а предлагала локальным отельерам устанавливать в номерах перегородки. — Что будет, когда международные игроки тревел-индустрии вернутся на российский рынок. — Стоит ли получать высшее образование или достаточно ходить в бар возле университета. — Как распорядиться нечестным преимуществом.
«Что-то на программистском» (ЧТНП) — подкаст компании Doubletapp со спикерами из разработки, дизайна, машинного обучения, IT-образования и топ-менеджмента. Длинно, глубоко, фактурно.
Андрей Смирнов: аутстаф в X5 Tech, 150+ выпусков Frontend Weekend и бесконечные конференции
Гость этого выпуска ЧТНП – Андрей Смирнов, автор и ведущий подкаста @frontendweekend. Его часто видят на конференциях, где он рассказывает о пользе софт скиллов, а в промежутках между конференциями Андрей руководит управлением клиентской разработки в X5 Tech.
В подкасте обсудили:
— Как все устроено в X5 Tech: что разрабатывают, как растят джунов, почему выступают за аутстаф и против аутсорса? — Как выглядит рабочий день высокоуровневого руководителя в IT, какие карьерные перспективы и к чему стоит готовиться? — Как поддерживает экспертизу в программировании и есть ли в этом необходимость? — Frontend Weekend: история создания, монтаж роликов и выгорание. Будет ли видеоформат? — Сколько мероприятий Андрей посещает в год и не устает ли? Что за секретный чат гастролирующих спикеров?
«Что-то на программистском» (ЧТНП) — подкаст компании Doubletapp со спикерами из разработки, дизайна, машинного обучения, IT-образования и топ-менеджмента. Длинно, глубоко, фактурно.
Апрельский дайджест Doubletapp: 15 часов на DUMP и интервью Дурова
Рассказываем о событиях, которые произошли в команде и с командой Doubletapp в апреле. Кратко — в тексте, длинно — в видео.
Контент С помощью бота-расшифровщика превратили полуторачасовое интервью Павла Дурова Такеру Карлсону в пятиминутный ролик на YouTube.
Большие языковые модели при недостатке фактической информации склонны галлюцинировать. В статье на Хабре рассказываем, как построить систему RAG для LLM и справиться с проблемой.
Опубликовали статью о том, как создать для IT-конференции концепцию сайта, транслирующую основную идею ивента визуальными инструментами.
PR-отдел Doubletapp на DUMP снял 8 выпусков подкаста «Что-то на программистском» с лучшими спикерами конференции. Мы уже начали монтаж и опубликуем их на YouTube-канале Doubletapp.
QA-лид Дмитрий Башмаков посетил конференции Heisenbug и SQA Days.
Account-менеджер Александр Лищенко отметил на OUTSTAFF_CONF by Augment. доклад представителя Ак Барс Банка о критериях отбора подрядчиков и изменении политики в отношении их сотрудников.
Выпустили подкаст «Что-то на программистском» с гуру фронтенд-разработки и пропагандистом софт-скиллов Глебом Михеевым. Поговорили о развитии карьеры, бизнеса и его опыте в роли начинающего фронтендера, фаундера и СТО. В выпуске – гайд по нетворкингу на конференциях для джунов, мидлов и сеньоров: как начать диалог, о чем говорить и что делать на ивентах.
А еще мы готовимся к DUMP’у – крупнейшей IT-конференции на Урале. Проведем круглый стол на тему «Корпорации про аутсорс: боль или удовольствие?» и снимем несколько подкастов. Обо всем расскажем в постах на Хабр и в наших соцсетях. Подписывайтесь, если интересно.
Григорий Бакунов aka Bobuk — известная фигура в IT-сообществе. Мы побеседовали с IT-предпринимателем и бывшим топ-менеджером Яндекса об удаленке и совмещении работ, о будущем искусственного интеллекта и плохом аутсорсе.
Другие темы выпуска: — Почему, по мнению Bobuk'а, аутсорс не приносит пользу миру? (Really?) — Что наш гость делал в Яндексе? — IT-компании вредят российской системе образования? — В каком формате готов заходить в проекты и инвестировать? — Нейронные сети как продукт для малого бизнеса. — Строим идеальное государство по-айтишному.
Что-то на программистском (ЧТНП) — подкаст Doubletapp о разных сторонах IT.