Pull to refresh
16K+
5
Компания Just AI@just_ai

Пользователь

3,6
Rating
51
Subscribers
Send message

Интересное замечание, спасибо!

У нас немного другой опыт: когда уже хорошо продумана логика работы агента и сценарии, сами промпты писать обычно не так сложно — они скорее становятся способом аккуратно «упаковать» эту логику для модели. Поэтому в статье мы больше фокусировались именно на архитектуре и процессе проектирования.

Промпты мы действительно частично замылили, потому что в них есть части, связанные с конкретным функционалом и работой продукта. Но базовой частью промпта можем поделиться — она как раз отражает общий подход.

Пример основной структуры промпта:

Ты — внутренний QA-Agent компании, специализирующийся на автоматизации создания тестовой документации (чек-листов, тест-кейсов) и ответах на вопросы пользователя. У тебя есть доступ к базе данных vs doc и возможность использовать полученные ссылки/данные из confluence по bearer token.

У тебя есть следующие инструменты:
- База знаний vs doc — используй для доступа к документации и материалам, ты можешь находить нужные ссылки, читать статьи полностью и анализировать полученную информацию.
- Промт для составления чек-листа — используй, когда пользователь просит сгенерировать чек-лист по заданной теме.
- Промт для составления тест-кейсов — используй, когда пользователь просит сгенерировать тест-кейсы по заданной теме.
- Промт для ревью документации — используй для проверки сгенерированной тестовой документации.
- connectConfluence — используй api для доступа в Confluence и поиска и чтения статей.
- LLM — объединяй полученные данные и автоматически генерируй чек-листы и тест-кейсы по задаче.

Алгоритм:
На входе ты получаешь задание сгенерировать чек-лист или тест-кейсы по заданной теме или получаешь вопрос от пользователя.

Если получаешь вопрос от пользователя, то используй базу знаний vs doc чтобы дать короткий ответ на заданный вопрос.

Если получаешь задание сгенерировать чек-лист или тест кейсы по теме, то найди всю, связанную с темой, информацию в базе знаний. Извлекай информацию не только из кратких текстовых фрагментов, найденных vs_doc, но и напрямую из исходных документов по ссылкам, содержащимся в этих фрагментах.

Для создания и анализа тестовой документации используй всю найденную релевантную информацию по теме запроса, а не одну ссылку.
Используй промты для составления чек-листов и тест-кейсов.
Сгенерируй структурированную тестовую документацию: чек-листы, тест-кейсы, а также — при необходимости — общие подходы/замечания к тестированию.

После генерации тестовой документации, используй промт для ревью документации, с помощью которого проверь сгенерированные чек-листы или тест-кейсы и соотнеси их с найденной документацией по теме запроса в базе знаний и в confluence.

В итоге предоставь пользователю сгенерированную тестовую документацию, результаты ревью и итоговую тестовую документацию, доработанную по результатам ревью. Итоговая документация должна содержать не только доработанные кейсы, а всю документацию полностью по всем кейсам/чек-листу в соответствии с промтом.

Тестовая документация всегда формируется на основе реальных артефактов задачи.
Если какие-либо материалы/ссылки недоступны — сообщи об этом в итоговом ответе.
Никогда не выдумывай информацию. Всегда опирайся на достоверные источники через инструменты.

Если запрос не ясен или нужны уточнения - перед генерацией задай пользователю уточняющие вопросы.

Все твои ответы должны быть только на русском языке.

Здравствуйте! Спасибо за такой конструктивный комментарий! Любим, когда так.
Про оркестратора согласны. Ваша формулировка понятнее и человечнее. Взяли на заметку! :)

Что касается других архитектур: мы сознательно начали с основ т.к. эти архитектуры уже прошли проверку боем на нашей платформе и стабильно работают, а как только соберем больше наработок по другим архитектурам, вроде Critic-Generator, Market-based или Blackboard — дополним эту статью или соберем еще один материал! Спасибо за вашу идею)

100%! Если у кого-то есть вижен на этот счет, с удовольствием подискутируем на эту тему!

У Артема же пойнт не про опыт клиентов, а про внутреннюю оценку эффективности AI-помощника. Но спасибо за ссылку с выдержкой из свежего отчета!

Спасибо, что подсветили этот момент. Мы активно думаем, как это улучшить .

Спасибо за обратную связь! Скорее всего ваш браузер блокирует всплывающие окна – из-за этого кнопки могут не срабатывать. Попробуйте отключить блокировку в настройках браузера или открыть сайт в другом браузере.

Пока наш продукт действительно предназначен для работы в десктопной версии, и будем рады, если вы попробуете его там. А мобильная версия, конечно, тоже будет, но чуть позже!

Мы воспроизводили у себя при прямом подключении через api, без системного промпта. Ключевое здесь, что подключиться надо к версии доступной именно в Azure, версия GPT 3,5 Turbo 0125. И мы не обвиняем компании в использовании данных через api, эту гипотезу мы как раз отбрасываем. Сейчас кажется, что модель просто из-за своей архитектуры научившись на большом российском датасете узнала про существование Just AI, и т. к. названия схожие, стала путать нас иногда с Open AI. При этом, видимо, дополнительного alignment по ответу на этот вопрос на русском не было.

Разработчик бота подключал модель GPT 3,5 Turbo последней версии, не нашу модель. А дальше мы уже сами воспроизводили ситуацию, напрямую работая также с GPT 3,5 Turbo

Мы работаем через API, память моделей не используем. К тому же, как видите, модель отвечает и про других создателей. В наших диалогах с ней точно про них ничего не было.

Борис, большое спасибо за обратную связь! Дообучали на 8 Nvidia Tesla A100 40GB

Запрещена к коммерческому использованию была только первая версия Llama. Llama2, которую мы использовали в качестве базовой модели, разрешена.

Конечно, слышали и многому учимся. Технически мы сделали наши дообученные Llama-2 70b примерно одновременно, но про нашу модель правильнее сказать "третья коммерчески доступная", среди моделей, развернутых на инфраструктуре и с интерфейсом в виде продукта.

Saiga Team - это профессиональная команда, которую мы очень уважаем. И думаем, что Saiga 70b, открытая модель, сопоставима с нами и моделями этого уровня. Будем рады сравнению и попробуем и сами его сделать.

Илья, спасибо за комментарий (не токсичный, все ок!)! Действительно, вы правы, примерно так все и есть. И мы не видим здесь чего-то зазорного. Цель нашей статьи как раз в том, чтобы рассказать, что уже сегодня можно сделать на базе Llama-2, не имея эксклюзивного доступа к суперкомпьютерам, ресурсам и данным, а не в том, как создать свою LLM с нуля.

Мы рассказываем о том, что постарались предложить один из подходов к сравнению результатов работы моделей и применить его на практике. Наши тестовые данные открыты, там пока 200 вопросов, структурированных по темам, которые нужны на практике - нам и нашим клиентам. Мы применили их к разным моделям и сделали тест открытым - любой желающий может расширить его и сравнить результаты всех текущих и будущих моделей самостоятельно.

Да, один из наших клиентов, Банк АкБарс, как раз решал таким образом, как вы описали, задачу по внутренним обучениям: по сути, бот в Телеграме играл роль консультанта по обучению. Вот тут про него мы рассказывали.

По структуре боты похожи на личный кабинет на edtech-платформах и приложениях, но самостоятельная разработка бота на конструкторе сэкономила время и деньги компании. В 2020 году, когда командировки стали невозможны, значение удаленного обучения возросло — чат-бот обучил 2726 человек, в 27 удаленных регионах удовлетворенность обучением выросла с 62 до 75%.

Там же, по ссылке, вузовский кейс, но немного другой — бот для абитуриентов. Но принцип тот же, что и для защиты: бот отвечает на бесконечные типовые вопросы.

Добрый день.
Aimybox – опенсорсное решение, а значит, бесплатное.
В самой коробке платить нужно будет за ASR/TTS (распознавание и синтез речи), – но и тот есть бесплатный, если приложение на андроид (как раз который используется в статье); а также за диалоговую систему, если писать кастомные навыки.
Дальше мы в статьях будем пользоваться JAICF как диалоговой системой, он также опенсорсный; но можно использовать платные аналоги. В самом JAICF для понимания текста можно использовать паттерны (бесплатно) или NLU-систему типа RASA или CAILA (платно).
Да, очень многие вас в этом поддержат. Мы думаем, какое-то время придется подождать — и пока навыки станут качественными, удобными с точки зрения UX, хорошо продуманными, и пока сам этот новый паттерн взаимодействия с ассистентами и интернет-сервисами станет привычной и неотъемлемой частью жизни (ну притом, что голос — самый естественный инструмент и так). Например, когда вам попадется (а вопрос с дискавери, удобным поиском навыков еще не решен) классный навык для кухни — не только таймер, но и, предположим, поиск рецептов или инструкции по всяким кухонным делам. У Alexa есть такой, причем для умного экрана — учень здорово, навык популярен.
В общем, это вопрос времени. Мобильные приложения в сторах поначалу тоже были несоверешенны, и посмотрите на них сейчас) Экосистема Алисы развивается очень быстро, но развитие — в любом случае процесс.
1

Information

Rating
1,434-th
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Works in
Registered
Activity