Jlyu May 14 at 12:00

Prompt engineering — путь к эффективной работе с ChatGPT

16 min

8.9K

Конференции Олега Бунина (Онтико) corporate blogRaft corporate blogArtificial IntelligenceNatural Language Processing*

Привет, Хабр! Меня зовут Илья Козырёв, я — CTO и Co-Founder в Raft. Много работал в консалтинге в сфере ритейла и фармацевтики, имею экспертизу в обработке данных, специализируюсь на ML/AI. А ещё я — участник опенсорсного продукта по обработке данных Apache Beam.

В этой статье расскажу, как эффективно работать с ChatGPT в разных задачах и архитектуре. Многие пробовали, но не у всех получилось. Статья написана по мотивам моего доклада для конференции Highload.

Какие темы обсудим:

Поговорим о GPT;
Разберёмся, зачем нужны промпты;
Рассмотрим фреймворки для создания промптов;
Создадим ассистента архитектора.

Что такое GPT и что она умеет

GPT расшифровывается как generative pretrained transformers, поэтому сокращенно называть их будем «трансформеры». Они умеют предсказывать вероятность слова в тексте. ChatGPT лишь один из продуктов. И появился он не вчера, а в 2017 году. Первую модель представила компания Google и стало понятно, что это классная архитектура, на которой можно обучать эффективные вероятностные модели.

Сейчас технология бурно развивается, появилась даже новая профессия промпт-инженер. Многие считают, что это не профессия вовсе. Но это не меняет факта, что специалисты, которые умеют составлять промпты качественно, сейчас востребованы.

Трансформеры обучают на наборах данных. Поэтому когда вы пишете 2+2, модель внутри не считает результат, а знает, что чаще всего после 2+2 идёт 4. Аналогично складывается весь текст.

Первую версию GPT-1 почти никто не заметил. Технология была известна и обсуждаема лишь в Data-science сообществе. Модель умела предсказывать следующее слово. Например, если написать «гулять», она продолжит: «с собакой». Это было занятно, но новых продуктов на базе технологии тогда не появилось — слишком сложно было применять технологию на тот момент.

Потом появился GPT-2, на котором уже можно было делать прикольные вещи. Например, мы сделали генератор сказок. Сейчас такое можно легко сделать на ChatGPT, но раньше для этого нужно было постараться и собрать датасет. Один раз мы переборщили в выборке с братьями Гримм и получилась «сказка маленького маньяка» как на изображении ниже.

Но шумиха вокруг ChatGPT, что технология угрожает человечеству, возникла именно сейчас. Просто именно сейчас наконец произошёл переход от качества к количеству: модель стала покрывать большое количество кейсов, решать больше задач. Это подтолкнуло индустрию делать всё больше продуктов на основе технологии.

ChatGPT стал одним из продуктов, выпущенных на широкую аудиторию консьюмеров. Вот и произошёл бум.

Но ChatGPT на релизе — совсем не то же самое, что ChatGPT сейчас. Те, кто относятся к модели скептично, возможно как раз пробовали GPT на релизе модели 3,5, которая кратно меньше GPT-4. А ещё версия 3.5 мало чего умела. Сейчас ChatGPT — не текстовая, а мультимодальная модель, то есть она умеет и в картинки, и в запуск кода, и в браузеринг, а ещё у неё огромное окно контекста.

В прошлом году прошла конференция DevDave Open AI и так показали, что теперь окно контекста составляет 128 000 токенов. Если постараться, можно вместить в контекст «Войну и мир» целиком. Если перевести на английский и немного сжать, например, применив индексирование повторяющихся слов и векторизацию.

Сейчас ChatGPT открывает дорогу новым продуктам. А ещё использование подешевело и стало совсем классно. От появления первой версии ChatGPT до текущего момента технология развивается по экспоненте. При этом качество немного просело. Многие заметили, об этом даже есть исследования, что ChatGPT стал тупее. Но если им правильно пользоваться, это незаметно.

Почему промпты важны?

Prompt (далее — промпт) — это инструкция для модели. Без хорошего промпта не будет хорошего результата. Модель у нас вероятностная, поэтому, когда ей дают задачу сгенерировать код, она начинает искать в облаке своих вероятностей, что конкретно от неё хотят. Промптами мы эти вероятности сужаем, направляем модель именно в ту область знаний, которая нужна нам для получения результатов.

А ещё нам нужно контролировать поведение модели, особенно в последней версии. Ведь она мультимодальная. Если у неё попросить что-то сделать, она может начать запускать код на Python, даже если это вообще не к месту и мы просто хотим посмотреть результат в браузере. Это галлюцинация нейросети.

Галлюцинации – самое большое зло в ChatGPT. Если мы решим попросить ChatGPT решить архитектурную задачку, она может начать расписывать решение по пунктам максимально уверено, но на деле окажется, что это решение не работает. Это и называется галлюцинацией.

Просто так сложились вероятности, что сгенерировались именно эти слова. GPT решил, что это правильно, раз вероятности подходят под ответ. Но галлюцинации лечатся — эффективнее всего промптами, менее эффективно — с помощью fine-tuning. Хотя полностью от них не избавиться, 100% лекарства не существует.

Fine-tuning (Файнтюниг) переводится как тонкая донастройка модели. Это когда мы небольшим набором данных запускаем дообучение модели. Например, есть большая foundation-модель, которая обучена на тысяче видеокарт. Мы можем чуть-чуть её донастроить и составить несколько пар вопрос-ответ так, чтобы модель чуть поумнела в конкретной области. Это полезно, но дорого. Нужны видеокарты или облачные мощности и быстрого результата не будет.

Так выглядит базовая структура промпта:

Цель — самое важное в промпте. От цели модель и будет отстраивать поведение. И если цель сформулирована максимально точно, то и модель будет работать лучше.

Если мы употребим слово «какой-нибудь» или «что-нибудь» это повлияет на модель негативно. Ведь в самом описании цели будет заложена неопределённость. Важно писать промпт с максимально точной целью. А если вы хотите, чтобы модель «пофантазировала» то можно и неточно, но будьте готовы к разным результатам. Лучше писать промпты на английском — так они лучше работают, помещается больше контекста. Но на русском тоже можно.

Роль — неотъемлемая часть промптинга. Все видели, что можно написать модели «действуй как синьор Java-разработчик» и это действительно помогает, особенно на модели 3,5. Такая затравка перед целью увеличивает точность результата. На 4-й версии это чуть менее эффективно, но тоже работает.

Дополнительная информация. Контекст, который мы хотим учесть, тоже можно скармливать модели. Он поместится в окно текста, и модель будет на него опираться.

Техники промптинга

Я рассказал о базе промптов, а теперь поговорим про техники. Техник на самом деле много, набор ограничивается только вашей фантазией. Я разберу самые эффективные, которые кратно увеличивают точность ответов: Zero-Shot, One-Shot, Few-Shot Prompting, Chain of Thought, ASK-Before-Answer, Perspective Prompting, Critic Prompt, Comparative Prompting, Self-Checking. Расскажу, как их использовать, покажу на практике на различных задачах из опыта.

Zero-One-Few-Shot Prompting

Позволяет контролировать вектор ответов модели, задавать референсы для более качественных ответов. Используем, когда необходимо управлять креативностью модели.

Название техники Zero/One/Few-Shot Prompting пошло от обучения с подкреплением. Есть такая методика обучения нейросетей, когда модель учится на своих ошибках, а мы контролируем её обучение, давая часть информации. One shot – если даём один пример, few shot – если несколько, а zero shot – вообще не даём, а модель сама фантазирует на тему. В разрезе промптинга это нужно, чтобы контролировать степень фантазий модели.

Если нужно, чтобы модель основывалась только на своих знаниях, то делаем zero shot. Если хотим дать референс, например, пример стиля рассылок, то даём информацию. Например, для маркетинговой рассылки даём один или несколько референсов. Можно дать базу знаний и попросить опираться на неё в генерации ответа.

Например, попросим модель действовать как маркетолог IT-митапа, написать такую форму, как заданное в качестве примера письмо и посмотрим, что она выдаст. Я ожидал, что модель начнёт действовать излишне вежливо и официозно, но она написала «Привет!» вместо «Здравствуйте, вы очень ценны для нас».

От чего зависит тональность ответа? От вероятности. Вы не получите один и тот же результат практически никогда. Сгенерированные варианты будут разными.

Модель делает предсказание, ведь у нас не зафиксирована переменная, которая влияет на распределение, то есть рандом не фиксированный. Предсказание всегда будет разным. Сгенерированный текст будет неплохим, ведь GPT-4 умеет это делать. Можно лишь попробовать дать контекст моделям или скормить им референс.

Попробуем дать больше контекста и попросить опираться на предыдущую рассылку. Тогда, скорее всего, столкнемся с понятием галлюцинация, потому что модель проигнорирует инструкцию, что информацию не нужно использовать напрямую.

Тогда снова сообщим, что нужно воспользоваться стилем из предыдущей рассылки, не используя информацию из неё. Сформулируем, что задача модели — написать письмо со сбором фидбека в схожем стиле. Но, Есть шанс, что GPT начнет галлюцинировать и возьмет информацию из примера.

Есть трюк, который повышает качество результата:

Благодаря этому трюку модель перестает путать инструкцию и контекст, лучше отделять одно от другого. Можно использовать кавычки, а можно дэши. Главное, чтобы модель поняла, что вот тут — инструкция, а вот тут — контекст. Иначе будет путать.

В результате применения трюка на маркетинговом запросе модель тоже изменила поведение: переняла возможность писать с эмодзи, написала «привет» так же, как и я писал, скорректировала свой стиль подачи информации под тот референс, который я ей дал.

Последовательность на точность влияет, но не доказано, как именно. У нас есть пример из опыта: мы делаем аудиоаналитику, оцениваем звонки и их транскрибиацию в текст. Пишем модели критерии, чтобы она определила, был ли оператор вежлив и следовал ли он скрипту. От перестановки местами вопросов точность меняется. Особенно это заметно на версии 3,5.

Chain of Thoughts

Следующая техника — chain of thoughts или цепочка мыслей. Она может заставить модель декомпозировать задачу, узнаёт, как «мыслит» модель ещё до генераций ответа и уменьшает вероятность галлюцинаций. Кстати, сейчас GPT-4 уже часто сама применяет эту технику.

На самом деле одна из самых полезных техник, хоть и самая простая. Согласно ей, мы заставляем модель сначала изложить план, по которому она будет генерировать, а только потом начать генерировать.

Что нам это даёт.

Помещаем этот план в окно контекста, потому что написанное моделью — это тоже её контекст.
Корректируем предложенный план. Нужно помнить, что контекст — не бесконечный. И этот план, скорее всего, будет состоять из 10 пунктов. Больше нейросеть не выдаст, потому что её output ограничен 4 тысячами токенов. Но когда мы «едим слона по частям», это работает и с людьми, и с моделью. Она лучше работает.

Чтобы использовать затравки, можно сказать модели думать пошагово: «think step by step». Либо попросить модель перед генерацией показать «chain of thoughts». Обязательно добавьте эту конструкцию перед генерацией. Иначе модель начнёт галлюцинировать и декомпозирует задачу, изложит не свои мысли. Это не совсем то, чего мы хотим. Пошаговая инструкция поместится в контекст модели: ведь вся история сообщений, которые напишет ChatGPT — часть её контекста.

Есть отдельное понятие «окно контекста». Когда мы пишем новое сообщение, окно сдвигается вниз, и какие-то данные теряются. Пока план находится в окне контекста, модель будет ему следовать. Но с длинным планом будет сложнее. Но если коротко, лучше прямо сказать модели: начни делать первый шаг. И тогда будет хорошо.

Окно контекста на input составляет 128 000 токенов (32 000 в версии chat), на output — 4096, то есть бесконечно текст генерировать модель не может.

Мне понравилось, как модель рассуждает. Представьте, что мы переезжаем с PostgreSQL 13 на PostgreSQL 14 и беспокоимся, что что-то сломается. Попросим модель пояснить, что делать. Но скажем действовать как DBA, опытный администратор. Дадим задачу в этой роли рассказать про обратную совместимость 13 и 14 версий перед обновлением.

Всё, что было в чат до этого — это окно контекста. Модель сообщает, что при переезде с минорной версии всё будет хорошо, а с мажорной могут быть проблемы. Просит посмотреть на код, конфигурации. На самом деле она рассказала максимально общую информацию, а я хотел бы получить конкретную: что именно случится при переезде. Результат меня не устраивает. Попробуем применить технику.

Теперь я написал, что хочу переехать с одной версии на другую и узнать, что сломается при переезде. Просим то же самое: действуй как DBA, только теперь think step by step т.е. просим от модель думать по шагам и сначала написать свои “мысли” перед генерацией ответа.

Сначала модель предлагает нам план, по которому будет анализировать наш запрос. Модель спрашивает: «Из-за чего вы больше всего переживаете?». Ответим ей, что у нас много хранимых процедур и мы переживаем, нормально ли они переедут.

Модель подведет некий промежуточный итог и спросит, надо ли подробнее.

В итоге с нашего одобрения модель пойдёт в интернет и читать релиз notes. Что интересно, сначала GPT словил галлюцинацию и пошел запускать python код , хотя модель об этом никто не просил. Увидев Error analyzing (на скриншоте), модель сама исправилась и стала использовать встроенный Bing движок для поиска

Если таймаут на запрос будет слишком долгим, нужно использовать кнопку regenerate, то есть обновить заново. Такой браузинг эффективно работает, и она действительно просмотрит огромную документацию PostgreSQL к мажорным версиям. Если случится таймаут, значит, не хватило контекста.

Поднимать таймаут нельзя, он зашит в чате. Через API никаких таймаутов нет: плати деньги и рейт лимит не ограничен. Если в браузерной версии у нас 50 запросов, то через API — сколько хочешь.

ChatGPT — это не конечная инстанция. Многие сравнивают, что это джун, которого посадил делать задачу, и он делает. Облегчает жизнь, но результаты нужно перепроверять. Потому что иногда могут возникать галлюцинации. Правда, по моему опыту в задачах саммаризации галлюцинаций обычно не бывает, ведь всегда есть ссылки, поэтому можно доверять результатам чуть больше. Также можно попросить вставлять ссылки в результат, и модель это сделает.

ASK-Before-Answer

Это одна из самых полезных техник, применимая почти во всех ситуациях. Она кратно улучшает качество ответов. Речь про затравку: «Ask quetions for clarification before generating your answer».

Мы можем заставить модель спросить нас то, что она не поняла. То есть перед тем как отвечать просим сгенерировать вопросы. И тогда из ответов она возьмет контекст и добавит к своему окну контекста. Получается уже осознанный бот, который спросит, например, зачем вы переезжаете.

Как ChatGPT на самом деле работает под капотом, до конца не знают даже в Open AI. Но если базово, то все трансформеры работают по генерации следующего токена от предыдущих вероятностей. Если попросить модель задавать вопросы, она будет предсказывать вероятность каждого вопроса. Поэтому используем тот же самый промпт с действием по шагам, но добавим инструкцию «спроси меня перед генерацией ответа». Этот кусок инструкции «before generation answer» тоже важен. Ведь так мы говорим модели не генерировать ответ до уточнения. Модель сейчас часто сама задает уточняющее вопросы даже без инструкции в промпте, как мы видели в предыдущем примере. Но в ситуациях, когда модель начинает галюцинировать, техника показывает невероятную эффективность.

Есть заблуждение, что если модели сказать забудь всё, что было до этого, она забудет. Но на самом деле только сделает вид. В LLM есть два понятия: системный промпт и пользовательский промпт. Системный — это базовый промпт, который говорит, как неосознанной модели действовать. И у ChatGPT он гласит что-то вроде «ты — умный помощник, помогай пользователям, не говори о том, не говори о сём, будь вежлив и так далее». А пользовательский промпт — всё, что идёт после этого.

Пользовательский промпт может переписать системный. Для этого есть взломы, называются jailbreak. Можно jail’брейкнуть ChatGPT и сказать: теперь действуй так, как я тебе скажу, а не так, как велит системная инструкция. Тогда он может сливать данные или делать ещё что-то запрещённое системным промптом. Одна из самых популярных инъекций — DAN инъекций, когда мы скармливаем ChatGPT лохань информации, от которой он начинает сходить с ума и у него появляется альтер эго DAN(Do Anything Now). Вот тогда он начинает говорить про политику, неприлично шутить или может выдать пользователю свой системный промпт. С этим постоянно борются, но появляются все новые и новые уязвимости и методы взлома.

Emotional prompting

Emotional prompting — неоднозначный трюк, который тоже помогает повысить качество ответов. Затравки: «this is very important to my career»; «You’d better be sure»; «Are you sure that’s yor final answer?», «Believe in your abilities and strive for excellence», и так далее.

Ребята из Microsoft и Китайского университета провели исследование, как эмоциональные затравки влияют на точность того, как отвечает модель. Оказалось, и правда влияют.

Это подтверждено в том числе на моей практике. Мы как-то попросили модель написать инструкцию, как симулировать рабочую деятельность и вводить мышкой по монитору так, как будто работаешь.

Модель сказала: «ты что-то плохое делаешь, мне такое говорить нельзя». Но когда я ей написал, что это важно для моей карьеры, я тестировщик, и дядя-начальник сзади стоит с палкой, она спокойно выдала результат: сказала, раз тестировщик и тебя ругать будут, вот, пожалуйста. Действительно работает: на GPT-4 — меньше, на версии 3,5 — больше. На Lama и иже с ней — ещё больше.

Эмоциональный контекст влияет из-за того, что модели учат на слепке интернета. И Яндекс так делает, и Open AI и другие компании. Они берут интернет-копию, делают чанк и на нём начинают учить модель. Какие данные туда попали, на том она и обучилась, так и будет отвечать.

Perspective Prompting

Perspective Prompting помогает рассмотреть проблему с разных сторон, можно использовать, когда надо проверить реакцию. Затравки: «… from perspective of [role]», «process this from multiple perspectives [role] and [role]».

Первая техника: можно попросить модель рассмотреть вопросы с нескольких сторон. Возьмём, например, вопрос, что будет если перезагрузить базу данных. Мы можем попросить рассмотреть вопрос с точки зрения системного администратора и с точки зрения оператора поддержки. Тогда модель выдаст две точки зрения, на что это повлияет. Полезно, когда нужно собрать предсказание, как могут отреагировать разные стороны, задействованные в этом.

В этом случае мы можем задать несколько ролей. Например, в Kafka есть такая фича, как гарантия доставки – delivery semantic. Если коротко, это стратегия, как сообщения будут отправляться и получаться. Мы можем выбрать стратегию, когда точно хотим получать сообщения без дубликатов. Называется она exactly once. Либо получить at least once, чтобы было хотя бы одно сообщение, но тогда могут быть дубликаты. По дефолту стоит такая стратегия. Ещё можно включить at most once. Это значит, мы можем терять сообщения, ничего страшного не произойдёт. Например, at most once, когда собираем статистику по кликам на сайте. Нам же не важны все сообщения, мы можем собрать общую картину, температуру.

Представьте, что мы делаем сбор данных с веб-камеры. Она висит, отправляет свои фреймы в топик, а с этого топика фреймы летят в архив на HDD и камеру оператора. Так у нас получается три места, где можно применить delivery semantic когда камера отправляет свои данные. Данные берутся из топика и записываются на диск, а фреймы направляются на мониторинг.

Введём две роли. Первая: разработчика, который ратует за простоту и меньшее количество кода. И вторую: архитектора, который фокусируется на throughput. Скажем модели разобрать такую ситуацию. Камера продюсирует frame of topic, consumer забирает фреймы, кладёт на HDD. У нас две роли для лайфстриминга и можно смотреть генерацию.

«At most once» — легче всего имплементировать, вообще ни за чем следить не надо. «At least once» — по дефолту, там нужно следить за курсором. А «exactly once» — самая сложная вещь для разработки. На самом деле на практике почти невозможная. Поэтому приходится искать компромисс между первыми двумя.

Модель говорит, что SDE (software deleveloper) предпочтёт либо «at most once» либо «at least once». А вот solution architector, скорее всего, будет выбирать между другими вариантами — «exactly» либо «at least». Вариант «at most once» — это, очевидно, ошибка, потому что мы не можем себе позволить собрать с камеры не все фреймы. Можно заставить модель, чтобы она от роли архитектора говорила, что «at most once» – это плохая идея.

Constructive Critique

Теперь возьмём роль критика — SDE разобрал, что проще реализовать запись файлов на HDD. Life streaming напишет то же самое и для него можно использовать «at most once». Побьётся битрейд, но в этом нет ничего страшного.

У Constructive Critic есть непредвзятое мнение со стороны. Такое мнение полезно при проектировании архитектуры. Можно использовать затравки: «Evaluate, critique and refine»; «Avoid politeness»; «Criticize my [content]»; «Convince me why it bad».

Попробуем создать такого ассистента, который будет критиковать предложенные нами решения, указывать на ошибки. Главный челлендж в том, что в базовой модели заложена высокая степень вежливости. Если мы дадим модели плохую архитектуру, и скажем: «Критикуй!», то модель ответит: «Нет, всё хорошо, ты молодец, не переживай». Этого нам нужно избежать. Есть затравки, которые позволяют это сделать. Для этого так и говорим нейросети: «избегай вежливости, если видишь ошибку, сообщай о ней», и так далее.

Можно использовать такой трюк: попросить модель проверить саму себя. Затравки для этого: «Please self eval»; «Evalute yourself»; «How you can improve this?»; «That’s the best solution?».

Прямо пишите в промпте: «не пытайся сделать фидбэк более гладким, говори прямо, если видишь очевидные ошибки». Работает, хоть и не до конца. Все равно модель будет вежлива, но хотя бы начнёт реагировать на очевидные ошибки.

Мы можем даже создать ассистента архитектора, который будет критиковать наши решения, рассматривать вопросы с разных сторон и предлагать лучшие варианты.

Пишем такой промпт: «ты — senior solution architect, у тебя есть опыт в Kafka, ты эксперт в тюнинге и настройке Kafka. Избегай, пожалуйста, вежливости, если видишь ошибку, прямо о ней говори и отмечай таким способом». А дальше я описал, что хочу сделать, и написал задачку: «определить, как выбирать стратегию delivery семантики для топиков Kafka». Сообщил, что камера будет продюсить «at most once», консьюмер — забирать «at least once», а клиент — «application exactly once».

Ошибка тут очевидная и содержится в первом тезисе. Мы потеряем сообщение, если будем следовать принципу «at most once». Остальное — приемлемо. Но, например, сохранять дубликаты фреймов на диск — не хочется. Хочется, чтобы всё это, наоборот, занимало меньше места.

Модель отмечает, где ошибка, то есть понимает, что терять кадры — нехорошо. Она даже даёт рекомендацию выбрать не «at least once», а «exactly once». Дальше следует сохранение на диск архивов. Ассистент предупреждает, что в этом случае могут быть дубликаты. Всё верно, так на самом деле и есть.

Клиент «exactly once» модель тоже иногда отмечает как ошибку. Я с ней согласен, потому что это overkill, почти невозможно реализовать, слишком трудозатратно. Для лайф стриминга это действительно overkill. Модель написала, что лучше выбрать что-нибудь другое. А ещё ассистент написал саммари, это то, чего я от него и хотел.

Reverse engineering

Reverse engineering работает на диаграммы с архитектурой, изображения Dalle, тексты. Затравки: «You are a prompt engineering expert that is able to reverse engineer prompts based on [content type]»; «Prepare prompt that was used to generate this».

Модель может понять, что было сгенерировано по контенту. Например, мы можем скормить изображение и попросить написать промпт, по которому это изображение сгенерировали.

Я скармливал архитектуру базы данных, entity relation диаграмму. И нейросеть писала промпт, по которому это было построено. Это удобно, ведь мне было нужно сгенерировать нечто похожее, но в другом домене. Поэтому я чуть-чуть подкорректировал промпт и получил результат. Диаграммы модель рисовать умеет только через плагины и не очень хорошо. Зато выдаст вам текстовое описание.

Подход к созданию ассистентов преднастроенных моделей Chat-GPT

Создавать ассистентов преднастроенных моделей Chat-GPT мы можем прямо из интерфейса. У них есть версия для API, которая называется assistance API. В ней мы можем делать похожие вещи уже более профессионально.

Кастомные модели GPTs сохраняют промпт, в них настраивается мультимодальность, можно загрузить knowledge base и подключить Action.

Напишем промпт, он будет заложен, и будет частью систем промпта. Он будет читаться уже не user-, а system-промптом. Это как с векторной базой: ему можно «скормить» базу знаний, приложить файлы, которые он векторизирует. В случае чего можно обращается к этому файлу за контентом. Также настраивается мультимодальность, то есть мы можем поставить галочки, что нужно браузерить, генерировать картинки, запускать код.

Есть две вкладки: create и configure. Configure — это ручная настройка. А create — это такой же ChatGPT с системным промптом, созданный для создания ассистента.

Action можно использовать, если у вас есть API, нужный вашему ассистенту. Но сначала нужно зарегистрировать плагин в OpenAI, где проходит премодерация на предмет инъекций. Но это происходит достаточно быстро и я не сталкивался с ограничениями.

Дальше регистрируете плагин, описываете схему в инференсе и объясняете модели, что если встречается ключевое слово, то нужно обратиться в этот API, а результат использовать у себя в контексте.

Вместо вывода хочу поделиться новостью. Уже скоро на TechLead Сonf 2024 в Санкт-Петербурге во время своего нового доклада поделюсь обновленными более продвинутыми техниками промптинга — https://techleadconf.ru/2024/abstracts/12358

Tags:

Hubs: