Pull to refresh
6
0
Темченко Сергей @N3VERZzz

User

Send message

это называется получить работу через постель

То есть, читать статьи про VPN можно будет только через VPN или из-за рубежа.

прикол

Вы правильно меня поняли, но, мне кажется, проблема сложнее.

Мы отказались от первого варианта, потому что в колонке может быть слишком много значений. Возможно, стоит запрашивать количество, и, если оно находится в приемлемом коридоре, передавать в контекст. Однако, поскольку этот вариант не покрывает все случаи, мы пока что остановились на поиске без регистра. GPT хорошо обрабатывает склонения и в целом часто делает правильные предположения о том, где может находиться значение. Но здесь тоже есть некоторые проблемы.

Во-первых, когда делают поиск по словосочетанию "найди все платежи от Альфа-Банка", пользователь на естественном языке не ставит дефис, и мы не можем найти это в базе. Во-вторых, представьте, что у нас есть колонки "контрагент" и "организация", и там и там может храниться ООО, и GPT может запросить не тот столбец.

Скажите, рассматривали ли вы варианты поиска:
1) нечеткую логику (pg_trgm в Postgres)
2) полнотекстовый поиск?

По-моему, без решения этой проблемы невозможно достичь 95 процентов правильных ответов.

Мне кажется, самое сложное в задаче text2sql — это поиск в базах данных со свободным вводом. В статье вы говорите про это, приводя пример 'мужчина/женщина или male/female'. 1) Могли бы вы рассказать, как вы реализуете этот поиск? 2) Можно ли гипотетически добиться результата в 99% правильных ответов, если одно и то же значение легко может находиться в двух или более столбцах?

Это интересно, спасибо за статью. Я интуитивно подозревал что модель не может сама себя проверять, так как находится на том же уровне. И да, более развитой моделью имеет больше смысла проверять, и если ответ модели не текст, а json, код, sql, то можно ранить/проверять валидность, и при не удачи просить переделать.

про кучеров, мне кажется, надо понимать что ИИ революция отличается от индустриальной, это совершенно новый прецендент. Поскольку ИИ предлагает оптимизацию, новые рабочие места не будут появляться с такой же скоростью с которой исчезают старые.

Было бы круто, если бы вы показали пак стандартных вопрос в техподдержку, и те ответы, которые дает YandexGPT

Большое спасибо, что не забыли мою просьбу и прочитали.

  1. Если я вас правильно понял, вы говорите, что достаточно дешево можно сгенерировать 1-2 тыс. тестов. Это да, но запустить их выйдет в нормальную сумму. (Я проверял промпт размером в 5 тыс. токенов.)

  2. Хорошо, ознакомлюсь.

  3. Я был бы очень рад, мне интересно услышать мнение людей, у которых был реальный опыт в этом. Это помогло бы мне понять, правильный ли у меня сейчас ход мысли. (лекцию посмотрю)

Надо вот что попробовать, скинуть фотку хорошенькой девочки и сказать gpt, что при хороших ответах можно устроить тет-а-тет с ней

 Читаю нескольких людей которые понимают в этой тематике больше моего и их мнение в том что промпт-инжиниринг это сомнительная идея. 

Можешь дать ссылки на этих людей? Для меня идея промптинга не является сумасшедшей, и я не слышал прям явных противников. Хотелось бы ознакомиться с их позицией, если это и правда распространённое мнение, то можно было бы написать

 Однако пользователи указывают на более широкий спектр проблем, в том числе на ошибочные ответы, которые чат-бот выдаёт даже на простые вопросы — как на картинке выше. 

Это не простой вопрос, поскольку LLMки работают с токенами, которые больше, чем отдельные буквы, они плохо справляются с подобными задачами. По этой же причине стихи, созданные ими, получаются школярскими.

моделей очень много и работа с каждой из них уникальна и никакого универсального способа работы нет и быть не может.

Я хотел опровергнуть именно эту позицию, сложно отвечать на все, при этом ничего не опуская. Постараюсь в ближайшее время посмотреть подобные исследования и собрать какое-то количество скринов, как тот, который я показал раньше. Это сможет вас убедить в том, что есть универсальные способы работы с LLM?

Моя идея заключается в следующем: некоторые концепции промптов демонстрируют статистически значимое улучшение результатов потому, что они обращаются к определенным способам мышления или человеческим триггерам, которые проникают в модели через естественный язык. Так, метод "цепочка мыслей" эффективен, потому что люди, формулирующие тексты в таком стиле, реже допускают ошибки. Каким-то образом в модели просачивается и эмоциональная составляющая, условно когда от качества статьи зависит увольнение журналиста, он старается писать лучше.

Поэтому я считаю, что подсказка, хорошо работающая в одной модели, не покажет ужасных результатов в другой, если у них примерно равное количество параметров. Я понимаю, что мое объяснение этого явления может казаться поверхностным. Мне интересно услышать ваше мнение, почему одна и та же подсказка может работать кардинально противоположно в разных системах. Было бы еще лучше, если бы вы нашли исследования, подтверждающие это.

Спасибо за ваш комментарий! Исходя из той информации, которую вы видите, действительно естественно предположить, что я использую языковую модель искусственного интеллекта для создания ответов. Эти модели могут обрабатывать запросы и предоставлять подробные, хорошо структурированные ответы на самые разнообразные темы. ??

Проблема промптинга остается актуальной, даже при использовании баз данных для извлечения релевантной информации. Необходимость в проверенной инструкции не исчезает, она просто переходит на другой уровень.

Мне показалось, что это как раз то самое неуместное эмпирическое определение качества промпта, о котором я говорю в статье. Если вы имели в виду другое, простите.

Такие как подходы как "chain-of-thought", тестируются на разных моделях, и, как вы можете видеть, они эффективны для всех представленных больших языковых моделей, хотя и с разной степенью успешности. В целом, мы должны повторно тестировать промпт, если планируем использовать его в другой LLM. Однако, я не думаю, что при равном количестве параметров у разных моделей результаты будут существенно отличаться (конечно, речь идет о статистически значимом количестве экспериментов.) Прикладываю ссылку на исследование.

1) Да, профессия промпт-инженера сейчас может казаться несколько туманной, но, как я уже отмечал в моем предыдущем ответе о косвенных выгодах для компаний, первыми мастерами в этой области, когда она прояснится, станут те, кто уже сейчас увлеченно занимается ею.

2) Когда мы достигнем точки, где LLM будут понимать запросы без каких-либо дополнительных доработок, это будет означать не только исчезновение профессии промпт-инженера, но и всех других профессий тоже)

Как вы могли понять из прочитанной статьи, моя позиция по этому вопросу следующая: требования должны включать минимальное техническое образование и владение языком программирования Python, чтобы нанятый сотрудник мог провести исследование по поводу необходимого промпта и представить его результаты в Jupyter Notebook.

Внимание к деталям - что это? Очень субъективный критерий. Важнее смотреть не на формулировку промпта, а на качество получаемых от него ответов. Год назад идея эмоционального давления на языковые модели многим показалось бы идиотской. Однако было доказано, что это работает. То есть, вы могли бы отклонить кандидатуру промпт гения, который пишет капсом и слезно умоляет LLM потому, что он не уделяет внимание деталям (тем субъективным деталям, которым уделяете внимание вы).

надеюсь это прикол и ты меня просто забайтил)

Information

Rating
Does not participate
Registered
Activity

Specialization

Data Analyst
From 100,000 ₽
Python
SQL
Database
Git
OOP
English
Research work
Matlab
Pandas