traiilway19 янв в 16:34

Perplexity AI: Как превратить ИИ-поисковик в инструмент для работы и учёбы

Простой

14 мин

35K

Искусственный интеллектБраузерыПоисковые технологии *

Туториал

Из песочницы

+57

Комментарии 29

Bardakan 19 янв в 20:44

Подробнее про возможности Comet для разных кейсов - на их сайте.

ссылка нерабочая

traiilway 19 янв в 20:59

Спасибо за бдительность. Там действительно с российского IP происходит редирект с https://www.perplexity.ai/comet/gettingstarted на локаль https://www.perplexity.ai/ru/comet/gettingstarted (который не работает)
Заменю https://www.perplexity.ai/comet/gettingstarted на https://www.perplexity.ai/comet

Kleptsin 20 янв в 08:30

Классная статья, очень полезно, спасибо!

traiilway 20 янв в 09:12

Спасибо за отзыв. Рад, что оказалось полезно! Для юридических процессов в вашей сфере может быть ещё актуальна функция поиска по патентам https://www.perplexity.ai/patents

albalyu 20 янв в 14:24

Перплексити много чего обещает. И среди прочего доступ к куче современных нейросетей за относительно небольшие (ну как небольшие - 20$ в месяц за про подписку) деньги. Вот только почему-то почти никто не говорит, что доступ к этим нейросетям вы получаете не напрямую, а через ассистента Перплексити, который преобразует все ваши промпты по своему усмотрению и добавляет в них информацию о том, что ответы должны быть как можно короче, чтобы расходовать меньше токенов. И вместо полноценного контекста для каждой нейросети вы получаете небольшой его огрызок и по числу токенов и по числу сообщений.

И даже тред переименовать она не умеет без того, чтобы перегенерировать свой ответ, используя новое название треда в качестве промпта.

Двойственные впечатления на самом деле.

Anselm_nn 21 янв в 13:08

обещали много и предлагали заплатить за год, а срезали лимит с 600 запросов до 25

traiilway 21 янв в 16:54

Да, все так. Perplexity функционирует как надстройка-оркестратор на базе проприетарной LLM Sonar (Llama). То есть поиск любой выбранной вами моделью все равно ограничен жесткими системными инструкциями на уровне Perplexity.

Я дополню этим статью, ибо многие ожидают получить полноценные версии AI-моделей, будто пользуются ими через нативные интерфейсы. Хотя, конечно, тут есть эффект посредника, который заинтересован в снижении расходов токенов и максимально возможной "оптимизации".

Кроме слухов (якобы информация из утечки системных промптов Perplexity), достоверной информации о таких умышленных ограничениях я не нашел, но такое порой "ленивое" поведение Perplexity подтверждается наблюдениями из моего опыта.

По контекстному окну тоже на уровне веб-интерфейса у Perplexity есть ограничение ввода. При этом диалоги сжимаются за счёт агрессивного скользящего окна: старые сообщения сворачиваются в эмбеддинги, и в длинных тредах часть контекста теряется. Этот эффект менее выражен у первоисточников - если пользоваться напрямую ChatGPT, Claude или Gemini.

shtr 22 янв в 06:08

Долгое время пробую использовать Perplexity Spaces как RAG для json-файла с перечнем однотипных записей и все не получалось получить внятные ответы по числу записей или по поиску подходящих записей по описанию. То ли embedding странный, то ли, как Вы пишите, речь в упрощении самих запросов. Правда не пробовал еще Pro версию. Возможно там тоже маленькое контекстное окно, не знаете?

traiilway 22 янв в 06:13

А где у вас хранится этот json, насколько он большой и насколько часто он обновляется? Спрашиваю, потому что в некоторых случаях Perplexity кэширует какую-то версию файла, и пока вы прямо её не проиндексируете, будет врать, что оперирует актуальными данными.

shtr 22 янв в 09:50

Файл json весит около 10Мб, в нем 30K+ строк. Загружаю его однократно в Spaces.

traiilway 22 янв в 15:42

При загрузке файла Perplexity разделяет его на текстовые чанки и индексирует (RAG), но ему не хватит контекстного окна, чтобы увидеть все 30k+ записей одновременно для агрегации и поиска ответов на ваш вопрос, и он начинает выдумывать. В вашем кейсе нужно прямо переключить модель с семантического анализа на вычисления, а для этого в Perplexity хорошо подойдет режим Labs.

В Labs есть контейнер, который выполняет Python и JavaScript (Node.js), т.е. он может и код написать, и прогнать ваш JSON через pandas у себя на сервере. Можно один раз сделать дашборд и потом просто актуализировать его из данных нового файла - этакий no-code.

Примерный промпт:

На основе загруженного файла data.json из Assets создай веб-приложение для анализа этих данных. Реализуй функцию uploadNewFile в интерфейсе, чтобы я мог подгружать свежие данные сам, и графики обновлялись автоматически.

Вот что у меня получилось на тестовых данных

shtr 23 янв в 05:00

Спасибо, идею понял, обязательно попробую

traiilway 23 янв в 06:55

Пишите если что. Думаю, это популярный кейс и многим будет полезно

fio 27 янв в 05:34

20$ в месяц за про подписку

Посмотрел предложения на Авито - предлагают на короткие сроки за 1000р/мес, от 6 месяцев вкуснее 450р/мес. Подключают ваш аккаунт к корпоративной подписке. Не знаю насколько это безопасно и надежно

traiilway 27 янв в 06:52

Есть масса похожих вариантов подписки за 300-500р/год. По функционалу не отличаются от вариантов за $20 в месяц. Насколько я понял, это промо-тарифы для некоторых корпоративных клиентов и Perplexity в последний месяц забанили очень много таких аккаунтов (за нарушение правил сервиса - они не предназначены для перепродажи), но у кого-то аккаунт за 400р. продолжает спокойно работать уже больше полугода.

mckotlin 20 янв в 17:36

Мне нравится,я с помощью ассистента делаю ботов в кодспейсе

viktorov_aa 21 янв в 10:00

Я несколько раз делал подох к Перплексити как к поисковику, и все разы ответ был какой-то скудный. В то же время, ChatGPT справляется на несколько порядков лучше со всеми вопросами.

Например, недавно у меня героически погибла посудомойка и я решил выбрать новую. Я попробовал перплексити с промтом вида: "У меня сломалась посудомойка <модель>, найди мне альтернативы в разных ценовых сегментах с возможность заказать онлайн с беслатной доставкой до дома. Приложи ссылки на карточки для заказа онлайн" и эта задача закончилась полным провалом, т.к. он не смог посмотреть карточки магазинов.

В то же время ChatGPT справился на ура и прислал мне вполне годный результат

traiilway 21 янв в 17:12

А попробуйте через Comet Assistant эту задачу выполнить. Вот только выберите опцию "Act for me"

Akr0n 22 янв в 02:11

В режиме глубокого поиска с pro аккаунтом попросил сравнить 2 модели видеокамер, найти различия, приложил 2 прямые ссылки на сайт производителя, где есть все характеристики в едином формате, написал использовать только их. Сравнило, составило табличку, на первый взгляд все ОК. При проверке оказалось в сравнении просто нет таких мелочей как размер матрицы и температурный режим! Именно в них были основные различия...

traiilway 22 янв в 05:49

Полагаю, такое может происходить из-за особенностей работы Perplexity с индексированными данными. Попробуйте ради эксперимента сделать вот так (как я записал на видео ниже). Промпт для примера "Проведи сравнительный анализ технических характеристик видеокамер и выведи результаты в виде таблицы" и через @ добавляете открытые вкладки как источники поиска.

Akr0n 22 янв в 11:38

Это через Comet? Я не хочу его использовать, зачем? Я дал все необходимые вводные в промт...

traiilway 22 янв в 13:16

Даже если в промпте явно указано: "используй только эти URL", Perplexity может подтянуть не весь контент страницы, а только фрагменты, которые посчитает релевантными, или вообще возьмет только закэшированную копию. Тут ещё есть нюанс: краулер Perplexity при переходе по ссылке часто получает "сырой" HTML, а динамический контент, подгружаемый JavaScript (таблицы характеристик, цены), может не попасть в контекст.

При этом Comet Assistant имеет прямой доступ к содержимому (видит актуальное состояние DOM), то есть вы явно даёте ему полный источник данных.
Так что такие запросы, по моему опыту, лучше делать через Comet Assistant.

Если не хочется скачивать Comet, то попробуйте такой промпт (evidence-based extraction):
Сравни модели X и Y только по данным со страниц: [URL модели X] [URL модели Y]. Составь список всех характеристик, которые явно указаны хотя бы на одной из страниц. Для каждой характеристики заполни таблицу: значение X / значение Y / “не найдено”. Важно: после каждого значения добавь короткую дословную цитату в кавычках и URL страницы, где это указано. Если значение не найдено - пиши "не найдено на странице" и не делай предположений и дополнений из внешних источников.

Akr0n 22 янв в 14:22

Спасибо за совет, конечно, но такой промт сочинять, писать и отлаживать выходит пока дольше, чем решать вручную поставленную задачу...

traiilway 22 янв в 14:48

Не за что. Обычно, если сталкиваюсь с такими ситуациями, один раз заморачиваюсь, пишу похожий промпт и сохраняю его в шорткаты или заметки. Никогда не знаешь, где это потом пригодится.

globin_write 26 янв в 07:48

Что не очень нравится в perplexity и ему подобных им поисковиков, они не "взвешивают" источники. В соседних абзацах инфа из научных статей, реддита и vc ru.

У меня нет особо мудрых мыслей, как это решить. Но лично мне это часто стреляет в ногу, приходится внимательно смотреть, откуда инфа.

globin_write 26 янв в 07:48

Но это скорее придирка, в целом, для ежедневного поиска использую именно perplexity

traiilway 26 янв в 08:04

Прямой настройки весов для источников я не встречал, но можно попробовать донастроить под себя:

1) Убрать из выдачи результаты из определенных источников: [ваш запрос] -site:vc.ru

2) Если важна точность и чистые источники, то после нескольких итераций обычного поиска самостоятельно составить список ссылок на качественные материалы и/или скачать и загрузить их в Space, а затем отключить поиск по Web (чтобы работал только с загруженными источниками). Тут можно и в NotebookLM от Google поработать аналогично.

3) Уже после получения отчета посмотреть, какие источники он использовал, и от себя дать разбивку по весам, а затем попросить пересобрать отчет с учетом ваших вводных. Но это подходит, наверное, если вы работаете в какой-то определенной сфере и запросы примерно в одной области. Хотя можно, думаю, прямо в промпте или настройках Space указать, что из определенных источников (перечислить сайты) информацию нужно брать с наименьшим весом/приоритетом или выделять в отдельный блок.

traiilway 26 янв в 08:25

В продолжение топика про источники поиска поделюсь алгоритмом при проверке фактов. Использовал его недавно при подготовке презентации.

1) Отключите источник поиска Web -> в новом чате [Составь содержание для слайдов презентации (либо укажите любой ваш запрос). Формат вывода результата: файл content.md].

В конце промпта добавьте:

Твои источники истины (SSOT) [ниже подставьте реальные названия ваших файлов]:
1. [название загруженного источника].pdf
2. [название загруженного источника].txt
3. [название загруженного источника].docx
4. [название загруженного источника].csv
5. [название загруженного источника].md

2) Потом сделайте пару раз fact-check (можно даже несколько раз разными нейронками)

Проведи проверку фактов в файле content.md на основании источников истины (SSOT) [ниже подставьте реальные названия ваших файлов]:
1. [название загруженного источника].pdf
2. [название загруженного источника].txt
3. [название загруженного источника].docx
4. [название загруженного источника].csv
5. [название загруженного источника].md

Этот процесс можно использовать для любых задач, где нужно провести проверку фактов.

P.S. При желании можно дополнить алгоритм evidence-based extraction https://habr.com/ru/articles/986744/#comment_29419830 но у меня и без этого результат был хорошим.

traiilway 10 мар в 12:08

Теперь скидка для студентов не 75%, а 50%. При продлении на следующий год имейте в виду

Зарегистрируйтесь на Хабре, чтобы оставить комментарий