Николай Шихирев@traiilway
Магистрант МФТИ | Product Manager | ex-adidas,IKEA
Информация
- В рейтинге
- 158-й
- Зарегистрирован
- Активность
Специализация
Менеджер продукта
Управление продуктами
Разработка продукта
Машинное обучение
Нейронные сети
Computer Science
При загрузке файла Perplexity разделяет его на текстовые чанки и индексирует (RAG), но ему не хватит контекстного окна, чтобы увидеть все 30k+ записей одновременно для агрегации и поиска ответов на ваш вопрос, и он начинает выдумывать. В вашем кейсе нужно прямо переключить модель с семантического анализа на вычисления, а для этого в Perplexity хорошо подойдет режим Labs.
В Labs есть контейнер, который выполняет Python и JavaScript (Node.js), т.е. он может и код написать, и прогнать ваш JSON через pandas у себя на сервере. Можно один раз сделать дашборд и потом просто актуализировать его из данных нового файла - этакий no-code.
Примерный промпт:
На основе загруженного файла data.json из Assets создай веб-приложение для анализа этих данных. Реализуй функцию uploadNewFile в интерфейсе, чтобы я мог подгружать свежие данные сам, и графики обновлялись автоматически.Вот что у меня получилось на тестовых данных
Не за что. Обычно, если сталкиваюсь с такими ситуациями, один раз заморачиваюсь, пишу похожий промпт и сохраняю его в шорткаты или заметки. Никогда не знаешь, где это потом пригодится.
Даже если в промпте явно указано: "используй только эти URL", Perplexity может подтянуть не весь контент страницы, а только фрагменты, которые посчитает релевантными, или вообще возьмет только закэшированную копию. Тут ещё есть нюанс: краулер Perplexity при переходе по ссылке часто получает "сырой" HTML, а динамический контент, подгружаемый JavaScript (таблицы характеристик, цены), может не попасть в контекст.
При этом Comet Assistant имеет прямой доступ к содержимому (видит актуальное состояние DOM), то есть вы явно даёте ему полный источник данных.
Так что такие запросы, по моему опыту, лучше делать через Comet Assistant.
Если не хочется скачивать Comet, то попробуйте такой промпт (evidence-based extraction):
Сравни модели X и Y только по данным со страниц: [URL модели X] [URL модели Y]. Составь список всех характеристик, которые явно указаны хотя бы на одной из страниц. Для каждой характеристики заполни таблицу: значение X / значение Y / “не найдено”. Важно: после каждого значения добавь короткую дословную цитату в кавычках и URL страницы, где это указано. Если значение не найдено - пиши "не найдено на странице" и не делай предположений и дополнений из внешних источников.Есть такое. Тут разве что в своих дата-центрах хостить и самим поддерживать такие модели.
А где у вас хранится этот json, насколько он большой и насколько часто он обновляется? Спрашиваю, потому что в некоторых случаях Perplexity кэширует какую-то версию файла, и пока вы прямо её не проиндексируете, будет врать, что оперирует актуальными данными.
Полагаю, такое может происходить из-за особенностей работы Perplexity с индексированными данными. Попробуйте ради эксперимента сделать вот так (как я записал на видео ниже). Промпт для примера "Проведи сравнительный анализ технических характеристик видеокамер и выведи результаты в виде таблицы" и через @ добавляете открытые вкладки как источники поиска.
А попробуйте через Comet Assistant эту задачу выполнить. Вот только выберите опцию "Act for me"
Да, все так. Perplexity функционирует как надстройка-оркестратор на базе проприетарной LLM Sonar (Llama). То есть поиск любой выбранной вами моделью все равно ограничен жесткими системными инструкциями на уровне Perplexity.
Я дополню этим статью, ибо многие ожидают получить полноценные версии AI-моделей, будто пользуются ими через нативные интерфейсы. Хотя, конечно, тут есть эффект посредника, который заинтересован в снижении расходов токенов и максимально возможной "оптимизации".
Кроме слухов (якобы информация из утечки системных промптов Perplexity), достоверной информации о таких умышленных ограничениях я не нашел, но такое порой "ленивое" поведение Perplexity подтверждается наблюдениями из моего опыта.
По контекстному окну тоже на уровне веб-интерфейса у Perplexity есть ограничение ввода. При этом диалоги сжимаются за счёт агрессивного скользящего окна: старые сообщения сворачиваются в эмбеддинги, и в длинных тредах часть контекста теряется. Этот эффект менее выражен у первоисточников - если пользоваться напрямую ChatGPT, Claude или Gemini.
Для себя настроил такую систему: Perplexity для поиска данных, NotebookLM - для хранения, а Gemini - для решения конкретных задач. Еще на базе Gemini удобно создавать Gems (похоже на GPTs у ChatGPT) под определенные задачи и добавлять «ноутбуки» по теме в их базу знаний. Так они получают доступ к контексту NotebookLM и работают с нужными данными.
Можно перенести всё нужное в новый аккаунт:
добавьте важные треды (чаты) в пространства (в данном случае воспринимайте их как папки);
сделайте все добавленные записи shared для этого пространства;
в правом верхнем углу пространства нажмите Share;
добавьте email нового аккаунта;
на этот email придёт приглашение в пространство - примите его;
далее скопируйте это пространство к себе (такая опция есть) и работайте как раньше.
Спасибо за отзыв. Рад, что оказалось полезно! Для юридических процессов в вашей сфере может быть ещё актуальна функция поиска по патентам https://www.perplexity.ai/patents
Спасибо за бдительность. Там действительно с российского IP происходит редирект с https://www.perplexity.ai/comet/gettingstarted на локаль https://www.perplexity.ai/ru/comet/gettingstarted (который не работает)
Заменю https://www.perplexity.ai/comet/gettingstarted на https://www.perplexity.ai/comet