Pull to refresh

Comments 10

К всезнающему "ИИ" есть у меня общий вопрос. Возможна ли на современном уровне техники машинная энциклопедизация знаний? Хотя бы отраслевая, для начала. А также вменяемый патентный поиск.

И один частный вопрос. Лежит на сервере 1 миллион страниц пдф технической документации. Или миллион страниц научных работ. Возможно ли обучить LLM до такого уровня "чата", чтобы эта нежить давала мало-мальски вменяемые ответы по темам статей? Хотя бы на уровне студента-троечника с хорошей памятью?

Загнать документы в RAG (ну или GraphRAG) и большая часть моделей будет отвечать на уровне студента (желательно брать модели с большим контекстом). У меня документация так индексируется - на большинство вопросов локальный deepseek нормально отвечает.

Здравствуйте!

Научить LLM всему подряд — крайне дорого и почти бесполезно. Правильнее научить LLM «доставать» нужную инфу из хранилища — эффективно и гибко. Так же, как, по сути, это делает человек.

LLM нужен, в основном, как "программный интерфейс" для обработки и понимания языка.

По поводу вашего запроса: Сделать это на миллион документов — задача не из области фантастики: нужна лишь инфраструктура для индексации (векторная БД, машинки, RAM/диски для хранения эмбеддингов, BM25), а сама сборка и настройка — вопрос пары месяцев (или быстрее, если команда опытная и есть уже готовый фреймворк).

Сейчас я готовлю еще одну статью, где, как раз, хочу проиндексировать Хабр и научить LLM находить нужную статью и отвечать на вопросы... проект будет в опенсорс..

почти все нормальные патентные базы платные. Если рассматривать тот же WIPO, ИИ врятли сможет пользоваться поиском, а базой данных так тем более, нужно обучать именно под неё.
Поэтому пока только руками, хотя можно облегчить себе жизнь узнав какие компании разрабатывали или институты, в какие года, МПК и прочие вещи.

Есть ещё проблема User Agent, все эти ИИ ходят идентифицируя себя сайтам, а сайты начали банить агентов при переходе на свои ресурсы... это меня расстраивает.

В плане FREE у ChatGPT сейчас есть ярлычок с лампочкой. Называется "Обоснуй". ChatGPT как раз и назвала эту функцию в ответ на мой вопрос "глубоким анализом", если я верно запомнил. Вот только никакого получасового глубокого анализа при этом автоматически не происходит. Нужно по прежнему тщательно делать промпты, чтобы нейросеточка поняла чего ты хочешь. И в диалоге направлять работу в нужную сторону. А так - да, с этой функцией, и с включенной функцией поиска в интернете черновой анализ делает весьма хорошо. Сильно экономит время на сбор данных.

Функция Deep Research доступна, к сожалению, только для платных подписок типа Pro (200$ в месяц, 100 запросов). К счастью, "Hugging Face выпустила открытый аналог OpenAI Deep Research для анализа информации по сотням сайтов" https://3dnews.ru/1117752/hugging-face-vipustila-otkritiy-analog-openai-deep-research-dlya-sbora-dannih-iz-seti

сейчас большинство технических форумов ушло в Телеграм каналы, а он их шерстить не может..

Другой вопрос. Очень много папочек на компе. Такое бывает, когда собирается разнородная информация из различных источников в количествах, превосходящих "прочитать за пару вечеров". Может ли Deep Research решить задачу классификации файлов(документов)?

Здравствуйте! Нейросети такого типа (MoT GPT) -- это авторегрессивные модели (модели предсказаний, в частности, генерации текста), они в основном нужны для того, чтобы перерабатывать текст, создавать из него другую форму -- например извлекать онтологии, делать суммаризацию, отвечать на вопросы.. Для классификации есть более быстрые и простые решения -- модели эмбеддинга, они в тысячи раз быстрее.

Sign up to leave a comment.

Articles