Комментарии 4
Интересно, как бы свежевыпущенная EmbeddingGemma подошла для этой задачи.
Ещё для большей универсальности можно выстроить архитектуру автотипизации: где для большого набора сырых данных, применяется большая модель, анализирующая некоторые части этих данных, с целью определения их типа и подходящей embedding модели. А дальше набор данных обрабатывает выбранная модель. В том числе так можно и автоматом вычислить параметры чанкования.
Конечно это более ресурсозатратно, но позволяет сделать более универсальный инструмент.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Векторизация текстов с помощью LLM. Гайд для аналитиков, которые не хотят, чтобы их проекты переделывали с нуля