Обновить

Векторизация текстов с помощью LLM. Гайд для аналитиков, которые не хотят, чтобы их проекты переделывали с нуля

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров4.5K
Всего голосов 20: ↑20 и ↓0+28
Комментарии4

Комментарии 4

Интересно, как бы свежевыпущенная EmbeddingGemma подошла для этой задачи.

Или как бы Frida подошла бы для этого)

Да, моделей много. Под каждую задачу нужно подбирать свою "волшебную таблетку". И, я так думаю, что это задача аналитика а не команды разработки. А за модельки спасибо! Не сталкивался, посмотрю.

Ещё для большей универсальности можно выстроить архитектуру автотипизации: где для большого набора сырых данных, применяется большая модель, анализирующая некоторые части этих данных, с целью определения их типа и подходящей embedding модели. А дальше набор данных обрабатывает выбранная модель. В том числе так можно и автоматом вычислить параметры чанкования.

Конечно это более ресурсозатратно, но позволяет сделать более универсальный инструмент.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
www.mts.ru
Дата регистрации
Дата основания
Численность
свыше 10 000 человек
Местоположение
Россия