Действительно, нейросетевые методы сильно продвинули качество поиска и анализа текстов, но векторные представления никуда не исчезают — они остаются основой для многих AI-систем. Не будем забывать, что сами LLM работают с векторными представлениями текста, но на более глубоком уровне.
Современные решения всё чаще комбинируют подходы: векторные индексы (например, Faiss) работают вместе с LLM, чтобы объединить скорость и эффективность поиска с глубиной анализа нейросетей. Тут важным фактором остается меньшая стоимость и большая интерпретируемость векторных представлений. Думаю, будущее скорее за гибридными системами, где нейросети дополняют классические векторные методы, а не заменяют их полностью.
Для каждого поля - названия, описания и характеристик - строим отдельный эмбеддинг. Общий эмбеддинг (avgWeighted) используем на первом этапе, чтобы оценить релеватность всей карточки запросу. Затем, если по каким-то запросам необходимо повысить релеватность, работаем уже с отдельными полями и их эмбеддингами. Например, самые важные ключевые слова выносим в название (т.к. это самое важное поле при индексации), а если поисковой запрос имеет второстепенное значение - редактируем описание или характеристики
В подавляющем большинстве случаев качества эмбеддингов по 4 фото без предобработки хватает. Иногда яркий фон и инфографика действительно искажают результаты, но это частично компенсируется влиянием текстовых эмбеддингов. Трудности возникают, когда от задачи поиска конкурентов мы переходим к матчингу, где нужно найти не просто похожие, а идентичные товары. Там приходится дополнительно удалять фон и другие лишние объекты с SAM (Segment Anything Model)
Интересный вопрос!
Действительно, нейросетевые методы сильно продвинули качество поиска и анализа текстов, но векторные представления никуда не исчезают — они остаются основой для многих AI-систем. Не будем забывать, что сами LLM работают с векторными представлениями текста, но на более глубоком уровне.
Современные решения всё чаще комбинируют подходы: векторные индексы (например, Faiss) работают вместе с LLM, чтобы объединить скорость и эффективность поиска с глубиной анализа нейросетей. Тут важным фактором остается меньшая стоимость и большая интерпретируемость векторных представлений. Думаю, будущее скорее за гибридными системами, где нейросети дополняют классические векторные методы, а не заменяют их полностью.
Для каждого поля - названия, описания и характеристик - строим отдельный эмбеддинг. Общий эмбеддинг (avgWeighted) используем на первом этапе, чтобы оценить релеватность всей карточки запросу. Затем, если по каким-то запросам необходимо повысить релеватность, работаем уже с отдельными полями и их эмбеддингами.
Например, самые важные ключевые слова выносим в название (т.к. это самое важное поле при индексации), а если поисковой запрос имеет второстепенное значение - редактируем описание или характеристики
В подавляющем большинстве случаев качества эмбеддингов по 4 фото без предобработки хватает. Иногда яркий фон и инфографика действительно искажают результаты, но это частично компенсируется влиянием текстовых эмбеддингов.
Трудности возникают, когда от задачи поиска конкурентов мы переходим к матчингу, где нужно найти не просто похожие, а идентичные товары. Там приходится дополнительно удалять фон и другие лишние объекты с SAM (Segment Anything Model)