StepanRodionov30 мар в 19:53

Убейте это немедленно: делаем худший поиск на рынке

Средний

15 мин

6.7K

Поисковая оптимизация * Поисковые технологии *

Комментарии 7

UniInter 30 мар в 20:32

Дядя Стёпа много знает
Про БД и про запросы,
Что уложат всю систему
На лопатки в счёта два.

Но ты молод и задорен,
Ты не слушай великана,
Делай всё как тебе шепчет
Голос внутренний всегда.

И тогда на горизонте
Ты познаешь приключенья,
От которых дух захватит
Как в паденье с высоты,
Как в прыжке без парашюта
На полянку, где цветы.

wintermute2025 31 мар в 05:48

Рифмы - вставки текста - рифмы - вставки текста - рифмы -...
Чувак пиши от себя , а не от LLM, а?

StepanRodionov 31 мар в 06:24

О дивный новый мир!

Ты несколько дней делаешь веселые эпиграфы к каждому параграфу, а потом тебя обвиняют в использовании LLM :)

UniInter 31 мар в 18:17

Товарищ wintermute2025 не знаком с творчеством Григория Остера.

greenxxl 3 апр в 10:02

Да, что ты можешь знать про боль? Подумал я когда начал читать. А нет. Всё по делу.

franky_d_zoro 4 июн в 18:56

Мне так даль что такой достойный материал собрал так мало активности, а ведь обсудить есть что. Мне вот интересно есть ли какой-то пайплайн нормализации грязных данных перед их отправкой в Elastic?

StepanRodionov 11 июн в 10:00

Спасибо за лестный отзыв!
По поводу вопроса: это на моем опыте наименее обобщаемая часть работы, ибо очень много переменных:
- природа самих данных: какие они, что там важно, что нет
- изначальное качество данных
- источники и частота обновления данных. Если есть UGC, задача сразу на порядок сложнее

В малых и средних командах, если данных немного, получается ручками их выравнивать и часто это - лучший вариант. А после нескольких итераций ручного улучшения стоит думать над алгоритмическим/нейросетевым решением.

Короче готового ответа у меня нет :) Это процесс, в котором нужно подключать голову и иметь четкое видение того, что такое "хорошие" данные и чем "плохи" текущие. Я таким успел позаниматься до бума на LLM-ки, так что тогда это был на 99% ручной процесс. Сейчас точно можно после некоторого количества первоначальной ручной работы процесс автоматизировать

Зарегистрируйтесь на Хабре, чтобы оставить комментарий