Комментарии 7
Дядя Стёпа много знает
Про БД и про запросы,
Что уложат всю систему
На лопатки в счёта два.
Но ты молод и задорен,
Ты не слушай великана,
Делай всё как тебе шепчет
Голос внутренний всегда.
И тогда на горизонте
Ты познаешь приключенья,
От которых дух захватит
Как в паденье с высоты,
Как в прыжке без парашюта
На полянку, где цветы.
Рифмы - вставки текста - рифмы - вставки текста - рифмы -...
Чувак пиши от себя , а не от LLM, а?
Да, что ты можешь знать про боль? Подумал я когда начал читать. А нет. Всё по делу.
Мне так даль что такой достойный материал собрал так мало активности, а ведь обсудить есть что. Мне вот интересно есть ли какой-то пайплайн нормализации грязных данных перед их отправкой в Elastic?
Спасибо за лестный отзыв!
По поводу вопроса: это на моем опыте наименее обобщаемая часть работы, ибо очень много переменных:
- природа самих данных: какие они, что там важно, что нет
- изначальное качество данных
- источники и частота обновления данных. Если есть UGC, задача сразу на порядок сложнее
В малых и средних командах, если данных немного, получается ручками их выравнивать и часто это - лучший вариант. А после нескольких итераций ручного улучшения стоит думать над алгоритмическим/нейросетевым решением.
Короче готового ответа у меня нет :) Это процесс, в котором нужно подключать голову и иметь четкое видение того, что такое "хорошие" данные и чем "плохи" текущие. Я таким успел позаниматься до бума на LLM-ки, так что тогда это был на 99% ручной процесс. Сейчас точно можно после некоторого количества первоначальной ручной работы процесс автоматизировать

Убейте это немедленно: делаем худший поиск на рынке