Обновить

Комментарии 7

Дядя Стёпа много знает
Про БД и про запросы,
Что уложат всю систему
На лопатки в счёта два.

Но ты молод и задорен,
Ты не слушай великана,
Делай всё как тебе шепчет
Голос внутренний всегда.

И тогда на горизонте
Ты познаешь приключенья,
От которых дух захватит
Как в паденье с высоты,
Как в прыжке без парашюта
На полянку, где цветы.

Рифмы - вставки текста - рифмы - вставки текста - рифмы -...
Чувак пиши от себя , а не от LLM, а?

О дивный новый мир!

Ты несколько дней делаешь веселые эпиграфы к каждому параграфу, а потом тебя обвиняют в использовании LLM :)

Товарищ wintermute2025 не знаком с творчеством Григория Остера.

Да, что ты можешь знать про боль? Подумал я когда начал читать. А нет. Всё по делу.

Мне так даль что такой достойный материал собрал так мало активности, а ведь обсудить есть что. Мне вот интересно есть ли какой-то пайплайн нормализации грязных данных перед их отправкой в Elastic?

Спасибо за лестный отзыв!
По поводу вопроса: это на моем опыте наименее обобщаемая часть работы, ибо очень много переменных:
- природа самих данных: какие они, что там важно, что нет
- изначальное качество данных
- источники и частота обновления данных. Если есть UGC, задача сразу на порядок сложнее

В малых и средних командах, если данных немного, получается ручками их выравнивать и часто это - лучший вариант. А после нескольких итераций ручного улучшения стоит думать над алгоритмическим/нейросетевым решением.

Короче готового ответа у меня нет :) Это процесс, в котором нужно подключать голову и иметь четкое видение того, что такое "хорошие" данные и чем "плохи" текущие. Я таким успел позаниматься до бума на LLM-ки, так что тогда это был на 99% ручной процесс. Сейчас точно можно после некоторого количества первоначальной ручной работы процесс автоматизировать

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации