Наблюдаю интересную ситуацию: статью плюсуют, но не комментируют. Тут два варианта: либо все понятно и нечего комментировать, либо понятны только предлоги, но явно что-то умное. WTF?! :-)
скорее всего причина в заголовке…
мало кто на практике знает, что такое tf-idf, эту серию статей было бы неплохо начать
с введения в решаемую задачу, т.е. tf-idf
я, вот, на тойже википедии, о нем когда-то читал… но реально имею смутное представление
и хадуп тоже хоть продукт и известный, но все же редкий зверь у рядового девелопера
PS: (немного PR) но у нас в компании на нем (hadoop+nutch) построили экспериментальный узко-специализированный поисковик onfood.ru
Ну да, согласен… вероятно, надо все-таки написать описание этого метода до того, как перейдем к написанию кода. Хотя, честно говоря, там ничего сложного нет — этот метод лежит в основе практически всех поисковиков.
Ну да, довольно злая бумага по ranker'ам — но это как мне кажется, не вполне релевантно теме статьи (хотя слайды я не досмотрел если честно). А вообще-то с Machine Learning на Hadoop только сейчас начал намечаться какой-то прогресс (да и то: сейчас мне нужен какой-то очень хороший SVM классификатор который бы работал на гриде и ничего найти не могу; сижу пишу имейлы по всем частям компании, возможно, у кого-то есть внутренние реализации, которые можно доработать напильником).
Map/Reduce: решение реальных задач — TF-IDF — 2