sgzmd Nov 10 2009 at 09:23

Map/Reduce: решение реальных задач — TF-IDF

6 min

21K

Hadoop*Algorithms*

+30

Comments 18

GenaB Nov 10 2009 at 10:46

кстати, вот ещё неплохая статья по теме с реализаций в амазоновском облаке

techportal.ibuildings.com/2009/11/02/precision-color-searching-with-gmagick-and-amazon-elastic-mapreduce/

sgzmd Nov 10 2009 at 10:48

У Амазона вообще очень интересная реализация Hadoop'a — подробностей особых я не знаю, но было бы интересно разобраться (жду какой-нибудь конференции где будем и мы, и они)

sevmax Nov 10 2009 at 12:18

ElasticMapReduce
Для решения ресурсоёмких задач — самое то. Решил, заплатил за времярешения. Выключил все сервера — результат положил на S3.

sgzmd Nov 10 2009 at 12:20

Ну есть еще один вариант — вы постоянно решаете ресурсоемкие задачи. Но в принципе да, для многих задач такое решение подойдет (потому как даже содержать инфраструктуру из десятков серверов уже совсем не дешево и не просто, не говоря уже о сотнях или тысячах).

sevmax Nov 10 2009 at 12:24

Если вы постоянно решаете ресурсоемкие задачи, значит извлекаете из этого определенную прибыль. В этом случае будет не проблема оплатить счета за Amazon. Более того, сервера автоматически выключаются после решения задачи, поэтому о сохранении средств можно не беспокоиться.
В любом случае выгоднее запустить облако, чем покупать или арендовать физические сервера.

sgzmd Nov 10 2009 at 12:25

Скажем так — вы правы, но не для всех случаев такое решение применимо. В моем случае все-таки (наверное) выгоднее иметь свои кластеры :-)

dvolk Nov 10 2009 at 18:16

Амазон, конечно, молодцы, несут Hadoop в массы :)

Но, как и везде, выгоды эластичного Hadoop-а идут не без цены. И дело не только в деньгах, которые платятся за время работы вашего кластера. Я слушал презентацию одного мужика, который работает на громадном Hadoop-кластере в Yahoo, и он говорил, что физическое расположение машин в кластере имеет громадное значение для его производительности. То есть, на амазоновском Hadoop-е можно делать все, что угодно, но производительность будет хромать, что естественно. Но тут уж, кому что. В целом, возможность запускать задачи Map/Reduce по требованию и платить только за использованное время — это очень круто.

sevmax Nov 10 2009 at 12:25

Кстати, я ЗА создание отдельного блога по Hadoop :)

sgzmd Nov 10 2009 at 12:25

вот кто б мне еще дал его создать ;-)

sevmax Nov 10 2009 at 12:27

Может быть по положительным отзывам пользователей данному вопросу будет дан ход ;)

sgzmd Nov 10 2009 at 12:32

Посмотрим ;-) Статьи будут, это я точно могу сказать.

sevmax Nov 10 2009 at 12:32

Приятно слышать.
С удовольствием почитаю продолжение серии :)

UFO landed and left these words here

sgzmd Nov 10 2009 at 12:31

Лингвистическим корпусом называют собрание текстов, собранных в соответствии с определёнными принципами, размеченных по определённому стандарту и обеспеченных специализированной поисковой системой. Иногда корпусом («корпус первого порядка») называют просто любое собрание текстов, объединённых каким-то общим признаком (языком, жанром, автором, периодом создания текстов).

— ru.wikipedia.org/wiki/%D0%9A%D0%BE%D1%80%D0%BF%D1%83%D1%81%D0%BD%D0%B0%D1%8F_%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0

Крайне расхожий термин в области information retrieval.

UFO landed and left these words here

sgzmd Nov 10 2009 at 12:41

Под текстом чаще понимается документ, под корпусом — коллекция документов. Впрочем, обычно это понятно из контекста.

UFO landed and left these words here

sgzmd Nov 11 2009 at 09:09

Все будет, я обещаю ;-)