Pull to refresh
0
Konstantin Gerasimenko@KRED

User

1
Subscribers
Send message

Небольшой тест производительности Hadoop/Mapreduce

Reading time2 min
Reach and readers4.6K
Давным давно задался себе вопросом «На сколько эфективно работает MapReduce ?»

Появилась такая возможность и на кластере состоящим из 4 нодов в такой вот конфигурации я решил потестить:
— 3 ноды: Intel Xeon CPU W3530 @ 2.80GHz 12GB RAM
— 1 нода: Intel Xeon CPU X5450 @ 3.00GHz. 8GB RAM

Операционка debian, hadoop 1.2 (с офф.сайта), java 7 (От ORACLE).

Исходные данные:
— ХМЛ файл: dumps.wikimedia.org/enwiki/20130904/enwiki-20130904-stub-meta-current.xml.gz
— в распакованом состоянии файл занимает 18ГБ места.
— 31М записей о страничках в вики.
— Bzip2 сжимает этот файл в 2ГБ
— 593.045.627 строк в файле
Читать дальше →

Information

Rating
Does not participate
Location
Bayern, Германия
Date of birth
Registered
Activity