Pull to refresh
1
0
BearLion @BearLion

User

Send message

Вы чет совсем уж ерунду пишите. Автор мой ровестник, мой первый комп 386sx, около 30мГц, 764Кб оперативки, это был мой 5-ый класс, конечно, не новый комп, но тогда они были у единиц. И я отлично помню, как пытался doom запустить на этой тачке. И весьма возможно, что автор начал знакомится с компами и раньше моего.

Так бы и писали, что это рекомендация. Потому что hdfs работает с нодами до PB и с дисками любого размера. Все остальное домыслы и их нельзя использовать в качестве обоснований.

А откуда информация, что hdfs поддерживает только 100TB на ноду и 8TB диски?

Добрый день. Я правильно понял, что вы рекомендуете выставлять replication factor равным количеству нод минус 1? Чтобы переживать выпадание одной тачки? Т.е. сейчас у вас в кластере 5 машин и rf=4?

Ну вы, ребят, даете. Там же все данные открыты по API, обращаетесь и получаете красивый json, который, конечно может поменяться в любой момент, но скорее всего более стабильный к изменениям чем html, который вы большую часть статьи парсите ;). И еще подсказка, в результатах есть поле ProfileUrl, которое является указанием на профайл спортсмена и там уже приведенный пол, имя и так далее. Не везде, но в абсолютном большинстве случаев — это уберегло бы вас от нормализации на своей стороне. Потому что она понятное дело тоже делается, просто в протоколах гонок я оставляю оригинальные названия, но для определения профайла, конечно, тоже вожусь с транслитерацией и тем, что Наталья и Наталия — это разные имена, но на английском будут одинаковыми, ну и там еще оч. много разного ;)
И этого уровня достаточно для аналитики?
1) Ведь вы сразу потеряли хотя бы что-то близкое к real-time
2) Теряется возможность посчитать достаточно много метрик, например перцентили, воронки.
А я правильно понимаю, что у вас в итоговом агрегате для одного пользователя осталась только одна строка. Грубо говоря, это результат запроса
select user_id, dt, count(), avg(),…
from table
group by user_id, dt
Ужас-ужас! Читайте планы запросов, читайте литературу, лучше не пишите если не разобрались до конца.

Information

Rating
Does not participate
Registered
Activity