Хабр Курсы для всех
РЕКЛАМА
Практикум, Хекслет, SkyPro, авторские курсы — собрали всех и попросили скидки. Осталось выбрать!
то чем больше слов в одной записи, тем дольше будет выполняться вся работа.
то тут уж мне либо сутки (двое? трое? неделю?)
некоторые запросы на SQL попросту невыразимы вменяемо
pandas.Если не хватает производительности для обработки, то вам нужно больше памяти и больше вычислительных ядер, а не больше машин с Hadoop-ом.
Если и этого мало, 100Мб можно разделить и очень быстро скопировать части на несколько серверов, обработав их параллельно и независимо друг от друга.
Вам не нужен Hadoop — у вас просто нет столько данных