1. Средняя страница состоит из 100-120 элементов, 29 ноября, к примеру, суммарно было около 600к pageviews. Т.е. около 6М запросов к серверам в этот день.

2. Не знаю, никогда не проверяли, изначально была выбрана такая архитектура.

3. Синхронизация стартует раз в 5 минут, среднее время до появления новости 2.5 минуты при нормальной связи и несколько больше при перебоях (это непрогнозируемо).

4. Возникали, но редко и в основном это происходит, когда колбасит связь между серверами. Имено потому, что мы делаем синхронизацию в 2 прохода (сначала видео и картинки. потом текст) — это возникает очень редко на практике, так как ноды синхронизируются в параллели — то может быть ситуация, когда одна нода полностью синхронизирована, посетитель попадает на нее, но видео браузер решает подгрузить с другой ноды.

По поводу кода самой синхронизации — там вообще нет ничего интересного, вот, например, кусок, который синхронизирует текст:

#syncing text
for mirror in $MIRRORS
do
STAT_STRING="${STAT_STRING} `date +%s`,"
for datadir in $DIRLIST2
do
echo -n $SYNCDIR$datadir;
echo -n "->";
echo -n $mirror$datadir;
echo;
/usr/bin/rsync -avlrpz --delete --copy-links --force --timeout=120 --exclude-from=./excludes.rsync $SYNCDIR$datadir $mirror$datadir
done
STAT_STRING="${STAT_STRING} `date +%s`,"
done

Для видео то же самое, только можно сэкономить процессорное время. если отключить сжатие — так как его смысла жать не имеет вообще.