Ну вот, как всегда, сидишь, выдумываешь что-то в корне абсурдное, принципиально никому не нужное, противоречащее элементарным жизненным устоям, а это уже давно есть и с успехом применяется.
Это и отдельный проект и закрытая разработка, компания делиться только концепцией но не реализацией.
BigTable к примеру использует GFS «to store log and data files.»
А интимные подробности, такие как «отсутствие автоматического запуска главного сервера в случае его сбоя (данная функциональность реализована в GFS)», получены из открытых источников?
Когда знакомился впервые с Hadup было только API на Java и C++ вроде, позволяющая работать с HDFS. Есть ли уже реализация в виде драйвера или модуля для linux, чтоб можно было смонтировать HDFS на клиентском узле?
К сожалению для WEB больше неободимо работать с большим кол-вом мелких файлов. Поетому единственное решение, которое я нашел из работающих это MogileFS. Альтернатив нет.
«По окончании записи, клиент уведомляет NameNode-сервер, который фиксирует транзакцию создания файла, после чего он становится доступным в системе»
Тоесть пока фаил не запишется на все требуемые сервера транзакция записи не завершится? или другими словами фаил будет доступен, когда он запишется на все сервера или уже будет доступен когда попадет на первый?
Мне кажется, что одним из огромнейших недостатков DFS является то что протокол namenode реализован через сильноспецифический java RPC, поэтому все клиентские реализиции работают через Java-биндинг
Hadoop Distributed File System