У нас как раз gpfdist смотрит на RAM-диск и ETL-хост подключен в interconnect сеть Greenplum по 10GbE. Но вот скорость выгрузки в текстовый файл при этом составляет ~ 30MB/s. Есть правда одно но — ETL-хост у нас виртуальный. Но это все же не должно давать падение скорости на порядок. Ваши данные о скорости — это из личного опыта?
По факту скорость выгрузки во writable external table существенно меньше скорости загрузки. (Множество сегментов могут параллельно записывать данные, а один ETL хост с такой скоростью принимать их не может). Возможно, использование большого числа gpfdist улучшило бы ситуацию, но есть подозрение, что полученный выигрыш все равно бы съела загрузка из текстовых файлов в SAS.
Еще Append и Lookup вполне юзабельны. А так да, без User Written Code не обойтись.
LSF не используем, у нас самописный планировщик. На prod'е пользователи процессы не запускают — все автоматизировано, так что один и тот же процесс несколькими пользователями не запускается. Ну а в случае каких-то проблем, чинит обычно кто-то один, так что проблем не возникает.
LSF не используем, у нас самописный планировщик. На prod'е пользователи процессы не запускают — все автоматизировано, так что один и тот же процесс несколькими пользователями не запускается. Ну а в случае каких-то проблем, чинит обычно кто-то один, так что проблем не возникает.