А «новые» форматы — docx и компания?
Тем более что спецификация открыта… Но, тем не менее, я так и не нашёл нормальной библиотеки для генерации, а текст приходилось вручную через lxml выдирать.
Посмотрите мою старую статью. А в целом парсинг зазипованного xml совсем не сложная задача, поэтому её решение если и будет на python'е, так разве что когда-нибудь потом.
Я знаю.) для этого в принципе достаточно базовых знаний XML'a и lxml, тем не менее, для серьёзных решений этого мало — было бы классно иметь единую библиотеку для парсинга/генерации. По всем используемым «офисным» форматам.
Вполне возможно, что я что-то проглядел. В целом мне требовался определённый способ чтения структуры OLE-хранилища, который я хотел бы «протащить» через все остальные надстройки, будь то doc, ppt или xls.
Уважаемый, Вы видели этот порт? Он читает данные во внутренний буфер, т.е. будет загинаться на больших файлах. Мой вариант читает данные прямо из файла «на лету», у него нет проблемы нехватки памяти. Это не порт и не велосипед — это так, как надо было делать изначально.
Текст любой ценой: Miette