Pull to refresh

Comments 17

Непонятно только почему импортируется одни класс, а используется другой.
Прошу меня извинить, задумался, видать, когда набирал тест примера.
из ридми — «small sweat thing» — это маленькая потная хрень
Пусть так и будет! Мы ж MS продукты парсим ;)
Вот я описался-то :) Спасибо, что обратили внимание.
Эм… а почему у вас по-французски написано «мьет», а по-русски «митти»?

Кстати, для выдирания чистого текста из майкросвалки отлично годится Antiword.
Простите меня за мой французский :)
А «новые» форматы — docx и компания?
Тем более что спецификация открыта… Но, тем не менее, я так и не нашёл нормальной библиотеки для генерации, а текст приходилось вручную через lxml выдирать.
Посмотрите мою старую статью. А в целом парсинг зазипованного xml совсем не сложная задача, поэтому её решение если и будет на python'е, так разве что когда-нибудь потом.
Я знаю.) для этого в принципе достаточно базовых знаний XML'a и lxml, тем не менее, для серьёзных решений этого мало — было бы классно иметь единую библиотеку для парсинга/генерации. По всем используемым «офисным» форматам.
Так а на питоне разве нет ещё парсера OLE-документов, портированного с перла? На котором пхпшный Spreadsheet_Excel_Reader построен.
Вполне возможно, что я что-то проглядел. В целом мне требовался определённый способ чтения структуры OLE-хранилища, который я хотел бы «протащить» через все остальные надстройки, будь то doc, ppt или xls.
В пхп это pear.php.net/package/OLE

Т.к. это порт перлового первоисточника, то, в общем, вероятно, что и на питоне не стали делать то же самое заново.
Уважаемый, Вы видели этот порт? Он читает данные во внутренний буфер, т.е. будет загинаться на больших файлах. Мой вариант читает данные прямо из файла «на лету», у него нет проблемы нехватки памяти. Это не порт и не велосипед — это так, как надо было делать изначально.
Т.е. когда вы на пхп это сами писали, я удивился, но на питоне это уже дважды велосипед :)
На PHP был велосипед — не спорю. Да впрочем после Word'а, любая реализация формата — уже велосипед.
Sign up to leave a comment.

Articles