Комментарии 4
На чём основывался выбор «Для DOC файлов — catdoc. Для считывания текста из DOCX файлов используется Zend.»
phpword.codeplex.com/ для их считывания смотрели?
phpword.codeplex.com/ для их считывания смотрели?
0
Почему-то пропустил эту либу. Спасибо за ссылку!
0
phpword.codeplex.com делает вот что:
В переменную $result записывается в xml формате структура документа.
Если сделать
то получим текст, хотя со всяким мусором.
Zend делает тоже самое только обрабатывает лучше, мусора почти нет.
$word_file = JPATH_COMPONENT.DS.DS.'PHPWord_Docs.docx';
$objZip = new ZipArchive();
$objZip->open($word_file);
// Opening .docx files
$result = $objZip->getFromName('word/document.xml');
В переменную $result записывается в xml формате структура документа.
Если сделать
$result = strip_tags($result);
то получим текст, хотя со всяким мусором.
Zend делает тоже самое только обрабатывает лучше, мусора почти нет.
0
Крутяк!
Спасибо.
Спасибо.
0
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Поиск по PDF, DOC, DOCX файлам с помощью Sphinx и PHP