Комментарии 4
На чём основывался выбор «Для DOC файлов — catdoc. Для считывания текста из DOCX файлов используется Zend.»
phpword.codeplex.com/ для их считывания смотрели?
phpword.codeplex.com/ для их считывания смотрели?
Почему-то пропустил эту либу. Спасибо за ссылку!
phpword.codeplex.com делает вот что:
В переменную $result записывается в xml формате структура документа.
Если сделать
то получим текст, хотя со всяким мусором.
Zend делает тоже самое только обрабатывает лучше, мусора почти нет.
$word_file = JPATH_COMPONENT.DS.DS.'PHPWord_Docs.docx';
$objZip = new ZipArchive();
$objZip->open($word_file);
// Opening .docx files
$result = $objZip->getFromName('word/document.xml');
В переменную $result записывается в xml формате структура документа.
Если сделать
$result = strip_tags($result);
то получим текст, хотя со всяким мусором.
Zend делает тоже самое только обрабатывает лучше, мусора почти нет.
Крутяк!
Спасибо.
Спасибо.
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Поиск по PDF, DOC, DOCX файлам с помощью Sphinx и PHP