Пока, увы, не требуется. Кроме того, я хоть и не разбирался с XLS вообще, но боюсь там будут серьёзные проблемы с формулами, что сделает реализацию достаточно дикой. Могу ошибаться.
А вообще, есть желание переписать свои наработки (WCBFF и иже с ним, и PDF) на Python'е, который сейчас изучаю. Есть мнение, что код получится меньше и понятней.
Есть одна правда — заключается в том, что для xls есть вплоне вменяемая библиотека — как для забивания, так и для потрошения… http://www.codeplex.com/PHPExcel/. Использовал её для генерации прайсов.
А я вот делаю импортёр XLS. В пятницу показал первые цифры. Из целой кучи команд реализовал только две — NUMBER и MULRK. Завтра буду исправлять эту недоработку :)
Есть мнение что для всех перечисленных форматов файлов (кроме, наверное, pdf) можно использовать open office в headless режиме, как это и сделали парни из Alfresco. Понятно, что это куда более громоздкое решение, но, как говорится, 30 гектар леса разом и под корень.
Вы даже не представляете в каких стеснённых условиях у меня идёт разработка: save_mode, max_execution_time = 30, выключенные shell_exec и иже с ним. Но заказчик не хочет менять хостинг. Что ж работаем на том, что есть… Ясно дело, что можно использовать стороннее, отлаженное, классное. Но иногда не получается, хотя очень хочется.
Не понятно — как выстраивается последовательность того же текста?
на слайдах он может быть абсолютно не упорядочен.
Не получится ли на выходе (в некоторых случаях) текст не поддающийся анализу?
Это ещё предстоит выяснить. В худшем случае, придётся ещё и положение текста читать на странице и исходя из этого делать какие-либо предположения. Как уже говорил, скрипт ещё сыроват — в процессе доработки.
Текст любой ценой: PPT