Comments 25
Отличный пост! Спасибо!
Windows Подворье двоичных файлов формата
Смешно)
WCBFF — это не «Windows Подворье двоичных файлов формата», а «Смешанный Бинарный Файловый Формат».
А в каком переводчике этот вариант? :)
PS. Compound — скорее «составной» а не «смешаный» в данном контексте.
PS. Compound — скорее «составной» а не «смешаный» в данном контексте.
В том же google, но если переводить слово отдельно. Составной — не звучит. А смешанный — подходящий синоним. ИМХО.
Ну что Вы в самом деле — чтобы получить только текст в doc и cfb нужно прочитать порядка 100 страниц документации на неродном языке. Чтобы не делать текст совсем сухим и техническим, я и разбавил его маленькой, возможно плоской шуткой.
Я бы название формата вообще расшифровал, как «структурированный бинарный файловый формат».
Я бы название формата вообще расшифровал, как «структурированный бинарный файловый формат».
Месьё, где Ваше чувство юмора?
А из PSD не планируется текст вытягивать?
Мнение гуглоразработчика по поводу этого формата есть:
code.google.com/p/xee/source/browse/trunk/XeePhotoshopLoader.m?spec=svn28&r=11#107
интересно будет почитать комменты хабровчанина ;)
Мнение гуглоразработчика по поводу этого формата есть:
code.google.com/p/xee/source/browse/trunk/XeePhotoshopLoader.m?spec=svn28&r=11#107
интересно будет почитать комменты хабровчанина ;)
Мне кажется вот это уже лишее.
Скажем так (без оглядки на структуру формата, его сложность и добрые слова разработчика) этот формат мне в данный момент не интересен. Более того, я могу сказать, что я не считаю DOC или CFB плохими форматами, в то время когда они были изобретены, они здорово увеличивали скорость работы с документами на нешибко скорых компьютерах. Вполне возможно, что PSD шёл по тому же пути.
Оказывается не так всё просто =(
Эта статья то, за что я люблю Хабрахабр! Спасибо.
Круто. вот уж не думал, что микрософт изобретут файловую систему внутри файла )
а вообще вопрос — какой может быть профит от фрагментирования?
а вообще вопрос — какой может быть профит от фрагментирования?
Очень познавательно, читается на одном дыхании, спасибо
По идее везде в тексте стоит заменить CFB на CBF. Немного бросается в глаза.
А почему вы функцию unpack не используете?
Проблема… функция unicode_to_utf8 работает странно…
прогоняю через mb_strtolower($text, 'UTF-8'); и текст в нижний регистр не переводится.
Через вашу функцию, которая docx конвертит в текст — текст нормально в нижний регистр переводится. mb_* функции не понимают, что это UTf-8 и отказыаются работать с такими текстами.
прогоняю через mb_strtolower($text, 'UTF-8'); и текст в нижний регистр не переводится.
Через вашу функцию, которая docx конвертит в текст — текст нормально в нижний регистр переводится. mb_* функции не понимают, что это UTf-8 и отказыаются работать с такими текстами.
Вот одну строчку заменил на Iconv. помогло.
if (!$isANSI)
$part = iconv("UTF-16","CP1251", $part); //$part = $this->unicode_to_utf8($part);
+ Добавил обработчик на случай зацикленности. Число можно подобрать из рассчета максимального размера файла, который придется обрабатывать.
Таким образом тот файл просто не будет обработан.
Таким образом тот файл просто не будет обработан.
while (($cp[] = $this->getLong($i, $pieceTable)) != $lastCP){
$i += 4;
if($i>=200000)return '';
}
спасибо!
Sign up to leave a comment.
Текст любой ценой: WCBFF и DOC