Как стать автором
Обновить
  • по релевантности
  • по времени
  • по рейтингу

Текст любой ценой: DOCX и ODT

PHP *
Недавно возникла задача получения чистого текста из различных форматов документооборота — будь-то документы Microsoft Word или PDF. Задача была выполнена даже с чуть более широким списком возможных входных данных. Итак, этой статьёй я открываю список публикаций о чтении текста из следующих типов файлов: DOC, DOCX, RTF, ODT и PDF — с помощью PHP без использования сторонних утилит.

Читать дальше →
Всего голосов 113: ↑98 и ↓15 +83
Просмотры 59K
Комментарии 60

Простейшая генерация odt файла из существующего

PHP *
Как-то раз передо мной стояла задача реализовать генерацию договоров для клиентов с нашего корпоративного сайта.
Сначала задача была решена просто ужасно — был заготовлен html шаблон договора, а пользователю выдавалась конвертация шаблона в pdf. Само собой это выливалось в кучу неудобств, в том числе, если требовалось что-то поменять в договоре.

Следующим решением было генерация odt документа. Это позволило редактировать документ нашим менеджерам независимо от сайта и программистов.
Полностью генерировать с нуля смысла нет. Почему бы не поработать с уже имеющимся файлом (отредактированным в OpenOffice) и просто заменить в нем необходимые элементы?

Этим мы с вами и займемся.
Читать дальше →
Всего голосов 35: ↑33 и ↓2 +31
Просмотры 9.4K
Комментарии 23

Экспорт в ODT и распознавание старинных текстов теперь в онлайне

Блог компании ABBYY
imageВсем привет от команды разработчиков FineReader Online.
Когда в этом блоге писали про то, что ABBYY FineReader 11 стал ближе к пользователям линукса, потому что он умеет экспортировать в ODT, нас немножко обсмеяли в комментах. Да, наверное, вы были правы. Мы поняли свою ошибку и исправились — теперь получить из картинки качественно распознанный файл в формате ODT можно не перебираясь из Linux'а даже под виртуальную машину с виндой. Среди форматов экспорта FineReader Online есть так любимый многими пользователями свободного ПО Open Document Text.

Читать дальше →
Всего голосов 23: ↑21 и ↓2 +19
Просмотры 4.1K
Комментарии 7

Формирование документов на основе ODT шаблонов. ODT to PDF

PHP *PDF
Из песочницы
Здравствуйте, уважаемы хабровчане!

Не так давно мне пришлось столкнуться с типичной задачей – формировать документы с пользовательскими данными на основе шаблонов ODT средствами PHP. Звучит весьма тривиально, но намучиться пришлось сильно. Дело в том, что ни одно из доступных средств, так или иначе, не подошло. Одни библиотеки формировали документ криво, другие не поддерживали русские шрифты, третьи – двигали картинки в стиле Harlem Shake. Вот и пришлось «велосипедить».

Итак, задача вкратце:

  1. Обработать ODT шаблон. Заменить placeholder’ы на пользовательские значения
  2. Конвертировать в pdf. Показать пользователю

Читать дальше →
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 10K
Комментарии 8

Вертикальное письмо в современном IT

CSS *
Recovery mode
Привет, Хабр! Двунаправленным письмом в наше время никого не удивить. Оно поддерживается управляющими символами Уникода, для него создан HTML-тег <bdo>. Но горизонтальные письменности – не единственные существующие и применяемые для записи человеческой речи. Кроме обычного слева-направо и справа-налево есть ещё два варианта вертикального письма. Первый – восточно-азиатский, использующийся в языках, основанных на китайском. В них иероглифы идут сверху-вниз, а строки — справа-налево. Этот стиль письма называется "татегаки" по-японски, "шупай" по-китайски и "чонсо" по-корейски. Отмечу, что европейский привычный нам стиль слева-направо в этих трёх языках так же применяется и называется соответственно "йокогаки" по-японски, "хенпай" по-китайски и "хинсо" по-корейски. Именно так, слева-направо, азиатские народы пишут и читают с использованием компьютеров на сегодняшний день. Второй вариант – монгольский, символы идут тоже сверху-вниз, но строки – слева-направо. В современной Монголии этот стиль письма давно заменён европейским, но в некоторых областях Китая до сих пор служит для записи монгольского языка. Так насколько же компьютеры поддерживают такое письмо? Давайте искать вертикальные артефакты в разных приложениях информационных технологий.
Читать дальше →
Всего голосов 25: ↑25 и ↓0 +25
Просмотры 6.2K
Комментарии 14

Создаем простой документ с таблицей при помощи ODF Toolkit

Блог компании Россельхозбанк API *
Из песочницы
Если у вас стоит задача сделать пару несложных отчетов, а ваши пользователи используют Open Office, то вам нет необходимости использовать большие системы построения отчетов наподобие Bird, Jasper или их аналогов.

Для этой задачи отлично подойдет набор инструментов ODF Toolkit.

ODF Toolkit, согласно информации с официального сайта, — это набор модулей Java, которые позволяют создавать, сканировать или манипулировать документами в формате открытого документа (ISO / IEC 26300 == ODF). В отличие от других подходов, которые основаны на манипуляциях во время выполнения с тяжелыми редакторами через интерфейс автоматизации, ODF Toolkit является легковесным и идеально подходит для использования на сервере.

image
Читать дальше →
Рейтинг 0
Просмотры 1.6K
Комментарии 4

Конвертируем ODT в XML

Блог компании Auriga Open source *.NET *XML *C# *
Tutorial

Не прошло и полугода со дня публикации моей предыдущей статьи про формирование чистого XML из офисного документа. В этот раз расскажу про формат Open Document Format (ODF) и как можно получить «причесанный» XML из текстовых документов с расширением .odt. В следующей статье покажу, как обработать .ods, и завершу данный цикл статей.

Читать далее
Всего голосов 6: ↑6 и ↓0 +6
Просмотры 1.7K
Комментарии 5