Pull to refresh

Текст любой ценой: RTF

PHP *
Что ж продолжим наши изыскания на предмет получения текста из различных форматов данных. Не так давно мы с вами научились вытаскивать текст из zipped-xml-based файлов (odt и docx), а также, в начале этой недели, из pdf. Сегодня мы продолжим с обещанным rtf.

Rich Text Format (он же rtf), вы могли бы подумать, достаточно забытый, хотя и не очень сложный формат представления текстовых данных. Что ж, относительно несложный для получения текста, но за свою историю: от своей первой версии до текущей 1.9.1 — он приобрёл под 300 страниц официально документации и огромное количество надстроек, которые в большей степени нам будут мешать при получении plain text'а. Попробуем их обойти…
Читать дальше →
Total votes 67: ↑60 and ↓7 +53
Views 80K
Comments 49

Простой способ подготовки отчетов на основе rtf-бланков

Perl *Programming *
Sandbox
При практической эксплуатации информационных систем уровня предприятия, особенно при недостаточно развитой системе подготовки отчетов, часто бывает необходимо заполнить разного рода бланки (например, заявления, справки, заключения и т.д.) или подготовить отчеты для распечатки на лазерном принтере, примерно в таком виде:

Пример rtf-бланка
Заголовок документа: PARAM1
Строка 1 Значение PARAM2
Строка 2 Значение PARAM3

Подпись под документом: PARAM4

Рис.1 Пример бланка в виде rtf-файла, переменные описаны в виде полей типа “QUOTE” – PARAM1,PARAM2,PARAM3,PARAM4

Читать дальше →
Total votes 18: ↑15 and ↓3 +12
Views 15K
Comments 16

TASK_RTF_NOTES в MS Project или RTF в MS SQL. Как его победить и готовить кубы в SSAS

Programming *.NET *Microsoft SQL Server *
Sandbox
Имеется довольно наболевшая для программистов организаций-пользователей MS Project задачка — получение заметок ответственных лиц. Заметки имеют значительную ценность (при правильной постановке задачи управления), потому что без исходной информации проблемы не классифицировать и правильное решение не принять. Их, заметки, конечно, надо выводить в отчеты.

С точки зрения пользователя все вроде бы просто — отчет он и есть отчет, но с технической точки зрения открывается масса нюансов и вопросов. В этой статье я привожу свое решение, основанное на некоторых кусках кода, раскиданных то тут, то там, по сети, и надеюсь, что оно пригодится моим коллегам.

Не претендую на оригинальность, однако аналоги данного решения почему-то не нашел, пришлось собирать самому. Кроме того, я не очень глубокий спец по MS SQL, поэтому, буде возникнут дельные комментарии — прошу комментировать.

Читать дальше →
Total votes 6: ↑4 and ↓2 +2
Views 3.2K
Comments 0

Началась массовая рассылка документов, использующих 0day-уязвимость в Word

Information Security *

В кампаниях по распространению зловредов Finspy и Latenbot для шпионажа использовалась одинаковая 0day-уязвимость в Word, а у документов была одинаковая дата и время последней редакции

Несколько дней назад в открытом доступе ещё до выхода патча была опубликована информация о новой 0day-уязвимости в Word (во всех версиях под все поддерживаемые операционные системы). Сообщалось, что уязвимость позволяет незаметно выполнить на компьютере жертвы произвольный код и установить вредоносное программное обеспечение через документ RTF. Вкратце описывался механизм работы зловреда.

Изощрённый характер атаки и использование 0day в популярном продукте намекали на то, что уязвимость целенаправленно использовалась против важных целей, а саму атаку проводили хакеры, близкие к спецслужбам и государственным структурам. Так оно и вышло.
Читать дальше →
Total votes 15: ↑14 and ↓1 +13
Views 20K
Comments 16

Обнаружена критическая 0day-уязвимость во всех версиях MS Word

Software
McAfee и FireEye сообщили об обнаружении реальных атак на пользователей Microsoft Word через новую 0day-уязвимость, для которой пока не выпущено патча. Уязвимость позволяет незаметно выполнить на компьютере жертвы произвольный код и установить вредоносное программное обеспечение. Что самое неприятное, уязвимости подвержены все версии MS Word на всех версиях Windows, в том числе последняя версия Office 2016 под Windows 10, даже с отключенными макросами.

Microsoft уведомлена об уязвимости и должна успеть подготовить патч к обновлению безопасности Patch Tuesday, которое состоится завтра, 11 апреля. Впрочем, как показывает история с похожей 0day-уязвимостью CVE-2014-4114/6352 (aka Sandworm), компании Microsoft не всегда удаётся закрыть 0day с первого патча.
Читать дальше →
Total votes 35: ↑33 and ↓2 +31
Views 25K
Comments 41

Конвертация rtf в xml на С#

.NET *Development for Office 365 *
Tutorial

В продолжении серии постов о конвертации текстовых файлов в xml с использованием С# предлагаю перейти к конвертации файлов формата rtf.


Казалось бы, данный формат довольно древний, причем весьма распространенный и, если для него и нет какой-то библиотеки для преобразования всех данных в формат xml путем вызова одного метода, то уж какое-то решение от Microsoft точно должно быть, хотя бы аналогичное OpenXML. Однако, если бы было оно так, то данная статья не была бы написана.

Читать дальше →
Total votes 14: ↑10 and ↓4 +6
Views 3.1K
Comments 12

Преобразование офисных файлов в текст

Python *

Представление документа в виде простого текста понадобится для анализа его содержимого: индексирования и поиска, классификации, предварительной проверки.

В нашем случае, стояла задача предварительного анализа (скоринга) документов по их содержимому. Верхнеуровневый процесс обработки документов построен с использованием MS Power Automate, поэтому конвертор нужно было реализовать в виде некоего облачного сервиса, доступного через HTTP.

В результате получился очень компактный сервис экстракции текста из офисных файлов, который успешно работает у нас уже несколько месяцев. Под катом - краткое описание сервиса, ссылка на репозиторий и другие полезные статьи по теме.

Читать далее
Total votes 4: ↑4 and ↓0 +4
Views 2.8K
Comments 2