
Дисклеймер: Все материалы, приведенные в данной статье, взяты из открытых источников, носят исключительно учебный и ознакомительный характер с целью продемонстрировать принципы исследования файлов. Все, что вы себе надумаете плохого - исключительно на вашей совести и плод вашего воображения. Живите с этим сами.
— С метаданных картинок мы уже разобрались, теперь же давайте посмотрим, что за душой у обычных pdf или word документов
Не секрет, что они успешно редактируются, редакторов для них существует чуть больше, чем много. Представим ситуацию, когда вам поступил файл, в отношении которого у вас есть подозрения, что он — липовый. Как проверить?
Опять же, можно посмотреть его свойства, и если дата создания и дата изменения (если она есть) будут иметь существенные расхождения, то есть ненулевой шанс, что это — липа. Но для того, чтобы быть уверенным этого как-то маловато.
Нам на помощь придет вот такой ресурс

Он неплохо работает с разными форматами, но сейчас же нас он интересует в плане текстовых файлов — в бесплатной версии он дает обрабатывать до 3х документов в сутки. Конечно же, можно подобрать и другие ресурсы. Опять же, дело вкуса. Никогда не замыкайтесь на чем-то одном — разнообразие ситуаций диктоует гибкость подходов.
Загружаем туда пдф, пусть это будет счет за коммунальные услуги.

Мы видим, что оригинальное название файла "title" включает в себя слово "template", что само по себе говорит о том, что это — шаблон. И разрыв межу датой создания и крайним редактированием — порядка 2х лет. Автор — User2025, а не провайдер коммунальных услуг, от которого, якобы этот документ. Таким образом, очевидно, что это — липа, сделанная на коленке.
Опять же, если метаданные отсутствуют, то, вполне вероятно, что их стерли, очистили. Это само по себе — красный флаг. Кроме того, банки и провайдеры финансовых и других услуг внедряют в свои документы невидимый (обычно белый) текст или служебные метки, которые позволяют идентифицировать документ как оригинальный, его время создания и другие свойства. При редактировании оригинального документа, такие служебные метки остаются неизменными и выдают редактирование.
Сравним с другим файлом — квитанцией за билеты на выставку:


Ее метаданные полностью совпадают с заявленными в тексте данными, плюс ко всему, title совпадает с заголовком и дата создания совпадает с датой редактирования даже до секунды. То есть, с долей вероятности, стремящейся к 100%, документ — оригинальный.
Что кроме title и скрытых служебных меток помогает определить, что за документ у нас на руках? Теги XMP — как правило, издатели специальных документов проставляют свои теги как "маячки", которые позволяют определять что за документ, кто его издал и другие служебные метки. Их наличие или отсутствие не являются 100% признаком подделки или оригинала, но как дополнительный косвенный признак — очень даже работает. Например, в квитанции их нет, но документ, скорей всего, — оригинален.
То, что меток нет, объясняется тем, что документ исполнен в браузере Safari, в компоненте графической системы Quartz в iOS, который используется для создания PDF-файлов программным способом. То есть, метод создания документа совпадает с обычной практикой. Никаких красных флагов не наблюдаем. Даже если это и подделка, то высокого качества.
Аналогичным образом можно работать и с документами типа docx или doc или файлами xls. Но крупные компании, в основном, оперируют pdf файлами, как дающими больше возможностей для защиты и идентификации информации. По большому счету, грамотно сделанную манипуляцию в таких файлах определить сложно. Нужно владеть информацией о служебных кодах и метках, которые размещаются на такого рода файлах. Тем не менее, чтобы разобраться с файлом по быстрому, этих методов достаточно.
