Обновить
3.18

PDF

Межплатформенный формат электронных документов

Сначала показывать
Порог рейтинга
Уровень сложности

Living off the Land: Как легитимные утилиты стали оружием в руках хакеров на примере Rare Werewolf

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели6.1K

В мире кибербезопасности уже не первый год набирает популярность тактика «Living off the Land» (LOTL) — «живущие за счёт земли». Её суть заключается в том, чтобы максимально использовать легитимное программное обеспечение и встроенные функции операционной системы для достижения злонамеренных целей. Это позволяет злоумышленникам эффективно маскироваться на заражённой системе, ведь активность программ вроде curl.exe, AnyDesk.exe или установщика WinRAR редко вызывает подозрения у рядовых пользователей и даже у некоторых систем защиты.

Давайте детально разберём один из ярких примеров использования этой тактики, чтобы наглядно увидеть, как безобидные, на первый взгляд, программы могут быть превращены в мощное оружие для целевой атаки.

Поднять занавес атаки

Новости

Отказ от DevExpress Reports: переход на собственную систему отчетности

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели9K

Всем привет! Меня зовут Леонид, я разработчик компании DD Planet.

Как мы все прекрасно понимаем, ни один бизнес‑проект немыслим без разного рода отчетов. Быстрота и удобство их создания зачастую критично важны.

В нашей компании мы долгое время использовали инструмент DevExpress Reports. Однако после ухода DX с отечественного рынка остро встал вопрос о пересмотре архитектуры формирования отчетов — особенно тех, что создавались с помощью визуального дизайнера форм.

Раньше, при использовании компонентов DevExpress, такие отчеты можно было создать в несколько кликов и практически без знания кода — за счет мощного и удобного дизайнера:

Читать далее

Невидимая война: почему найти скрытые данные сложнее, чем их спрятать

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели4.7K

Привет, Хабр!

В прошлый раз мы написали свой стегоанализатор и научились находить следы простого LSB-внедрения. На первый взгляд может показаться, что задача решена: есть алгоритм, есть анализатор, запускаем проверку и получаем ответ. Но в реальности всё гораздо сложнее. Стегоанализ — это не спринт, а бесконечная гонка вооружений, в которой тот, кто прячет, почти всегда на шаг впереди.

Читать далее

Добавление OCR-слоя и другие преобразования PDF

Время на прочтение3 мин
Охват и читатели11K

При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических изображений. Это неудобно, потому что делает невозможным полнотекстовый поиск по содержанию. Утилита OCRmyPDF решает эту проблему: она одной командой из консоли добавляет к PDF-документу слой OCR с распознанным текстом.

Ниже упомянуты ещё несколько полезных инструментов для парсинга PDF, в том числе для преобразования сложных математических PDF-документов в текстовый формат Markdown.

Читать далее

Docs as Code: наш опыт документирования с LaTeX и Dev container

Уровень сложностиПростой
Время на прочтение8 мин
Охват и читатели2.9K

В мире разработки мы постоянно сталкиваемся с технической документацией — она повсюду, от спецификаций API до архитектурных решений. И мы хотим, чтобы документация была структурированной, актуальной и удобной… но в реальности чаще имеем дело с хаотичным набором разрозненных материалов, которые теряются между Confluence, почтой и Google Docs, стремительно устаревают и выглядят небрежно, с «плывущими» таблицами и запутанной структурой. Представили этот беспорядок?

Хорошая новость: есть способ автоматизировать и стандартизировать документацию, сделав её такой же управляемой, как код — через модель docs as code.

В статье вместе вспомним базовые принципы этого подхода, расскажем про наш опыт документирования и поделимся репозиторием с готовым шаблоном LaTeX для максимально быстрого старта без установки зависимостей!

Читать далее

Как мы сделали «ssyoutube для ChatGPT» и что из этого вышло

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели9.6K

Потребность поделиться диалогом из ChatGPT рано или поздно возникает. Однако нативного экспорта в удобный формат вроде PDF или Markdown платформа не предлагает. Копипаст — плохое решение: таблицы разваливаются, форматирование кода съезжает, а изображения просто пропадают. Мы решили эту задачу для себя, написав собственный конвертер. Оказалось, что он полезен не только нам.

Так появился pdfchatgpt.com. Принцип простой: копируешь share-ссылку и диалога с ChatGPT, добавляешь pdf в начало ссылки и получаешь готовый файл. Также можно перейти на pdfchatgpt.com и просто вставить ссылку на диалог.

В этой статье — технический разбор нашего решения: от простого скрипта с puppeteer до асинхронной системы с очередями. Делимся опытом для тех, кто решает схожие задачи.

Читать далее

Топ-5 нейросетей для работы с PDF: модели для бесплатного извлечения данных в 2025 году

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели17K

Уже не сосчитать, сколько раз мы пытались найти в 50-страничном PDF всего одну цифру, а в итоге получали час бесконечного скроллинга и желание всё бросить. Про невозможность редактирования и копирования текста на многих устройствах даже молчим.

Помню, как иногда приходилось делать скриншоты нужных фрагментов и загружать их в Google Переводчик — чтобы хоть как-то выудить текст, который можно было скопировать.

Но если раньше мучиться приходилось в одиночку, теперь на помощь приходят алгоритмы.

В этой статье мы познакомим вас с пятью охотниками за информацией и протестируем их работу с таблицами, текстом, фотографиями и ссылками внутри этого нелюбимого большинством документа.

А чтобы обзор стал капельку интереснее, сегодня мы отправим нейросети в экспедицию на Эльдорадо. Посмотрим, какая из моделей сможет найти его в стоге PDF-сена.

Приятного чтения!

Читать далее

Взлом зашифрованного pdf-файла. Часть 2

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели5K

Всех приветствую, читатели Хабра!

Вторая часть исследования безопаности файлов pdf. После того, как я опубликовал первую часть (https://habr.com/ru/articles/906076/) у одного из моих коллег возник вопрос: а что если зашифровать pdf файл при помощи программы Adobe (естественно на Windows). Естественно что, меня заинтересовал этот вопрос, и мы решили совместно с моим коллегой зашифровать файлы в ОС Windows (10) при помощи Adobe и на сайте, указанном в первой части. Один из файлов был зашифрован в Windows но на сайте указанном в первой части статьи. Сделал я это специально для того, чтобы узнать не будет ли проблем совместимости на двух ОС - Windows и Linux, и возможно ли кракнуть такой файл, который был создан в другой системе, так сказать тестовый запуск. Другие файлы были зашифрованы в программе, опять же на ОС Windows. Почему мой коллега и я задались вопросом возможности крака? В Adobe возможно зашифровать pdf файл при помощи небезызвестного AES!

Примечание

Правовая информация:

Данная статья создана исключительно в ознакомительных/образовательных/развивающих целях.
Автор статьи не несет ответственности за ваши действия.
Автор статьи ни к чему не призывает, более того напоминаю о существовании некоторых статей в уголовном кодексе РФ, их никто не отменял:
УК РФ Статья 272. Неправомерный доступ к компьютерной информации
УК РФ Статья 273. Создание, использование и распространение вредоносных компьютерных программ
УК РФ Статья 274. Нарушение правил эксплуатации средств хранения, обработки или передачи компьютерной информации и информационно-телекоммуникационных сетей

Читать далее

Взлом зашифрованного pdf-файла. Взлом зашифрованных архивов rar, zip, 7z. Утилиты pdfcrack, rarcrack и не только

Уровень сложностиПростой
Время на прочтение3 мин
Охват и читатели23K

Всех приветствую, читатели Хабра!

В сегодняшней статье я поделюсь примерами кракинга зашифрованных паролями pdf-файлов и файлов архивов. Я покажу примеры работы с такими программами как pdfcrack, rarcrack, John the Ripper. Естественно данные программы работают в линукс (в моем случае Kali Linux), но под Windows я думаю есть аналоги данных программ. И да, в этой статье я затрону примеры связанные с john, хоть возможно на Хабре и имеются статьи связанные с данной программой (а в русскоязычном сегменте интернет точно есть описания как с ней работать), но в рамках данной статьи мои примеры будут уместны и необходимы. Это своего рода онлайн-шпаргалка по использованию данных утилит

Примечание

Правовая информация:

Данная статья создана исключительно в ознакомительных/образовательных/развивающих целях.
Автор статьи не несет ответственности за ваши действия.
Автор статьи ни к чему не призывает, более того напоминаю о существовании некоторых статей в уголовном кодексе РФ, их никто не отменял:
УК РФ Статья 272. Неправомерный доступ к компьютерной информации
УК РФ Статья 273. Создание, использование и распространение вредоносных компьютерных программ
УК РФ Статья 274. Нарушение правил эксплуатации средств хранения, обработки или передачи компьютерной информации и информационно-телекоммуникационных сетей

Все атаки я проводил на своем персональном компьютере, где создавал собственные файлы, которые и атаковал, то есть все действия легитимны.

И как всегда просьба не переходить на личности в комментариях, если вы обнаружили ошибку недочет или неточность, просто без оскорблений напишите комментарий или напишите мне личным сообщением.

Читать далее

RAG-технология в действии: как создать интеллектуальную систему поиска по нормативным документам

Уровень сложностиСредний
Время на прочтение12 мин
Охват и читатели9.2K

В этой статье рассмотрим пример практической реализации RAG (Retrieval-Augmented Generation) на Python для ответов на вопросы пользователей с опорой на нормативную базу технических стандартов. В моём случае это строительные документы: СНиПы, СП, ГОСТы и другие. Готовое решение можно протестировать в строительном Telegram-боте: https://t.me/Pdflyx_bot - данний бот генерирует ответ на основании базы знаний, приводит цитаты и указывает страницы документов, откуда была взята информация.

Данный подход может использоваться и для других сфер: анализа проектной документации, корпоративных регламентов и любых текстовых баз знаний.

Читать далее

RAG без эмбеддингов для энтерпрайза (опыт ИИ-чемпионата)

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели1K

Как я отказался от оверинжиниринга и переместился с 30 места на 7 в Enterprise RAG Challenge. И чего не хватило до 1 места.

Сейчас облась ИИ – дикий запад. Никто не знает, как правильно решать задачи, а результаты экспериментов лежат приватными под NDA. Тем ценнее, когда кто-то делится реальным опытом с разбором деталей и подводных камней. Так что делюсь с хабром своей мартовской статьей про участие в Enterprise RAG Challenge от Рината LLM под капотом

Если вы интересуетесь разработкой продуктов поверх LLM, то

Читать далее

История Adobe. Как математик и IT специалист решили одну из самых раздражающих проблем в компьютерном мире

Время на прочтение28 мин
Охват и читатели29K

Если вы когда-либо работали с файлом PDF, смотрели фильм, видели рекламу или потребляли любой тип медиа, есть большая вероятность, что программное обеспечение Adobe сделало это возможным. Компания была основана в начале 1980-х годов для исправления проблем форматирования при печати и с тех пор стала неотъемлемой частью нашей повседневной жизни, даже если мы не всегда это замечаем. Из двух человек в гараже Adobe выросла в одну из крупнейших компаний-разработчиков программного обеспечения в мире, изобретя, возможно, самый влиятельный формат файла из когда-либо существовавших, и сохраняя полное господство в своей нише. Вот как это произошло.

Читать далее

Как реализовать пакетную подпись PDF-документов

Уровень сложностиСредний
Время на прочтение18 мин
Охват и читатели3.7K

Автоматическое подписание документов электронной подписью используют там, где требуется пакетная подпись документов без участия сотрудника. Это могут быть как небольшие сайты, например по продаже билетов в театр и музей, или порталы с онлайн-обучением при отправке сертификатов о прохождении курсов, так и крупные банковские приложения, например, при генерации выписок по счетам, форм договоров или квитанций. В ЕСИА, СМЭВ, ГИС ЖКХ и других государственных информационных системах также реализована автоматическая подпись.

В этой статье реализуем автоматическое подписание для PDF-файлов и добавим штамп «Документ подписан электронной подписью».

Читать далее

Ближайшие события

Цифровой архив с полнотекстовым поиском, в том числе по PDF и картинкам

Время на прочтение3 мин
Охват и читатели4.8K


У каждого человека с годами скапливается множество бумажных документов, в которых непросто разобраться или что-то найти. Эта проблема ещё более актуальна для организаций.

Опенсорсная программа Paperless-ngx позиционируется как оптимальное решение для создания цифрового архива. Со встроенной системой распознавание символов (OCR) и обучением на основе ранее отсканированных документов она создаёт хранилище с поиском, где можно быстро найти любой документ. Всем документам присваиваются теги, так что они могут присутствовать в разных тематических категориях, это удобнее распределения по папкам.

Paperless-ngx можно установить на домашний сервер и загружать документы через браузер с любого устройства.
Читать дальше →

Как сканировать документы А3 формата, если под рукой только сканер А4 формата

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели3.4K

Оцифровка чертежей и документов формата А3 не представляет сложности, если у вас есть сканер соответствующего размера. Однако что делать, если под рукой лишь стандартное МФУ формата А4?

Формат А3 в два раза больше А4: это два стандартных листа, соединенных по длинной стороне. В результате, чтобы оцифровать А3, приходится сканировать его по частям - левую и правую половинки, а затем как-то их объединять.

Ручная склейка занимает много времени, особенно если документов много. А если тратить время на ручную склейку не хочется? Автоматизация такого процесса избавляет от рутинной работы. Актуально для чертежей и схем.

Как легко склеивать документы А3 из А4

От jsPDF к Chrome: решение сложной задачи рендеринга PDF с таблицами

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели945

Кейс про генерацию PDF из HTML страницы с таблицами. Расскажу какие решения пытался применить, с какими проблемами пришлось столкнуться и как удалось сгенерировать корректный PDF.

Читать далее

Генерация PDF документов в Lazarus IDE

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели1.8K

Для разработки различных заглушек, используемых для тестирования сервиса, пока не готова ответная часть, я иногда использую отрисовку нужной информации на Canvas PaintBox`а, и последующую генерацию PDF с отрисованной картинкой (сохраняю BMP в поток, затем загрузка из потока для размещения изображения в PDF) и дополнением документа текстовой информацией. Для реализации такого подхода я использую модуль fpPDF, который, на мой взгляд, является достаточно простым и удобным. Для ознакомления с возможностями модуля ниже привожу вольный перевод статьи разработчика данного модуля.

Читать далее

Хакерские утилиты Дидье Стивенса

Уровень сложностиСредний
Время на прочтение6 мин
Охват и читатели20K


Дидье Стивенс — бельгийский разработчик и авторитетный специалист по информационной безопасности. Наиболее известен своими инструментами по взлому паролей Windows, анализу документов PDF и внедрению туда вредоносных файлов, а также как автор опенсорсных утилит Didier Stevens Suite: это 140 программ для системных операций с файлами, процессами, реестром и прочими штуками. Например, диспетчер задач Windows, реализованный в Excel/VBA (на КДПВ).
Читать дальше →

Как извлечь текст из сканов: OCR, нейросети и их возможности

Уровень сложностиПростой
Время на прочтение4 мин
Охват и читатели16K

Отсканированные PDF-файлы, которые невозможно редактировать, знакомы многим. Документ выглядит как текст, но это всего лишь изображение, и любое изменение становится настоящей головной болью. На помощь приходит OCR — технология оптического распознавания символов.

Читать далее

GUI для исследования внутренностей PDF

Время на прочтение3 мин
Охват и читатели5.1K


Как известно, PDF-файлы часто используются как контейнеры для вирусов и эксплоитов. Они применяются в фишинговых кампаниях и социальной инженерии, когда жертве присылают для просмотра «безобидный документ» в формате PDF, а тот запускает на исполнение вредоносный код через незакрытую уязвимость в браузере или PDF-ридере.

Перед открытием документа всегда желательно посмотреть, что находится внутри. Для этих целей существуют парсеры, которые разбирают PDF. Например, Interactive PDF Analysis (IPA, на скриншоте вверху) и другие.

Даже если перед нами чистый PDF, иногда нужно изучить содержимое и извлечь полезные ресурсы в нетронутом виде — например, оригинальные изображения в JPG.
Читать дальше →