Все потоки

PDF

Межплатформенный формат электронных документов

5,06

Рейтинг

СтатьиПостыНовостиАвторыКомпании

ContentAI_Team 10 апр в 13:33

Как гибрид IDP и VLM экономит миллионы на верификации данных

Средний

7 мин

5.2K

Блог компании Content AIМашинное обучение * Искусственный интеллектPDFОбработка изображений *

Аналитика

Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах.

В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом, когда VLM усиливает IDP-решения.

В этот раз мы проверили гипотезу: пусть VLM не распознает документ с нуля, а проверяет черновик из IDP-системы и исправляет ошибки, опираясь на исходное изображение. Базовым OCR движком выступила наша платформа ContentCapture.

Практическая цель эксперимента — автоматизировать верификацию документов. Сейчас в крупных компаниях сотни операторов вручную сверяют распознанные данные с оригиналами.

Читать далее

0

Kudryavtsev-AiPrRocknRoll 2 апр в 19:15

Как я научил ИИ читать советские ГОСТы и сократил подготовку карт контроля с 2 часов до 5 минут

Простой

4 мин

11K

Машинное обучение * Искусственный интеллектИнженерные системы * PDFПромышленное программирование *

Кейс

Из песочницы

Реальный кейс: как LLM заменяет трех технологов на металлургическом заводе - и почему универсальный подход не сработал.

Как я научил ИИ читать советские ГОСТы и сократил подготовку карт контроля
с 2 часов до 5 минут.

Читать далее

+16

gptctrlc 29 мар в 06:22

Как помочь вашему RAG адаптироваться? Принимайте DRAG with KNEE! Часть 1

Средний

14 мин

7.2K

Python * PDFМашинное обучение * Искусственный интеллектПоисковая оптимизация *

Из песочницы

Все мы проходили через это: скармливаешь RAG‑системе сложный PDF на 50 страниц, а она в ответ либо галлюцинирует, либо вываливает на LLM простыню нерелевантного текста, съедая ваш бюджет на токены быстрее, чем вы успеваете сказать «GPT-4o». Проблема в том, что классический подход со статическим top_k — это костыль, который либо не додает контекста, либо вызывает у модели информационное «ожирение» (заполняет контекст нерелевантным мусором). Нашему RAG нужно помочь адаптироваться к безжалостной среде разрозненных документов!

Я потратил выходные на то, чтобы решить эту проблему фундаментально. В итоге на свет появился DRAG with KNEE (Dynamic RAG with Knee‑point pruning) — алгоритм, который не просто ищет «похожее», а выстраивает иерархию документов и безжалостно отсекает лишнее с помощью геометрического анализа «колена». В этой статье я покажу, как с помощью Qdrant, Python и капли математики сделать ваш RAG адаптивным.

Читать далее?

+7

NikitaOsokin_ON 14 мар в 20:39

Как мы избавились от копипаста в технической документации

Простой

5 мин

7.6K

Python * Sphinx * PDFТекстовые редакторы и IDE * Подготовка технической документации *

Кейс

Из песочницы

Всем привет. Меня зовут Никита, я руковожу командой Цикл‑ОН. Мы уже более 5 лет ведем проекты по заказной разработке ПО и, как и многие, сталкиваемся с необходимостью разработки не только качественного кода, но и документацию на продукты. В нашей нише особенность, что заказчики живут в парадигме ГОСТа. Я бы здесь хотел оставить небольшую заметку о нашем опыте — как то, что для начаиналось как откровенное мучение превратилось сначала в умную идеологию, а по итогу в самостоятельное решение для подготовки документации.

Читать далее

+5

NikiLom 28 фев в 17:15

Как цифровые документы меняют современные архивы

Средний

22 мин

7.4K

PDFБазы данных * История ITЧитальный залТерминология IT

Из песочницы

Перевод

С 1960-х годов в архивы по всему миру начали поступать на хранение цифровые документы. Изначально небольшая, их доля среди собраний возрастала каждое десятилетие. Цифровые фонды при этом бросают вызов одной из главных функций архива: сохранять поступившее в неизменном виде. Неизменяемость для цифрового документа означает смерть, ведь уже через несколько десятков лет может не найтись ни одной машины, которая способна его открыть.

О том, как архивисты и программисты десятилетиями искали выход из этой ситуации, и как цифра меняет основы архивного дела рассказывает германский архивист Кристиан Кайтель. С его разрешения (и благословения издательства) мы публикуем отрывок из его книги «Двенадцать путей в архив. Контуры открытого и прикладного архивоведения».

Keitel C. Zwölf Wege ins Archiv. Umrisse einer offenen und praktischen Archivwissenschaft. Stuttgart: Franz-Steiner-Verlag, 2018. S. 188-202. Перевел Никита Ломакин (телеграм-канал Архивный гик), редактировала Анастасия Тарасова.

Читать далее

+2

Newskylaw 26 фев в 17:07

Вайбкодинг – не для гуманитариев? Юрист сделал кривой поиск по PDF и просит помощи…

Простой

11 мин

16K

Качество кода * Программирование * PDFPython * JavaScript *

Кейс

Я столкнулся с простой (как мне изначально показалось – даже очень) задачкой. Мне в последнее время потребовалось часто проводить поиск в 4-х словарях. Государство мне их дало в виде 5 PDF файлов, выложенных онлайн. Это нормативные словари русского языка, слова из которых можно использовать в публичном пространстве.

Например, cash - можно использовать на русском как кэш, а не переводить как тайник или склад, поскольку в Словарь иностранных слов это слово уже включено. И это слово нам еще пригодится далее по тексту)

Читать далее

+10

borzab 24 фев в 15:16

Как написать конвертер веб-страниц в PDF и не сойти с ума

4 мин

6.7K

Расширения для браузеровPDF

Из песочницы

Вам когда-нибудь хотелось сохранить статью в PDF без лишних деталей, только в виде текста? Или сохранить только определённый элемент страницы? И чтобы всё это было на одной длинной странице, без разрывов?

Мне тоже. Поэтому, я решил написать своё решение и оформить его в виде браузерного расширения.

Читать далее

+12

pantlmn 18 фев в 08:51

typst vs InDesign & TeX

Средний

5 мин

4.3K

LaTeX * PDFТипографика *

Кейс

Решили издать каталог подразделений, проектов и людей достаточно крупной организации — и встал вопрос, в чем именно готовить макет: InDesign, TeX или typst. При выборе инструмента хотелось учесть: 1) удобство работы каждого участника, 2) удобство совместной работы, 3) удобство внесения правок в последний момент. Третий пункт даже был самым важным, посколько было очевидно, что первоначальные данные весьма грязные, будут правки не только орфографические, но и в масштабе плюс/минус подпроект.

InDesign — старый добрый друг, в котором есть работа со стилями, скрипты типа DoTextOK, генерация оглавлений и прочее. Но я пока не освоил систему совместной работы в InDesign, плюс планировалась верстка с выводом данных сеткой — а это означало бы, что при добавлении или удалении одного элемента немалую часть работы пришлось бы делать заново (опасения о таких подковырках оправдались). Пугала еще одна рутинная процедура — вставка вручную QR-кодов, которых в итоге оказалось 170 штук. Напутать их было бы проще простого.

TeX для меня — тоже старый добрый друг, о сопоставлении его с InDesign я уже писал. Совместную работу можно было организовать в git, устойчивость к внесению правок в последний момент вполне надежная. QR-коды умеет генерировать сам.

Но на горизонте появился typst, который работает по принципу TeX'а (гибрид текста и команд + картинки --> pdf), но в несколько раз быстрее (особенно если TeX надо прогонять несколько раз для выставления перекрестных ссылок). Еще больше порадовал typst тем, что можно прямо в режиме реального времени видеть результат всех вносимых изменений (Visual Studio Code + плагины для typst), а также прыгать из превьюшки на нужное место кода, а из кода — на нужное место превьюшки.

Читать далее

+6

Gigantazavr 13 фев в 09:15

Как гуманитарий за 2 месяца с нуля RAG систему построил, или Парсинг PDF по-хардкору

Средний

7 мин

12K

Data Engineering * PDFPython * Искусственный интеллектМашинное обучение *

Из песочницы

Добрый день. Сегодня я расскажу о том, как я за 2 месяца с полного нуля создал доменную RAG систему с корпусом в 20+ книг.

В статье затрону проблемы парсинга данных (особенно PDF документов, с которыми приходилось иметь дело), чанкинга, создания и индексации эмбеддингов, а также самого интересного – ретривера. Расскажу о latency, трейд-оффах, и сложностях реализации подобных систем локально на ноутбуке (хоть и «игровом») без использования API LLM.

Вся система делалась мной самостоятельно без использования LangChain – это чистый пайплайн от Tesseract, Pillow, MuPDF/Fitz до e5-multilingual, FAISS (+bm25, который я затрону в статье) и Qwen3:8B в качестве LLM.

Читать далее

+21

Data_Lab 7 фев в 14:18

Мониторинг рынка аренды Санкт-Петербург

Простой

1 мин

9K

Python * PDFВизуализация данных * Презентации

Аналитика

Решил немного изучить рынок аренды жилья в городе Санкт-Петербург.
Что сейчас по ценам, где и какие квартиры дешевле или дороже?

Данные: ЦИАН, 7 038 объявлений (цены предложения, не сделки). База - медиана, чтобы не искажаться хвостом.

В итоге собрал вот такой PDF-отчет за январь 2026 (яндекс диск).

Читать далее

+1

ContentAI_Team 6 фев в 12:13

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

Средний

7 мин

6K

Блог компании Content AIОбработка изображений * Машинное обучение * Искусственный интеллектPDF

Аналитика

В прошлых материалах мы уже рассказывали о том, как мультимодальные модели (VLM) справляются с извлечением данных из финансовых документов, и показывали, что в ряде сценариев они могут конкурировать с оптимизированными классическими IDP-решениями. Однако мы решили не ограничиваться одним типом документов и продолжили исследование, сравнив технологии на широком спектре материалов. В пул вошли сканы высокого качества и фотографии со сложным фоном, структурированные табличные формы и документы с элементами рукописного текста, русскоязычные и англоязычные тексты.

Сегодня мы готовы поделиться сводными итогами.

Читать далее

+4

atomlib 2 фев в 14:07

Питер Штайнбергер. Как работает автор OpenClaw [Clawdbot/Moltbot]

21 мин

13K

История ITiOS * Биографии гиковИскусственный интеллектPDF

Дайджест

Проект OpenClaw успел обрасти мифами. Одни отмахиваются: это якобы завайбкоженная поделка выходного дня, на которую был способен кто угодно — хоть вчерашний новичок. Напротив, другие уверяют, что опыт автора липкой жижей сочится буквально из каждой интеграции. Оба лагеря сходятся во мнении: второе переименование — это был явный перебор.

В реальности все по-своему заблуждаются. Питер Штайнбергер, программист-ветеран с большим стажем, действительно не читает, что улетает в проект, а OpenClaw — не третье, а пятое название ИИ-агента.

Старорежимный разработчик разрешил языковым моделям писать за него код и управлять его жизнью. Полтора десятка лет назад он считал мегабайты, сегодня расточительно запускает по десять агентов и расходует токены миллиардами. Что на подобное сподвигло?

Читать далее

+26

3draven 10 янв в 21:32

Как сделать книгу за пятьдесят рублей

Средний

17 мин

30K

PDFДизайнЛайфхаки для гиковПрофессиональная литература * Читальный зал

Туториал

Лет двадцать назад я опубликовал этот материал, но платформа умерла, сохраню тут этот артефакт далекого прошлого, на мой взгляд до сих пор актуальный. Многим нравится держать книгу в руках, особенно после того как ее сам сделал. При этом на самом деле это довольно дешево, сделать книгу. Плюс, поди найди в магазине нужную книгу. Я вот одну только в Москве нашел, у издателя. Вот и попробуем сделать настоящий шитый переплет, даже намного лучше типичного дешевого клеенного, сами.

Читать далее

+151

Vitaly1024 10 янв в 07:00

LaTeX. Пакет, о котором должен знать каждый математик. Изометрические кубики, «змейки» из квадратиков. Часть 4/4

Средний

2 мин

13K

LaTeX * PDFВекторная графика * Занимательные задачкиМатематика *

Туториал

Меня зовут Виталий и я пишу уже который год самую большую книгу по математике для 4– 11 классов, а так же автор поста (рекомендую почитать) о ней. Пишу я ее в LaTeX и считаю, что современный учебник не должен быть черно-белым, а так же должен быть удобен для использования и учеником и учителем.

Хочу поделиться моей находкой --- пакет `ProfCollege`. Компиляция ТОЛЬКО Lualatex. Как обычно прикладываю полный код в тексте.

Первая часть тут, вторая часть тут, третья часть тут

Читать далее

+12

George_Prikashchenkov 12 дек 2025 в 00:04

Как приручить iText8: превращаем HTML в PDF без седых волос

Средний

17 мин

9.6K

Java * HTML * PDF

Туториал

Представьте ситуацию: пятница, вечер, до релиза осталось два дня. Заказчик внезапно вспоминает, что «было бы неплохо генерировать договоры в PDF». Знакомо?

Я оказался в похожей ситуации год назад. Задача казалась тривиальной: взять HTML-шаблон счёта, подставить данные и получить красивый PDF. «Часа на два работы», — подумал я. Как ошибался...

Читать далее

+9

remadev 19 ноя 2025 в 09:26

Living off the Land: Как легитимные утилиты стали оружием в руках хакеров на примере Rare Werewolf

Средний

12 мин

7.3K

Delphi * Информационная безопасность * Реверс-инжиниринг * PDFАнтивирусная защита *

Кейс

В мире кибербезопасности уже не первый год набирает популярность тактика «Living off the Land» (LOTL) — «живущие за счёт земли». Её суть заключается в том, чтобы максимально использовать легитимное программное обеспечение и встроенные функции операционной системы для достижения злонамеренных целей. Это позволяет злоумышленникам эффективно маскироваться на заражённой системе, ведь активность программ вроде curl.exe, AnyDesk.exe или установщика WinRAR редко вызывает подозрения у рядовых пользователей и даже у некоторых систем защиты.

Давайте детально разберём один из ярких примеров использования этой тактики, чтобы наглядно увидеть, как безобидные, на первый взгляд, программы могут быть превращены в мощное оружие для целевой атаки.

Поднять занавес атаки

0

LeonidKoh 3 ноя 2025 в 13:15

Отказ от DevExpress Reports: переход на собственную систему отчетности

Средний

6 мин

9.4K

.NET * C# * PDFOpen source * HTML *

Из песочницы

Всем привет! Меня зовут Леонид, я разработчик компании DD Planet.

Как мы все прекрасно понимаем, ни один бизнес‑проект немыслим без разного рода отчетов. Быстрота и удобство их создания зачастую критично важны.

В нашей компании мы долгое время использовали инструмент DevExpress Reports. Однако после ухода DX с отечественного рынка остро встал вопрос о пересмотре архитектуры формирования отчетов — особенно тех, что создавались с помощью визуального дизайнера форм.

Раньше, при использовании компонентов DevExpress, такие отчеты можно было создать в несколько кликов и практически без знания кода — за счет мощного и удобного дизайнера:

Читать далее

+14

Lomakn 22 сен 2025 в 06:52

Невидимая война: почему найти скрытые данные сложнее, чем их спрятать

Средний

4 мин

6.1K

Блог компании ChameleonLabИнформационная безопасность * PDFPython *

Привет, Хабр!

В прошлый раз мы написали свой стегоанализатор и научились находить следы простого LSB-внедрения. На первый взгляд может показаться, что задача решена: есть алгоритм, есть анализатор, запускаем проверку и получаем ответ. Но в реальности всё гораздо сложнее. Стегоанализ — это не спринт, а бесконечная гонка вооружений, в которой тот, кто прячет, почти всегда на шаг впереди.

Читать далее

0

GlobalSign_admin 24 авг 2025 в 18:07

Добавление OCR-слоя и другие преобразования PDF

3 мин

17K

Блог компании GlobalSignСофтОбработка изображений * Open source * PDF

При сканировании и сохранении в формате PDF зачастую документы сохраняются в виде графических изображений. Это неудобно, потому что делает невозможным полнотекстовый поиск по содержанию. Утилита OCRmyPDF решает эту проблему: она одной командой из консоли добавляет к PDF-документу слой OCR с распознанным текстом.

Ниже упомянуты ещё несколько полезных инструментов для парсинга PDF, в том числе для преобразования сложных математических PDF-документов в текстовый формат Markdown.

Читать далее

+16

TourmalineCore 28 июл 2025 в 06:30

Docs as Code: наш опыт документирования с LaTeX и Dev container

Простой

8 мин

8K

IT-стандарты * PDFOpen source * LaTeX * Подготовка технической документации *

В мире разработки мы постоянно сталкиваемся с технической документацией — она повсюду, от спецификаций API до архитектурных решений. И мы хотим, чтобы документация была структурированной, актуальной и удобной… но в реальности чаще имеем дело с хаотичным набором разрозненных материалов, которые теряются между Confluence, почтой и Google Docs, стремительно устаревают и выглядят небрежно, с «плывущими» таблицами и запутанной структурой. Представили этот беспорядок?

Хорошая новость: есть способ автоматизировать и стандартизировать документацию, сделав её такой же управляемой, как код — через модель docs as code.

В статье вместе вспомним базовые принципы этого подхода, расскажем про наш опыт документирования и поделимся репозиторием с готовым шаблоном LaTeX для максимально быстрого старта без установки зависимостей!

Читать далее

+14

1

2 3 ...