News / Profile of alexaae9 / Habr

@alexaae9 Jul 7 2023 at 01:19

Бесплатные способы извлечения таблиц из PDF в C#

3 min

8.7K

PDF (Portable Document Format) - это формат файлов, который широко используется для обмена и хранения электронных документов. Его популярность привела к тому, что многие важные данные хранятся в PDF-файлах в виде таблиц. Однако когда нам нужно использовать эти данные для дальнейшего анализа, обработки или импорта в другие системы, ручное извлечение табличных данных из PDF становится громоздким и сопряжено с ошибками. Поэтому автоматизация извлечения табличных данных из PDF-файлов стала важным требованием.

Для достижения этой цели, я попробовал общие библиотеки с открытым исходным кодом, такие как iTextSharp и PdfSharp. из Интернета, чтобы найти соответствующие учебники несколько лет назад, и использование результатов не очень хорошо, некоторые из кода не работает. Наконец, я обнаружил, что использование Free Spire.Office for .NET для извлечения табличных данных более удобно, а показатель точности очень высок. В этой статье я поделюсь двумя фрагментами кода C#, которые будут извлекать табличные данные из PDF и сохранять их в TXT-файл и Excel-файл соответственно.

Бесплатные способы извлечения таблиц из PDF в C#

Information

Specialization