
PDF (Portable Document Format) - это формат файлов, который широко используется для обмена и хранения электронных документов. Его популярность привела к тому, что многие важные данные хранятся в PDF-файлах в виде таблиц. Однако когда нам нужно использовать эти данные для дальнейшего анализа, обработки или импорта в другие системы, ручное извлечение табличных данных из PDF становится громоздким и сопряжено с ошибками. Поэтому автоматизация извлечения табличных данных из PDF-файлов стала важным требованием.
Для достижения этой цели, я попробовал общие библиотеки с открытым исходным кодом, такие как iTextSharp и PdfSharp. из Интернета, чтобы найти соответствующие учебники несколько лет назад, и использование результатов не очень хорошо, некоторые из кода не работает. Наконец, я обнаружил, что использование Free Spire.Office for .NET для извлечения табличных данных более удобно, а показатель точности очень высок. В этой статье я поделюсь двумя фрагментами кода C#, которые будут извлекать табличные данные из PDF и сохранять их в TXT-файл и Excel-файл соответственно.