Search
Write a publication
Pull to refresh
5
0
Atwinta79 @alexaae9

Имеет 9-летний опыт работы в .NET, ASP.NET, Java,

Send message

Бесплатные способы извлечения таблиц из PDF в C#

Reading time3 min
Views6.6K

PDF (Portable Document Format) - это формат файлов, который широко используется для обмена и хранения электронных документов. Его популярность привела к тому, что многие важные данные хранятся в PDF-файлах в виде таблиц. Однако когда нам нужно использовать эти данные для дальнейшего анализа, обработки или импорта в другие системы, ручное извлечение табличных данных из PDF становится громоздким и сопряжено с ошибками. Поэтому автоматизация извлечения табличных данных из PDF-файлов стала важным требованием.

Для достижения этой цели, я попробовал общие библиотеки с открытым исходным кодом, такие как iTextSharp и PdfSharp. из Интернета, чтобы найти соответствующие учебники несколько лет назад, и использование результатов не очень хорошо, некоторые из кода не работает. Наконец, я обнаружил, что использование Free Spire.Office for .NET для извлечения табличных данных более удобно, а показатель точности очень высок. В этой статье я поделюсь двумя фрагментами кода C#, которые будут извлекать табличные данные из PDF и сохранять их в TXT-файл и Excel-файл соответственно.

Читать далее

Information

Rating
Does not participate
Location
Guangdong, Китай
Date of birth
Registered
Activity

Specialization

Software Developer
HTML
Web development
Semantic layout
Twitter Bootstrap