C#怎么读取PDF文件内容

2025-02-27 18:40:47
推荐回答(1个)
回答1:

引用动态链接库
    解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有:
    IKVM.GNU.Classpath.dll
    PDFBox-0.7.3.dll
    FontBox-0.1.0-dev.dll
    IKVM.Runtime.dll

将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间:
    using org.pdfbox.pdmodel;
    using org.pdfbox.util;

API的使用方法

using System.IO;
using System.Text;
using org.pdfbox.pdmodel;
using org.pdfbox.util;
 
namespace PDFReader
{
    class Program
    {
 
        public static void pdf2txt(FileInfo pdffile, FileInfo txtfile)
        {
 
            PDDocument doc = PDDocument.load(pdffile.FullName);
 
            PDFTextStripper pdfStripper = new PDFTextStripper();
 
            string text = pdfStripper.getText(doc);
 
            StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));
 
            swPdfChange.Write(text);
 
            swPdfChange.Close();
 
        }
 
        static void Main(string[] args)
        {
            pdf2txt(new FileInfo(@"D:\1.pdf"), new FileInfo(@"D:\1.txt"));
        }
    }
}