将pdf文件转换为C#中的文本

aha*_*ron 8 c# pdf text-files

我需要将.pdf文件转换为.txt文件(或.doc,但我更喜欢.txt).

我怎么能在C#中做到这一点?

Don*_*Don 5

我自己也有需要,我用这篇文章让我开始:http : //www.codeproject.com/KB/string/pdf2text.aspx


ser*_*nko 4

Ghostscript可以满足您的需求。以下是用于将 pdf 文件中的文本提取到 txt 文件的命令(您可以从命令行运行它来测试它是否适合您):

gswin32c.exe -q -dNODISPLAY -dSAFER -dDELAYBIND -dWRITESYSTEMDICT -dSIMPLE -c save -f ps2ascii.ps "test.pdf" -c quit >"test.txt"
Run Code Online (Sandbox Code Playgroud)

请查看此处:codeproject:使用 Ghostscript API 将 PDF 转换为图像,了解有关如何在 C# 中使用 Ghostscript 的详细信息