c#将pdf转换为html

pet*_*ski 23 html c# pdf dll

是否有.dll我可以使用.pdf文件作为输入和.html文件作为输出?我想将.pdf转换为.html.我的同事说,逐步进行,从pdf获取文本/字体/图像/边距/链接等,然后创建具有相同内容的新html文件非常困难.他说这几乎是不可能的.所以我在想 - 如果有一些dll我可以作为参考来做到这一点?

Ica*_*rus 11

编写程序来完成它绝对不是一件容易的事.如果你没有找到任何.NET库来执行此操作(我不能,至少不是免费的),我只需下载它并以编程方式调用它来获取我的html.

如果您有空闲时间和/或PDFToHtml不能为您生成可接受的输出,您可以使用iText自行编写程序.这是一个非常成熟的免费pdf库.我过去曾用它来操作PDF(合并,创建等).

UPDATE

正如Quandary的评论所述,与iText提供的商业或AGPL许可相比,PDFSharp库提供了更宽松的许可(MIT).选择图书馆时请记住这一点.我自己没有使用过PDFSharp库,我不知道它们在功能方面的比较.

  • 在PDFSharp常见问题解答中,他们声明他们的库不会将PDF转换为HTML,他们也没有计划支持它.http://www.pdfsharp.net/wiki/pdfsharpfaq.ashx#Can_I_use_PDFsharp_to_convert_PDF_to_Word_RTF_HTML_11 (8认同)

Tud*_*dor 8

您可以下载这个免费工具:PDFToHTML

然后在你的程序中只需分叉一个新进程并运行传递PDF文件的可执行文件.我现在只是测试它,似乎工作正常.


Cal*_*lum 6

如果您不介意付款,Aspose提供了一个非常好的解决方案,这就是我们在公司使用的.

http://www.aspose.com/categories/.net-components/aspose.pdf-for-.net/key-features.aspx

  • aspose不像advertisement那么容易工作,并且生成的html非常糟糕,另外,如果您需要在内存中转换而不是文件,您需要先转换为doc,然后将doc转换为html (2认同)