我试图使用C#从MS Word(.doc,.docx),Excel和Powerpoint中提取文本(字符串).我在哪里可以找到一个免费且简单的.Net库来阅读MS Office文档?我尝试使用NPOI,但我没有得到关于如何使用NPOI的样本.
很简单,我需要从多个PDF中删除文本(实际上非常多),以便在将内容粘贴到SQL数据库之前对其进行分析.
我发现了一些非常粗略的免费C#库,这些库有些工作(最好的是使用iTextSharp),但是有很多格式错误,有些字符是乱码的,而且很多时候有空格('')无处不在 - 里面的单词,在每个字母之间,它们的大块占据了几行,这看起来有点随意.
是否有任何简单的方法可以完全忽略(很可能!)或者是否有一项艰巨的任务涉及将提取的字节值可靠地转换为字母?
我有一个使用iTextSharp库生成PDF的旧项目.添加iTextSharp DLL作为项目的参考.iTextSharp最初是根据LGPL许可证提供的.不久前,许可证已更改为AGPL(版本5.0.0),即复制版本,因此如果您使用它,则必须使用GPL所有代码.
我的问题是我不知道什么时候下载了我的项目中链接的DLL文件.我不知道DLL是否仍在LGPL下,或者它已经在AGPL下.那就意味着我必须把GPL作为我的项目.
当你只有DLL时,有什么方法可以检查iTextSharp的版本是什么?或者它的许可证是什么?
或者有没有我可以下载仍然在LGPL下的旧版iTextSharp的地方所以我肯定我没有通过不使我的项目GPL打破许可证?
有没有办法将现有pdf页面内的文本移动/移动到其他位置?
就像在区域x = 100处有一些文本,y = 100,w = 100,h = 100并且我想将其移动到x = 50,y = 200,w = 100,h = 100.
我做了很多研究,似乎iTextSharp做不到.PDFSharp声称它可以完成,但我找不到任何例子.
一种方法是制作我想要移动的文本的特定区域的位图,在该区域上绘制白色矩形并在新位置插入位图.我不想使用这个解决方案,因为我使用超过1K页面的大型pdf文件,其中每个页面都必须被更改.
我发现的是,我需要找到一种方法来改变文本定位操作符(文本矩阵和文本状态参数),这并不是那么简单.
有人有什么想法吗?