我可以通过多种方式从PDF页面提取文本:
String pageText = PdfTextExtractor.GetTextFromPage(reader, i);
Run Code Online (Sandbox Code Playgroud)
这可用于获取页面上的任何文本。
或者:
byte[] contentBytes = iTextSharp.text.pdf.parser.ContentByteUtils.GetContentBytesForPage(reader, i);
Run Code Online (Sandbox Code Playgroud)
可能性是无止境的。
现在,我想删除/编辑某些单词,例如显式单词,敏感信息(在其上放上黑匣子显然是一个坏主意:)或PDF中的所有内容(仅是简单的文本)。使用上面的方法,我可以找到一个合适的单词。我可以数出它的出现等等。
我不在乎布局,也不在乎PDF并不是真的要以这种方式进行操作。
我只是想知道是否有一种机制可以让我以这种方式操纵PDF的原始内容。您可能会说我正在寻找“ SetContentBytesForPage()” ...