小编Nee*_*lix的帖子

使用带有VB.NET的PDFBox检测粗体,斜体和删除线文本

使用PDFBox提取PDF时,是否可以保留文本格式?

我有一个解析PDF文档以获取信息的程序。当发布新版本的PDF时,作者使用粗体或斜体文本表示新的信息,并使用删除线或下划线删除所指示的省略文本。在PDFbox中使用基本的Stripper类会返回所有文本,但是格式会被删除,因此我无法判断文本是新的还是省略的。我目前正在使用以下项目示例代码:

    Dim doc As PDDocument = Nothing

    Try
        doc = PDDocument.load(RFPFilePath)
        Dim stripper As New PDFTextStripper()

        stripper.setAddMoreFormatting(True)
        stripper.setSortByPosition(True)
        rtxt_DocumentViewer.Text = stripper.getText(doc)

    Finally
        If doc IsNot Nothing Then
            doc.close()
        End If
    End Try
Run Code Online (Sandbox Code Playgroud)

如果我简单地将PDF文本复制并粘贴到保留格式的richtextbox中,我的解析代码就可以正常工作。我当时想通过打开PDF,全选,复制,关闭文档,然后将其粘贴到我的richtextbox中,以编程方式进行此操作,但这似乎很笨拙。

vb.net pdfbox

1
推荐指数
1
解决办法
2064
查看次数

标签 统计

pdfbox ×1

vb.net ×1