小编Nee*_*lix的帖子

使用带有VB.NET的PDFBox检测粗体，斜体和删除线文本

使用PDFBox提取PDF时，是否可以保留文本格式？

我有一个解析PDF文档以获取信息的程序。当发布新版本的PDF时，作者使用粗体或斜体文本表示新的信息，并使用删除线或下划线删除所指示的省略文本。在PDFbox中使用基本的Stripper类会返回所有文本，但是格式会被删除，因此我无法判断文本是新的还是省略的。我目前正在使用以下项目示例代码：

    Dim doc As PDDocument = Nothing

    Try
        doc = PDDocument.load(RFPFilePath)
        Dim stripper As New PDFTextStripper()

        stripper.setAddMoreFormatting(True)
        stripper.setSortByPosition(True)
        rtxt_DocumentViewer.Text = stripper.getText(doc)

    Finally
        If doc IsNot Nothing Then
            doc.close()
        End If
    End Try

Run Code Online (Sandbox Code Playgroud)

如果我简单地将PDF文本复制并粘贴到保留格式的richtextbox中，我的解析代码就可以正常工作。我当时想通过打开PDF，全选，复制，关闭文档，然后将其粘贴到我的richtextbox中，以编程方式进行此操作，但这似乎很笨拙。

vb.net pdfbox

Nee*_*lix

lucky-day

1
推荐指数

1
解决办法

2064
查看次数

标签统计

pdfbox ×1

vb.net ×1

使用带有VB.NET的PDFBox检测粗体，斜体和删除线文本

标签 统计

小编Nee_lix的帖子

标签统计