C#使用PdfSharp从PDF中提取文本

der*_*urg 35 c# text text-extraction pdfsharp

是否有可能使用PdfSharp从PDF文件中提取纯文本?由于其许可证,我不想使用iTextSharp.

Ron*_*rby 28

接受塞尔吉奥的回答,并提出了一些扩展方法.我还将字符串的累积更改为迭代器.

public static class PdfSharpExtensions
{
    public static IEnumerable<string> ExtractText(this PdfPage page)
    {       
        var content = ContentReader.ReadContent(page);      
        var text = content.ExtractText();
        return text;
    }   

    public static IEnumerable<string> ExtractText(this CObject cObject)
    {   
        if (cObject is COperator)
        {
            var cOperator = cObject as COperator;
            if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
                cOperator.OpCode.Name == OpCodeName.TJ.ToString())
            {
                foreach (var cOperand in cOperator.Operands)
                    foreach (var txt in ExtractText(cOperand))
                        yield return txt;   
            }
        }
        else if (cObject is CSequence)
        {
            var cSequence = cObject as CSequence;
            foreach (var element in cSequence)
                foreach (var txt in ExtractText(element))
                    yield return txt;
        }
        else if (cObject is CString)
        {
            var cString = cObject as CString;
            yield return cString.Value;
        }
    }
}
Run Code Online (Sandbox Code Playgroud)

  • 无法抗拒.IDK是什么意思或如何解决它.我试图避免像瘟疫一样使用PDF,因为与它们一起使用的工具是垃圾,假装人类可读的格式是机器可读的,这是一个完全愚蠢的事. (2认同)
  • 尽管这是有希望的,但它不适用于 Unicode 文本。 (2认同)

小智 15

我已经以类似于大卫的方式实现了它.这是我的代码:

    {
        // ....
        var page = document.Pages[1];
        CObject content = ContentReader.ReadContent(page);
        var extractedText = ExtractText(content);
        // ...
    }

    private IEnumerable<string> ExtractText(CObject cObject )
    {
        var textList = new List<string>();
        if (cObject is COperator)
        {
            var cOperator = cObject as COperator;
            if (cOperator.OpCode.Name== OpCodeName.Tj.ToString() ||
                cOperator.OpCode.Name == OpCodeName.TJ.ToString())
            {
                foreach (var cOperand in cOperator.Operands)
                {
                    textList.AddRange(ExtractText(cOperand));
                }
            }
        }
        else if (cObject is CSequence)
        {
            var cSequence = cObject as CSequence;
            foreach (var element in cSequence)
            {
                textList.AddRange(ExtractText(element));
            }
        }
        else if (cObject is CString)
        {
            var cString = cObject as CString;
            textList.Add(cString.Value);
        }
        return textList;
    }
Run Code Online (Sandbox Code Playgroud)


Dav*_*itt 9

PDFSharp提供了从PDF中提取文本的所有工具.使用ContentReader该类访问每个页面中的命令,并从TJ/Tj运算符中提取字符串.

我已经向github上传了一个简单的实现.

  • 在许多PDF上CString.Value只返回一些垃圾(例如使用OpenOffice.org创建PDF并尝试使用此方法导入它). (4认同)
  • 不,PdfSharp 不提供文本提取的所有工具。尚未为 ToUnicode CMap 添加功能,这是提取 Unicode PDF 文本所必需的。 (2认同)