小编sha*_*dra的帖子

我们如何使用带空格的itextsharp从pdf中提取文本？

我正在使用以下方法逐行提取pdf文本.但问题是,它不是在文字和数字之间阅读空格.什么可以解决这个问题？

我只想创建一个字符串列表,列表对象中的每个字符串都有一个来自pdf的文本行,因为它在pdf中包含空格.

public void readtextlinebyline(string filename)   {


        List<string> strlist = new List<string>();
        PdfReader reader = new PdfReader(filename);
        string text = string.Empty;
        for (int page = 1; page <= 1; page++)
        {

            text += PdfTextExtractor.GetTextFromPage(reader, page ,new LocationTextExtractionStrategy())+" ";

        }
        reader.Close();
        string[] words = text.Split('\n');
        foreach (string word in words)
        {
            strlist.Add(word);
        }

        foreach (string st in strlist)
        {
            Response.Write(st +"<br/>");
        }

   }

Run Code Online (Sandbox Code Playgroud)

我已经通过将策略更改为SimpleTextExtractionStrategy来尝试此方法,但它也不适用于我.

c# pdf extract extraction pdf-reader

sha*_*dra

2013 05-06

3
推荐指数

2
解决办法

1万
查看次数