我正在使用以下方法逐行提取pdf文本.但问题是,它不是在文字和数字之间阅读空格.什么可以解决这个问题?
我只想创建一个字符串列表,列表对象中的每个字符串都有一个来自pdf的文本行,因为它在pdf中包含空格.
public void readtextlinebyline(string filename) {
List<string> strlist = new List<string>();
PdfReader reader = new PdfReader(filename);
string text = string.Empty;
for (int page = 1; page <= 1; page++)
{
text += PdfTextExtractor.GetTextFromPage(reader, page ,new LocationTextExtractionStrategy())+" ";
}
reader.Close();
string[] words = text.Split('\n');
foreach (string word in words)
{
strlist.Add(word);
}
foreach (string st in strlist)
{
Response.Write(st +"<br/>");
}
}
Run Code Online (Sandbox Code Playgroud)
我已经通过将策略更改为SimpleTextExtractionStrategy来尝试此方法,但它也不适用于我.