我无法从pdf文件中复制印地文内容.当我尝试复制/粘贴该内容时,它会更改为不同的印地语字符.
例-
Original-निर्वाचक
粘贴后 - ननरररचक
它显示这样.
任何人都可以帮助我获得确切的印地语字符.
我正在尝试使用C#中的itextsharp 读取此 PDF文件,它将此pdf转换为word文件.当我尝试使用英语时,它还需要保持表格形式和单词字体pdf它可以完美地工作但是使用一些印度语,如印地语,马拉地语它不起作用.
public string ReadPdfFile(string Filename)
{
string strText = string.Empty;
StringBuilder text = new StringBuilder();
try
{
PdfReader reader = new PdfReader((string)Filename);
if (File.Exists(Filename))
{
PdfReader pdfReader = new PdfReader(Filename);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{ ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text.Append(currentText);
pdfReader.Close();
}
}
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
textBox1.Text = text.ToString();
return text.ToString(); ;
}
Run Code Online (Sandbox Code Playgroud) 希望您知道使用 pdfbox 2.0.7 从 PDF 中提取文本出了什么问题。结果很奇怪:
使用 1.8.13,该命令java -jar pdfbox-app-1.8.13.jar ExtractText -sort -nonSeq test.pdf导致
Deutsche Bank Privat- und Geschäftskunden AG
Bruttoertrag 43,80 USD 37,15 EUR
Kapitalertragsteuer (KESt) - 5,36 USD - 4,55 EUR
Solidaritätszuschlag auf KESt - 0,29 USD - 0,25 EUR
Umrechnungskurs USD zu EUR 1,1791000000
Gutschrift mit Wert 15.08.2017 32,35 EUR
Run Code Online (Sandbox Code Playgroud)
使用 2.0.7,该命令java -jar pdfbox-app-2.0.7.jar ExtractText -sort test.pdf导致
aeutsche Bank mrivat- und deschäftskunden Ad
Bruttoertrag QPIUM rpa PTINR bro
hapitaäertragsteuer EhbptF - RIPS rpa …Run Code Online (Sandbox Code Playgroud)