我正在使用iTextSharp从PDF中读取文本内容.我也能读到这一点.但我正在丢失文字格式,如字体,颜色等.有没有办法获得格式.
以下是我用于确切文本的代码段 -
PdfReader reader = new PdfReader("F:\\EBooks\\AspectsOfAjax.pdf");
textBox1.Text = ExtractTextFromPDFBytes(reader.GetPageContent(1));
private string ExtractTextFromPDFBytes(byte[] input)
{
if (input == null || input.Length == 0) return "";
try
{
string resultString = "";
// Flag showing if we are we currently inside a text object
bool inTextObject = false;
// Flag showing if the next character is literal e.g. '\\' to get a '\' character or '\(' to get '('
bool nextLiteral = false;
// () Bracket nesting level. Text appears …Run Code Online (Sandbox Code Playgroud) 我有一个PDF文件,我正在使用ITextExtractionStrategy.Now从字符串中读取字符串我正在采用子字符串My name is XYZ,需要从PDF文件中获取子字符串的矩形坐标但不能这样做.在googling我知道那个LocationTextExtractionStrategy,但没有得到如何使用该工具来获取坐标.
这是代码..
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);
string getcoordinate="My name is XYZ";
Run Code Online (Sandbox Code Playgroud)
如何使用ITEXTSHARP获取此子字符串的直角坐标..
请帮忙.
我正在尝试使用以下代码使用itextsharp从pdf文件中读取文本并分配给文本框(MultiLine) - (Windows桌面应用程序)
注意:此代码工作正常.
public string ReadPdfFile(string fileName)
{
StringBuilder text = new StringBuilder();
if (File.Exists(fileName))
{
PdfReader pdfReader = new PdfReader(fileName);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{
ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);
}
pdfReader.Close();
}
return text.ToString();
}
Run Code Online (Sandbox Code Playgroud)
但我的pdf文件有一个等式
而我所得到的只是以下输出
可以在这里添加什么来实现以下文本?真的很感激任何形式的帮助!
我正在尝试使用C#中的itextsharp 读取此 PDF文件,它将此pdf转换为word文件.当我尝试使用英语时,它还需要保持表格形式和单词字体pdf它可以完美地工作但是使用一些印度语,如印地语,马拉地语它不起作用.
public string ReadPdfFile(string Filename)
{
string strText = string.Empty;
StringBuilder text = new StringBuilder();
try
{
PdfReader reader = new PdfReader((string)Filename);
if (File.Exists(Filename))
{
PdfReader pdfReader = new PdfReader(Filename);
for (int page = 1; page <= pdfReader.NumberOfPages; page++)
{ ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
text.Append(currentText);
pdfReader.Close();
}
}
}
catch (Exception ex)
{
MessageBox.Show(ex.Message);
}
textBox1.Text = text.ToString();
return text.ToString(); ;
}
Run Code Online (Sandbox Code Playgroud)