相关疑难解决方法(0)

如何使用iTextSharp进行文本格式化

我正在使用iTextSharp从PDF中读取文本内容.我也能读到这一点.但我正在丢失文字格式,如字体,颜色等.有没有办法获得格式.

以下是我用于确切文本的代码段 -

PdfReader reader = new PdfReader("F:\\EBooks\\AspectsOfAjax.pdf");
textBox1.Text = ExtractTextFromPDFBytes(reader.GetPageContent(1));

private string ExtractTextFromPDFBytes(byte[] input)
{
    if (input == null || input.Length == 0) return "";
    try
    {
        string resultString = "";
        // Flag showing if we are we currently inside a text object
        bool inTextObject = false;
        // Flag showing if the next character is literal  e.g. '\\' to get a '\' character or '\(' to get '('
        bool nextLiteral = false;
        // () Bracket nesting level. Text appears …
Run Code Online (Sandbox Code Playgroud)

.net c# itextsharp

20
推荐指数
1
解决办法
4万
查看次数

在Itextsharp中使用ITextExtractionStrategy和LocationTextExtractionStrategy获取字符串坐标

我有一个PDF文件,我正在使用ITextExtractionStrategy.Now从字符串中读取字符串我正在采用子字符串My name is XYZ,需要从PDF文件中获取子字符串的矩形坐标但不能这样做.在googling我知道那个LocationTextExtractionStrategy,但没有得到如何使用该工具来获取坐标.

这是代码..

ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);
currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
text.Append(currentText);

string getcoordinate="My name is XYZ";
Run Code Online (Sandbox Code Playgroud)

如何使用ITEXTSHARP获取此子字符串的直角坐标..

请帮忙.

c# itextsharp

18
推荐指数
3
解决办法
4万
查看次数

使用itextSharp读取数学公式

我正在尝试使用以下代码使用itextsharp从pdf文件中读取文本并分配给文本框(MultiLine) - (Windows桌面应用程序)

注意:此代码工作正常.

public string ReadPdfFile(string fileName)
        {
            StringBuilder text = new StringBuilder();

            if (File.Exists(fileName))
            {
                PdfReader pdfReader = new PdfReader(fileName);

                for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                    currentText = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
                    text.Append(currentText);
                }
                pdfReader.Close();
            }
            return text.ToString();
        }
Run Code Online (Sandbox Code Playgroud)

但我的pdf文件有一个等式

在此输入图像描述

而我所得到的只是以下输出

在此输入图像描述

可以在这里添加什么来实现以下文本?真的很感激任何形式的帮助!

c# pdf itext

8
推荐指数
1
解决办法
496
查看次数

使用itextsharp阅读PDF,其中PDF语言为非英语

我正在尝试使用C#中的itextsharp 读取 PDF文件,它将此pdf转换为word文件.当我尝试使用英语时,它还需要保持表格形式和单词字体pdf它可以完美地工作但是使用一些印度语,如印地语,马拉地语它不起作用.

 public string ReadPdfFile(string Filename)
        {

            string strText = string.Empty;
            StringBuilder text = new StringBuilder();
            try
            {
                PdfReader reader = new PdfReader((string)Filename);
                if (File.Exists(Filename))
                {
                    PdfReader pdfReader = new PdfReader(Filename);

                    for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                    {                        ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                        string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                        text.Append(currentText);
                        pdfReader.Close();
                    }
                }
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
            textBox1.Text = text.ToString();
            return text.ToString(); ;
        }
Run Code Online (Sandbox Code Playgroud)

.net pdf ms-word itextsharp c#-4.0

6
推荐指数
1
解决办法
5945
查看次数

标签 统计

c# ×3

itextsharp ×3

.net ×2

pdf ×2

c#-4.0 ×1

itext ×1

ms-word ×1