使用 ItextSharp C# 标记 PDF 的各个页面

Chr*_*uez 2 .net c# pdf tagging itextsharp

我目前正在使用 ITEXTSHARP 5.5.6.0

我的目标是为每个页面添加一个密钥,并在我使用另一个应用程序再次阅读文档时保留这些密钥。我希望能够单独跟踪每个页面(密钥是唯一的,并且来自另一个来源)。

这是我的导入/写入代码:

 using (PdfReader reader = new PdfReader(sourcePdfPath))
 {

        using (Document document = new Document(reader.GetPageSizeWithRotation(pageNumber)))
        {

            PdfCopy pdfCopyProvider = new PdfCopy(document, new System.IO.FileStream(outputPdfPath, System.IO.FileMode.Create));
            pdfCopyProvider.SetTagged();
            pdfCopyProvider.PdfVersion = PdfWriter.VERSION_1_7;

            PdfImportedPage importedPage = pdfCopyProvider.GetImportedPage(reader, pageNumber, true);
            importedPage.SetAccessibleAttribute(PdfName.ALT, new PdfString("MYKEY"));
            pdfCopyProvider.AddPage(importedPage);               
        }
 }
Run Code Online (Sandbox Code Playgroud)

这是我的阅读代码:

using (MemoryStream ms = new MemoryStream())
        {
            Document document = new Document();
            PdfCopy copy = new PdfCopy(document, ms);
            copy.SetTagged();
            document.Open();
            for (int i = 0; i < pdfs.Count; ++i)
            {
                var pdf = File.ReadAllBytes(pdfs[i]);
                PdfReader reader = new PdfReader(pdf);
                int n = reader.NumberOfPages;
                for (int page = 0; page < n; )
                {
                    var importPage = copy.GetImportedPage(reader, ++page, true);
                    var MyKey = importPage.GetAccessibleAttribute(PdfName.ALT);
                    if (MyKey != null)
                        //Do Something with KEY
                    copy.AddPage(importPage);
                }
            }
            document.Close();
            copy.Close();


            return ms.ToArray();
        }
Run Code Online (Sandbox Code Playgroud)

我正在尝试添加可访问性 ALT 文本。目前,我在图像上使用该属性,并且所有应用程序都设置为保持这些属性不变。

问题是,当我以这种方式添加属性,将其保存为 PDF 文件,然后在另一个进程上读取时,该属性不再存在。

我对其他选项持开放态度,以解决每页有一个主键的问题,我可以分配、读取和删除

试图避免在每个页面上添加一个隐藏字段。

Dav*_*che 5

我对 iText 编程或 c# 几乎没有经验,所以我很适合回答你的问题:)

首先,如果您只想标记一个页面然后再次找到它,请不要使用PDF 中的辅助功能。辅助设备具有可访问性,滥用这些功能并不好。

特别是因为 - 如果我正确理解你想要做什么 - 没有必要这样做。如果要标记页面,则应查找页面字典,例如:

PdfReader reader = new iTextSharp.text.pdf.PdfReader(file_content);
PdfDictionary pageDict = reader.GetPageN(i);
Run Code Online (Sandbox Code Playgroud)

复制自:http : //goobbe.com/questions/8099416/how-to-get-the-userunit-property-from-a-pdffile-using-itextsharp-pdfreader

一旦你有了那个字典,你就可以在那里插入你自己的私钥:

public void put(PdfName key, PdfObject object);
Run Code Online (Sandbox Code Playgroud)

您分配的值由您决定,但如果您想遵守规则,则必须使用第二类 PDF 名称作为键。这是一个由您的开发人员前缀组成的密钥 - 应该注册它,以便它是唯一的和私有的部分。例如,一个键可能看起来像:

FICL:PageNumber
Run Code Online (Sandbox Code Playgroud)

在这种情况下,“FICL”是您的开发人员前缀,而“PageNumber”是您要添加的数据的标识。

要注册开发人员前缀,请访问 Adob​​e 网站,例如此处:http : //www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdfregistry_v3.pdf

希望这可以帮助。

PS:如果这里有人知道谁真正拥有“FICL”前缀以及这些字母的来源,我会给你买啤酒:)