相关疑难解决方法(0)

每隔第N个字符/数字拆分一个字符串/数字?

我需要将一个数字分成偶数部分,例如:
32427237需要成为324 272 37
103092501需要成为103 092 501

我相信我可以接下来的数字,但我确信有一种更有效的方式,因为我不想错过这些数字中的字符 - 数字本身可以是任意长度所以如果数字是1234567890我希望它分成这些部分123 456 789 0

我已经看过其他语言的例子,比如Python等,但我不太了解它们将它们转换为C# - 循环通过字符然后在第三个获取前一个然后该索引来获取字符串的部分可能做好这份工作,但我愿意接受如何更好地完成这项工作的建议.

.net c# string split

61
推荐指数
6
解决办法
8万
查看次数

如何在PDFSharp中浏览Pdf对象树?

我试图使用c#中的PDFSharp在现有PDF文档中遍历PdfItem对象树.

我想在创建时创建所有对象的层次结构 - 类似于"PDF Explorer"示例所做的 - 但我希望它是树而不是所有对象的平面列表.

根节点是document.Internals.Catalog.我想要浏览所有document.Internals.Catalog.Elements,直到我访问过每个元素.

我遇到的一个问题是树中有循环引用,我无法弄清楚如何检测它们.

有代码样本吗?

c# pdf pdf-generation pdfsharp

7
推荐指数
1
解决办法
8455
查看次数

关于解析 pdf 时没有 Unicode 映射错误

我有一堆 pdf 文件(来自不同来源),我想从中提取文本(不幸的是无法附加文件)。

当前解析结果

  1. Tika 默默地返回文本,其中缺少许多所需的数据。
  2. 直接使用 PDFBox 会给出一堆警告(见下文),并且还会删除它无法识别的数据
  3. Adobe Acrobat Reader(另存为文本操作)保留原始文档结构,但在有问题的字体处放置“”

到目前为止,我从 PDFBox 中看到的所有警告组合在一起:

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+51 (51) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font HCUDUN+DroidSerif-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+5 (5) in font AUDQZE+OpenSans-Identity-H

Aug 06, 2020 3:10:49 PM org.apache.pdfbox.pdmodel.font.PDType0Font toUnicode
WARNING: No Unicode mapping for CID+55 …
Run Code Online (Sandbox Code Playgroud)

unicode parsing pdf-parsing pdfbox apache-tika

6
推荐指数
0
解决办法
4960
查看次数

以编程方式从PDF文件中翻录文本(手动) - 缺少一些文本

注意:我对使用解析库不感兴趣.这是我自己的娱乐.

我一直在尝试从PDF文件中翻录文本以获取搜索小发明,但我无法从某些pdf文件中提取文本.

请注意,这比直接解析更容易解决问题; 我不在乎我是否无意中在输出中包含了一些垃圾,我也不在乎文件的格式是否完整.我甚至不在乎这些话是否按顺序出现.

作为第一步,我使用此项目中的策略创建了一个非常简单的pdf解析器.基本上,它所做的只是搜索zlib流的pdf文件,缩小它们,并拉出它在括号中找到的任何文本.这无法解析卡在<< >>块内部的数据,但我的理解是这是针对十六进制编码的数据blob,这似乎不在我无法解析的测试文件中......或者至少我不知道看不到他们.

同样,虽然PDFMinerPDFBox成功,但iText.Net也失败了.然而,后两个项目有太多的间接层,很容易检查; 我很难弄清楚他们到底在做什么,部分原因是因为我并没有真正使用任何一种语言来习惯于以任何重要的方式调试它.

我的目标是创建一个文本ripper从pdf文件中抓取文本,尽可能不了解pdf格式本身(例如我的测试解析器从括号中抓取文本,但不知道它正在检查的pdf的哪个部分是标题).

language-agnostic pdf parsing

4
推荐指数
1
解决办法
2781
查看次数