文件中的文本包含带有数字的方块

hay*_*ayd 7 gedit text pdf unicode ascii

我遇到的一些文本文件中有带有数字的小方块(代替某些字符)。我无法在 Ubuntu 中复制和粘贴这些,但可以gedit单独搜索和替换每个字符(替换我认为最匹配的字符),显然这仅在只有几种类型的方块时才可行。

几个正方形的例子

我相信显示这些方块是因为我缺少某些字体......我的目标是将其转换为 ePub 或 PDF 文件。

我的问题是:

  • 这是什么类型的编码?为什么会发生这种情况?
  • 如果缺少字体,我可以安装它们Calibre吗,这是否可以解决问题(允许我将符号转换为 PDF,例如使用)?
  • 是否有应用程序可以将我的文本文件转换为没有这些方块的文本文件,而不是类似的字符替换它们?例如,符号在此处输入图片说明几乎是一个y,所以我希望这个函数替换每个实例在此处输入图片说明y.

这里有一个示例 txt 文件,它最初看起来像这样(注意后面的不准确之处OCR)。

注:我不能让任何uni2asciiiconv工作(虽然我可能没有使用正确的[选项]被),张贴解决方案之前,所以请给定文件检查!

Ama*_*nda 3

方框的意思是“未找到字形”;框中的字符是 unicode 中代码点的十六进制表示。

有两种可能性:字符编码是乱码,或者您使用的字体没有该字符的字形。如果您真的想了解它,这是一个很好的字符编码概述:http ://trochee.net/2011/05/character-encoding-tutorial/

奇怪的是,U+001FU+001D实际上只是美化的换行符。OCR 会返回这些内容似乎很奇怪。