文件中的文本包含带有数字的方块

Question

我遇到的一些文本文件中有带有数字的小方块（代替某些字符）。我无法在 Ubuntu 中复制和粘贴这些，但可以gedit单独搜索和替换每个字符（替换我认为最匹配的字符），显然这仅在只有几种类型的方块时才可行。

几个正方形的例子

我相信显示这些方块是因为我缺少某些字体......我的目标是将其转换为 ePub 或 PDF 文件。

我的问题是：

这里有一个示例 txt 文件，它最初看起来像这样（注意后面的不准确之处OCR）。

注：我不能让任何uni2ascii或iconv工作（虽然我可能没有使用正确的[选项]被），张贴解决方案之前，所以请给定文件检查！

Answer 1

方框的意思是“未找到字形”；框中的字符是 unicode 中代码点的十六进制表示。

有两种可能性：字符编码是乱码，或者您使用的字体没有该字符的字形。如果您真的想了解它，这是一个很好的字符编码概述：http ://trochee.net/2011/05/character-encoding-tutorial/

奇怪的是，U+001F和U+001D实际上只是美化的换行符。OCR 会返回这些内容似乎很奇怪。