我怎样才能知道这个角色是什么?

Tef*_*Ted 2 ruby character-encoding

更新:显然这些是控制字符,而不是 Unicode 字符。

我正在尝试解析一个 XML 文件,该文件中包含一个奇怪的字符,该字符使其无效并导致我的工具(Firefox、Nokogiri)抱怨。

这是该角色在 Firefox 中的样子,以及我将其复制并粘贴到 Textmate 中时的样子(显然我使用的是 OS X)。

疯狂的人物 http://img.skitch.com/20090811-ghu43k5u9nhpcjmh443dpq76jp.preview.jpg

我真的很想知道这些字符是什么(例如十六进制/十进制代码),而不仅仅是神秘的图标和小灰色钻石,但我不确定如何弄清楚。

Mar*_*wis 5

我会将 Firefox 中的页面保存到文件中,并将其传递到hexdump -C. 在 ASCII 部分中查找其周围的 HTML 片段,然后查找十六进制字节。这些很可能是 UTF-8,因此需要多字节代码。