为什么这个A0字符出现在我的HTML :: Element输出中?

Rob*_*bbR 26 perl encoding

我正在使用几个Perl模块解析HTML文档:HTML :: TreeBuilderHTML :: Element.出于某种原因,只要标签的内容正好 ,这是预料之中的,它就会被HTML :: Element作为一个我以前从未见过的奇怪角色返回:

alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg

我不能复制角色所以不能谷歌它,无法在角色地图中找到它,奇怪的是当我用正则表达式搜索时,\w找到它.当我将返回的文档转换为ANSI或UTF-8时,它会完全消失.我在HTML :: Element文档中也找不到任何关于它的信息.

如何检测和替换这个角色更有用的东西,null以及如何在将来处理这样的奇怪角色?

cha*_*aos 44

该字符是"\xa0"(即160),这是标准的Unicode转换 .(也就是说,它是Unicode的不间断空间.)s/\xa0/ /g如果你愿意,你应该可以删除它们.


Sin*_*nür 8

角色是不间断的空间, 代表:

在文字处理和数字排版中,不间断空格(" ") (also called no-break space, non-breakable space (NBSP), hard space, or fixed space) is a space character that prevents an automatic line break at its position. In some formats, including HTML, it also prevents consecutive whitespace characters from collapsing into a single space.

In HTML, the common non-breaking space, which is the same width as the ordinary space character, is encoded as   or  . In Unicode, it is encoded as U+00A0.