我正在使用几个Perl模块解析HTML文档:HTML :: TreeBuilder和HTML :: Element.出于某种原因,只要标签的内容正好 ,这是预料之中的,它就会被HTML :: Element作为一个我以前从未见过的奇怪角色返回:
alt text http://www.freeimagehosting.net/uploads/2acca201ab.jpg
我不能复制角色所以不能谷歌它,无法在角色地图中找到它,奇怪的是当我用正则表达式搜索时,\w找到它.当我将返回的文档转换为ANSI或UTF-8时,它会完全消失.我在HTML :: Element文档中也找不到任何关于它的信息.
如何检测和替换这个角色更有用的东西,null以及如何在将来处理这样的奇怪角色?
cha*_*aos 44
该字符是"\xa0"(即160),这是标准的Unicode转换 .(也就是说,它是Unicode的不间断空间.)s/\xa0/ /g如果你愿意,你应该可以删除它们.
角色是不间断的空间, 代表:
在文字处理和数字排版中,不间断空格("
") (also called no-break space, non-breakable space (NBSP), hard space, or fixed space) is a space character that prevents an automatic line break at its position. In some formats, including HTML, it also prevents consecutive whitespace characters from collapsing into a single space.In HTML, the common non-breaking space, which is the same width as the ordinary space character, is encoded as or . In Unicode, it is encoded as
U+00A0.
| 归档时间: |
|
| 查看次数: |
18729 次 |
| 最近记录: |