相关疑难解决方法(0)

真的很好,坏的UTF-8示例测试数据

所以我们有XSS备忘单来测试我们的XSS过滤 - 但除了示例良性页面之外,我找不到任何恶意或格式错误的测试数据,以确保我的UTF-8代码可以处理行为不端的数据.

我在哪里可以找到一些好的呃......糟糕的数据来测试?或者什么是一个棘手的字符序列?

unicode utf-8

83
推荐指数
5
解决办法
8万
查看次数

具有中文字符的文件如何知道每个字符使用多少字节?

我已经阅读了Joel的文章"绝对最低限度,每个软件开发人员绝对必须知道关于Unicode和字符集(没有借口!)",但仍然不了解所有细节.一个例子将说明我的问题.请看下面这个文件:

替代文字http://www.yart.com.au/stackoverflow/unicode2.png

我在二进制编辑器中打开文件,仔细检查第一个汉字旁边的三个a中的最后一个:

替代文字http://www.yart.com.au/stackoverflow/unicode1.png

乔尔说:

在UTF-8中,0-127的每个代码点都存储在一个字节中.仅使用2,3存储代码点128及以上,实际上最多6个字节.

编辑也说:

  1. E6(230)在代码点128之上.
  2. 因此,我将以下字节解释为2,3,实际上最多6个字节.

如果是这样,是什么表明解释超过2个字节?这是如何用E6后面的字节表示的?

我的汉字是以2,3,4,5或6字节存储的吗?

unicode encoding cjk

20
推荐指数
3
解决办法
2万
查看次数

标签 统计

unicode ×2

cjk ×1

encoding ×1

utf-8 ×1