所以我们有XSS备忘单来测试我们的XSS过滤 - 但除了示例良性页面之外,我找不到任何恶意或格式错误的测试数据,以确保我的UTF-8代码可以处理行为不端的数据.
我在哪里可以找到一些好的呃......糟糕的数据来测试?或者什么是一个棘手的字符序列?
unicode utf-8
给定以UTF-8编码的Unicode字符串,它只是内存中的字节.
如果计算机想要将这些字节转换为相应的Unicode代码点(数字),它怎么知道一个字符的结束位置和另一个字符的开头?一些字符由1个字节表示,其他字符由最多6个字节表示.所以,如果你有
00111101 10111001
这可能代表2个字符,或1.计算机如何确定正确解释它?是否有某种约定我们可以从第一个字节知道当前字符使用了多少字节或什么?
string unicode utf-8 character-encoding
unicode ×2
utf-8 ×2
character-encoding ×1
string ×1