用于测试Unicode相关问题的Unicode示例文本文件?

sor*_*rin 4 unicode normalization utf-8 character-encoding unicode-normalization

我正在寻找一个示例文本unicode文件(UTF-8),可用于测试与文本编码和解码相关的不同问题,包括:

  • 低ascii字符用法,如前32个代码
  • BMP之外的人物
  • NFC相关问题
  • XML编码/解码问题

主要是我想将文本复制到剪贴板,将其粘贴到应用程序的HTML文本区域,然后能够从页面中检索它.

这将能够识别在解码,编码甚至数据库级别可能发生的不同的Unicode相关问题.

Jon*_*oni 8

此页面已用于测试Web浏览器,其中包含多个脚本中的文本:http://www.columbia.edu/~fdc/utf8/index.html

"我可以吃玻璃杯"的哥特式入口特别是在BMP之外: ̈,.

当移动数据时,规范化形式和XML处理通常没有问题,因此没有特别的测试这两者的常见样本.