是否有一组用于测试字符编码问题的"Lorem ipsums"文件?

Fab*_*ney 84 java junit unit-testing character-encoding

对于布局,我们有着名的"Lorem ipsum"文本来测试它的外观.

我正在寻找的是一组文件,其中包含用几种不同编码编码的文本,我可以在我的JUnit测试中使用它来测试一些在阅读文本文件时处理字符编码的方法.

例:

具有ISO 8859-1编码的测试文件和Windows-1252编码的测试文件.Windows-1252必须触发区域80 16 - 9F 16的差异.换句话说,它必须包含该区域的至少一个字符,以区别于ISO 8859-1.

也许最好的测试文件集是每个编码的测试文件包含其所有字符一次.但也许我不知道某事 - 我们都喜欢这种编码的东西,对吗?:-)

是否有一组用于字符编码问题的测试文件?

Tom*_*icz 41

关于变音符号的维基百科文章非常全面,遗憾的是你必须手动提取这些字符.每种语言也可能存在一些助记符.例如在波兰语中我们使用:

Zażółćgęśląjaźń

其中包含一个正确句子中的所有9个波兰语变音符号.另一个有用的搜索提示是pangrams:使用字母表中每个字母的句子至少一次:

  • 用西班牙语," Elvelozmurciélagohindúcomíafelizcardillo ykiwi.Laiginüeñataocabaelsaxofóndetrásdelpalenque de paja. "(全部27个字母和变音符号).

  • 在俄语中," Съешьжеещёэтихмягкихфранцузскихбулок,давыпейчаю "(所有33个俄语西里尔字母).

pangrams列表包含详尽的摘要.任何人都想把它包装成一个简单的:

public interface NationalCharacters {
  String spanish();
  String russian();
  //...
}
Run Code Online (Sandbox Code Playgroud)

图书馆?


Dan*_*ply 26

如何尝试使用ICU测试套件文件?我不知道它们是否是您测试所需要的,但它们似乎至少完成了/到UTF映射文件:链接到ICU测试文件的repo


小智 8

我不知道任何完整的文本文档,但如果您可以从所有字符集的简单概述开始,ftp.unicode.org服务器上有一些文件可用

这是WINDOWS-1252的例子.第一列是十六进制字符值,第二列是unicode值.

ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT