Fab*_*ney 84 java junit unit-testing character-encoding
对于布局,我们有着名的"Lorem ipsum"文本来测试它的外观.
我正在寻找的是一组文件,其中包含用几种不同编码编码的文本,我可以在我的JUnit测试中使用它来测试一些在阅读文本文件时处理字符编码的方法.
例:具有ISO 8859-1编码的测试文件和Windows-1252编码的测试文件.Windows-1252必须触发区域80 16 - 9F 16的差异.换句话说,它必须包含该区域的至少一个字符,以区别于ISO 8859-1.
也许最好的测试文件集是每个编码的测试文件包含其所有字符一次.但也许我不知道某事 - 我们都喜欢这种编码的东西,对吗?:-)
是否有一组用于字符编码问题的测试文件?
Tom*_*icz 41
关于变音符号的维基百科文章非常全面,遗憾的是你必须手动提取这些字符.每种语言也可能存在一些助记符.例如在波兰语中我们使用:
Zażółćgęśląjaźń
其中包含一个正确句子中的所有9个波兰语变音符号.另一个有用的搜索提示是pangrams:使用字母表中每个字母的句子至少一次:
用西班牙语," Elvelozmurciélagohindúcomíafelizcardillo ykiwi.Laiginüeñataocabaelsaxofóndetrásdelpalenque de paja. "(全部27个字母和变音符号).
在俄语中," Съешьжеещёэтихмягкихфранцузскихбулок,давыпейчаю "(所有33个俄语西里尔字母).
pangrams列表包含详尽的摘要.任何人都想把它包装成一个简单的:
public interface NationalCharacters {
String spanish();
String russian();
//...
}
Run Code Online (Sandbox Code Playgroud)
图书馆?
小智 8
我不知道任何完整的文本文档,但如果您可以从所有字符集的简单概述开始,ftp.unicode.org服务器上有一些文件可用
这是WINDOWS-1252的例子.第一列是十六进制字符值,第二列是unicode值.
ftp://ftp.unicode.org/Public/MAPPINGS/VENDORS/MICSFT/WINDOWS/CP1250.TXT
| 归档时间: |
|
| 查看次数: |
7589 次 |
| 最近记录: |