在我的rails应用程序中,我正在使用来自世界各地的RSS源,有些源的链接不是UTF-8.原始供稿链接不受我的控制,为了在应用程序的其他部分使用它们,它们需要使用UTF-8.
如何检测编码并转换为UTF-8?
Türkishchars'ÇçĞğİıÖöŞşÜü'在utf-8编码中处理不正确,尽管它们似乎都被定义了.所有这些字符的密码都是65533(替换字符,可能用于错误显示),并根据所选字体显示问号或框.在某些情况下,0/null作为charcode返回.在互联网上,有很多工具给出了utf-8的定义,但我不确定工具是否使用任何已定义的(真实/国际)注册表或动态创建具有已知规则和计算的定义.它们的字体定义明确,当我们手动输入代码点时显示它们没有问题.这证明它们是在utf-8中定义的.但另一方面,它们不会在编码或变换中处理,例如ajax请求/响应.
所以基本问题是"我们如何定义一个字符的代码"?该问题可以如下定制以防止误解.假设我们准备了"Ç"的编码数据,如下所示 - >字符:Ç字符名称:带有CEDILLA的LATIN CAPITAL LETTER C代码点:00C7十进制代码点:199 Hex UTF-8字节:C387 ......我们如何/如何将此信息保存为标准的utf-8字符?我们如何分发/揭露它(准备好被他人使用)?我们是否需要任何人/基金会的任何确认(如unicode/utf-8联盟)如果他们已经注册但无法正常工作,我们如何检测/修复错误?我们可以使用custom-utf8配置吗?如果有,怎么样?
注意:此处不需要代码段,因为它不是误用问题.