Mal*_*olm 5 unicode rtf ms-word codepages word-2003
我正在解析由Word 2003+生成的RTF 1.5+文件,这些文件可能包含其他语言的内容.此内容通常编码为十六进制文字(\'xx).我想将这些文字转换为unicode值.
我通过查找ansicpg(\ ansi\ansicpg1252)来了解我的文档代码页.
当我使用ansicpg代码页解码为Unicode,多语言(如法国)似乎转换成我期望的Unicode字符值.
但是,当我看到俄语文本(如下所示)时,代码页1252将内容解码为乱码.
\ f277\lang1049\langfe1033\langnp1049\insrsid5989826\charrsid6817286\'D1 \' F2\'F0 \' E0\'编\' E8\'F6 \' FB\'E1 \' E5\'E7 \' 编\" E0\'E7 \' E2\'E0 \' 编\ 'E8 \' FF.\ 'DD \' F2\'E0 \' F1\'F2 \' F0\'E0 \' 编\ 'E8 \' F6\'E0 \' 编\ 'E5 \' E4\'EE \' EB \" E6\'编\' E0\'EE \' F2\'EE \' E1\'F0 \' E0\'E6 \' E0\'F2 \' FC\'F1 \' FF\'E2 \' F2\'E0 \' E1\'EB \' E8\'F6 \' E5\'E2 \' F1\'EE \' E4\'E5 \' F0\'E6 \' E0\'编\' E8 \'E8 .
我假设lang1049,langfe1033,langnp1049应该为我提供线索,以便我可以以编程方式为他们引用的文本选择不同的(非默认)代码页?如果是这样,我在哪里可以找到解释如何将lang*代码映射到代码页的信息?或者我应该寻找其他一些RTF命令/指令来向我提供我正在寻找的信息?(或者我必须使用\ f277作为字体引用,看看它是否有相关的代码页?)