你有两个步骤.首先解码标题:
如果您有电子邮件,请使用Courriel等高级电子邮件解析器.该subject访问将返回解码的主题.
如果您只有字符串,请使用Encode :: MIME :: Header:
use Encode qw(decode);
decode 'MIME-Header', 'Subject: =?UTF-8?B?5Y2K5bCO5L2T6KO96YCg6KOF572u44OX44Os44OT44Ol44O844OO44O8?= =?UTF-8?B?44OIIDog5b6M5bel56iL44Oh44O844Kr44O844GM5by344GE?='
__END__
Subject: ??????????????? : ??????????
Run Code Online (Sandbox Code Playgroud)
第二步是找出语言.作为一个人,我已经可以说这是日本人.该假名字符的线索,他们只发生在日语书写.如果这就是你所需要的,那么如果字符串匹配\p{Kana},则可能是日语.
对于更通用的解决方案,您使用语言检测库,如Lingua :: Identify :: CLD,Lingua :: Ident,Lingua :: Lid,Lingua :: YALI,WebService :: Google :: Language.
| 归档时间: |
|
| 查看次数: |
1414 次 |
| 最近记录: |