我正在使用一个名为Guess Language的python库:http://pypi.python.org/pypi/guess-language/0.1
"justwords"是一个带有unicode文本的字符串.我把它粘在包里,但它总是返回英文,即使网页是日文的.有谁知道为什么?我没有正确编码吗?
§ç©ºéå
¶ä»æ¡å°±æ²æéç¨®å¾                                é¤ï¼æä»¥ä¾é裡ç¶ç
éäºï¼åæ¤ç°å¢æ°£æ°¹³åèµ·ä¾åªè½ç®âå¾å¥½âé常好âåå                 ¶æ¯è¦é»é¤ï¼é¨ä¾¿é»çé»ã飲æãä¸ææ²»çåä¸å                                     便å®ï¼æ¯æ´è¥ç   äºï¼æ³æ³é裡以å°é»ãæ¯è§ä¾èªªä¹è©²æpremiumï¼åªæ±é¤é»å¥½å就好äºã<br /><br />é¦åç¾ï¼æä»¥å°±é»å宿´ç         æ£è¦åä¸ä¸å
ä¸ç                           å¥é¤å§ï¼å
justwords = justwords.encode('utf-8')
true_lang =  str(guess_language.guessLanguage(justwords))
print true_lang
编辑:谢谢你的帮助.这是问题的更新.
我试图"猜测"这个语言:http://feeds.feedburner.com/nchild
基本上,在Python中,我得到了htmlSource.然后,我使用BeautifulSoup剥离标签.然后,我将它传递给图书馆以获取语言.如果我不进行编码('utf-8'),则会出现ASCII错误.所以,这是必须的.
soup = BeautifulStoneSoup(htmlSource)
justwords = ''.join(soup.findAll(text=True))
justwords = justwords.encode('utf-8')
true_lang =  str(guess_language.guessLanguage(justwords))