相关疑难解决方法(0)

我是否正确地将字符串传递给python库?

我正在使用一个名为Guess Language的python库:http://pypi.python.org/pypi/guess-language/0.1

"justwords"是一个带有unicode文本的字符串.我把它粘在包里,但它总是返回英文,即使网页是日文的.有谁知道为什么?我没有正确编码吗?

§ç©ºéå
¶ä»æ¡å°±æ²æéç¨®å¾                                é¤ï¼æä»¥ä¾é裡ç¶ç
éäºï¼åæ­¤ç°å¢æ°£æ°¹³åèµ·ä¾åªè½ç®âå¾å¥½âé常好âåå                 ¶æ¯è¦é»é¤ï¼é¨ä¾¿é»çé»ã飲æãä¸ææ²»ç­åä¸å                                     便å®ï¼æ¯æ´è¥ç   äºï¼æ³æ³é裡以å°é»ãæ¯è§ä¾èªªä¹è©²æpremiumï¼åªæ±é¤é»å¥½å就好äºã<br /><br />é¦åç¾ï¼æä»¥å°±é»å宿´ç         æ­£è¦åä¸ä¸å
ä¸ç                           å¥é¤å§ï¼å



justwords = justwords.encode('utf-8')
true_lang =  str(guess_language.guessLanguage(justwords))
print true_lang
Run Code Online (Sandbox Code Playgroud)

编辑:谢谢你的帮助.这是问题的更新.

我试图"猜测"这个语言:http://feeds.feedburner.com/nchild

基本上,在Python中,我得到了htmlSource.然后,我使用BeautifulSoup剥离标签.然后,我将它传递给图书馆以获取语言.如果我不进行编码('utf-8'),则会出现ASCII错误.所以,这是必须的.

soup = BeautifulStoneSoup(htmlSource)
justwords = ''.join(soup.findAll(text=True))
justwords = justwords.encode('utf-8')
true_lang =  str(guess_language.guessLanguage(justwords))
Run Code Online (Sandbox Code Playgroud)

python unicode encoding nlp

-1
推荐指数
1
解决办法
722
查看次数

标签 统计

encoding ×1

nlp ×1

python ×1

unicode ×1