小编use*_*341的帖子

Python 3 UnicodeDecodeError:'ascii'编解码器无法解码位置0中的字节0xe2:序数不在范围内(128)

我正在使用Python 3.5.3在Windows上实现这个笔记本,并在load_vectors()调用时得到了关注错误.我尝试过不同的解决方案,但都没有效果.

<ipython-input-86-dd4c123b0494> in load_vectors(loc)
      1 def load_vectors(loc):
      2     return (load_array(loc+'.dat'),
----> 3         pickle.load(open(loc+'_words.pkl','rb')),
      4         pickle.load(open(loc+'_idx.pkl','rb')))

UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 0: ordinal not in range(128)

Run Code Online (Sandbox Code Playgroud)

python pickle python-3.x

use*_*341

2017 09-05

7
推荐指数

2
解决办法

2万
查看次数

DocumentTermMatrix 需要有一个词频加权误差

我正在尝试在相当大的数据集上使用 topicmodels 包中的 LDA()。在尝试解决以下错误“In nr * nc : NAs 由整数溢出产生”和“输入矩阵的每一行需要包含至少一个非零条目”之后，我最终得到了这个错误。

ask<- read.csv('askreddit201508.csv', stringsAsFactors = F)    
myDtm <- create_matrix(as.vector(ask$title), language="english", removeNumbers=TRUE, stemWords=TRUE, weighting=weightTf)
myDtm2 = removeSparseTerms(myDtm,0.99999)
myDtm2 <- rollup(myDtm2, 2, na.rm=TRUE, FUN = sum)
rowTotals <- apply(myDtm2 , 1, sum)
myDtm2   <- myDtm2[rowTotals> 0, ]  
LDA2 <- LDA(myDtm2,100)

Error in LDA(myDtm2, 100) : 
  The DocumentTermMatrix needs to have a term frequency weighting

Run Code Online (Sandbox Code Playgroud)

r lda topicmodels

use*_*341

2015 11-19

1
推荐指数

1
解决办法

2406
查看次数