小编jam*_*smf的帖子

不能将punkt tokenizer与pyspark一起使用

我试图在Spark独立集群上使用带有pyspark的NLTK包中的punkt tokenizer.NLTK已安装在各个节点上,但nltk_data文件夹不在NLTK预期的位置(/ usr/share/nltk_data).

我正在尝试使用punkt tokenizer,它位于(my/my_user/nltk_data)中.

我已经设定:

envv1   = "/whatever/my_user/nltk_data"
os.environ['NLTK_DATA'] = envv1   
Run Code Online (Sandbox Code Playgroud)

打印nltk.data.path表示第一个条目是我的nltk_data文件夹实际所在的位置.

from nltk import word_tokenize去罚款,但是当涉及到调用函数word_tokenize(),我得到以下错误:

ImportError: No module named nltk.tokenize
Run Code Online (Sandbox Code Playgroud)

无论出于何种原因,我都可以从nltk.corpus访问资源.当我尝试nltk.download()时,很明显我已经下载了punkt tokenizer.我甚至可以在pyspark之外使用punkt tokenizer.

python nlp nltk apache-spark pyspark

5
推荐指数
0
解决办法
880
查看次数

spark word2vec窗口大小

无论如何要改变使用的窗口大小pyspark.mllib.feature.Word2Vec或永久固定为5?这似乎是一个相当重要的特征.

我在这里看不到这个选项:https: //spark.apache.org/docs/1.4.1/api/scala/index.html#org.apache.spark.mllib.feature.Word2Vec

machine-learning apache-spark word2vec

3
推荐指数
1
解决办法
702
查看次数

标签 统计

apache-spark ×2

machine-learning ×1

nlp ×1

nltk ×1

pyspark ×1

python ×1

word2vec ×1