不能将punkt tokenizer与pyspark一起使用

jam*_*smf 5 python nlp nltk apache-spark pyspark

我试图在Spark独立集群上使用带有pyspark的NLTK包中的punkt tokenizer.NLTK已安装在各个节点上,但nltk_data文件夹不在NLTK预期的位置(/ usr/share/nltk_data).

我正在尝试使用punkt tokenizer,它位于(my/my_user/nltk_data)中.

我已经设定:

envv1   = "/whatever/my_user/nltk_data"
os.environ['NLTK_DATA'] = envv1

Run Code Online (Sandbox Code Playgroud)

打印nltk.data.path表示第一个条目是我的nltk_data文件夹实际所在的位置.

在from nltk import word_tokenize去罚款,但是当涉及到调用函数word_tokenize(),我得到以下错误:

ImportError: No module named nltk.tokenize

Run Code Online (Sandbox Code Playgroud)

无论出于何种原因,我都可以从nltk.corpus访问资源.当我尝试nltk.download()时,很明显我已经下载了punkt tokenizer.我甚至可以在pyspark之外使用punkt tokenizer.

归档时间：	10 年，5 月前
查看次数：	880 次
最近记录：	10 年，5 月前

如何从代码中配置nltk数据目录？ 74

更多相关链接

如何从Django shell执行Python脚本？ 224

有关使用Google App Engine的反馈意见？ 125

而(1)Vs. for while(True) - 为什么会有区别？ 110

使用matplotlib绘制水平线 104

如何使用Python和Flask获取请求变量的值 59

从列表中获取第一个非None值 50

将datetime转换为POSIX时间 47

GroupBy在Pyspark中具有最大值的列和过滤器行 19

AWS Glue 截断 Redshift 表 5

Databricks：如何将％python下的Spark数据帧转换为％r下的数据帧 4

C#中字符串和字符串有什么区别？ 6250

如何让Git"忘记"一个被跟踪但现在位于.gitignore的文件？ 4888

如何迭代字符串的单词？ 2895

PHP'foreach'如何实际工作？ 1926

删除包含特定字符串的文本文件中的行 1670

如何迭代Pandas中的DataFrame中的行？ 1551

如何迭代Bash中变量定义的一系列数字？ 1409

如何在SQL中使用JOIN执行UPDATE语句？ 1262

在Python中创建一个包含列表推导的字典 1216

如何删除文本/输入框周围的边框(轮廓)？(铬) 1208