如何向StopWordsRemover添加自定义停用词列表

Question

如何向StopWordsRemover添加自定义停用词列表

use*_*088 6 python text-mining stop-words pyspark spark-dataframe

我在我的pyspark数据帧上使用pyspark.ml.feature.StopWordsRemover类.它有ID和Text列.除了提供的默认停用词列表,我想添加自己的自定义列表以从字符串中删除所有数值.

我可以看到有一个方法可以为这个类添加setStopWords.我想我正在努力使用正确的语法来使用这种方法.

from pyspark.sql.functions import *
from pyspark.ml.feature import * 

a = StopWordsRemover(inputCol="words", outputCol="filtered")
b = a.transform(df)

Run Code Online (Sandbox Code Playgroud)

上面的代码在过滤列中给出了预期结果,但它只删除/停止标准单词.我正在寻找一种方法来添加我自己的自定义列表,该列表将包含我希望过滤的更多单词和数值.

Answer 1

ML_*_*_TN 7

您可以使用以下命令指定它:

stopwordList = ["word1","word2","word3"]

StopWordsRemover(inputCol="words", outputCol="filtered" ,stopWords=stopwordList)

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，8 月前
查看次数：	2409 次
最近记录：	8 年，8 月前