小编sab*_*sab的帖子

删除 pyspark 数据框列中的非 ascii 和特殊字符

我正在从大约有 50 列的 csv 文件中读取数据,很少有列(4 到 5)包含带有非 ASCII 字符和特殊字符的文本数据。

df = spark.read.csv(path, header=True, schema=availSchema)
Run Code Online (Sandbox Code Playgroud)

我正在尝试删除所有非 Ascii 和特殊字符并仅保留英文字符,我尝试按如下方式进行

df = df['textcolumn'].str.encode('ascii', 'ignore').str.decode('ascii')
Run Code Online (Sandbox Code Playgroud)

我的列名中没有空格。我收到一个错误

TypeError: 'Column' object is not callable
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<command-1486957561378215> in <module>
----> 1 InvFilteredDF = InvFilteredDF['SearchResultDescription'].str.encode('ascii', 'ignore').str.decode('ascii')

TypeError: 'Column' object is not callable
Run Code Online (Sandbox Code Playgroud)

是否有其他方法可以完成此操作,感谢您对此的任何帮助。

python apache-spark-sql pyspark pyspark-sql azure-databricks

3
推荐指数
2
解决办法
6100
查看次数