Tor*_*ren 3 unicode utf-8 python-2.7 apache-spark pyspark
我有以下几行Python代码:
trans = data.map(lambda line: line.strip().split())
Run Code Online (Sandbox Code Playgroud)
产生Unicode字符串,例如:
u'Hello',u'word'
Run Code Online (Sandbox Code Playgroud)
我想获取普通的UTF-8或ASCII字符串
'Hello','word'
Run Code Online (Sandbox Code Playgroud)
我试图将字符串转换为UTF-8,例如
trans = data.map(lambda line: line.strip().split().encode("utf-8"))
Run Code Online (Sandbox Code Playgroud)
要么
trans = data.map(lambda line: line.strip().split().encode('ascii','ignore'))
Run Code Online (Sandbox Code Playgroud)
但这给出了一个错误:
AttributeError: 'list' object has no attribute 'encode'
Run Code Online (Sandbox Code Playgroud)
谁能告诉我该怎么做?
更新:
数据是scv文件,trans是RDD
为什么不简单地编码和拆分:
data = sc.textFile("README.md")
trans = data.map(lambda x: x.encode("ascii", "ignore").split())
trans.first()
## ['#', 'Apache', 'Spark']
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
10805 次 |
| 最近记录: |