我有一个 python 脚本,其中使用 pandas 来转换/操作我的数据。我知道我有一些“低效”的代码块。我的问题是,如果 pyspark 应该更快,我可以使用 pyspark 而不是 pandas 替换这些块,还是我需要将所有内容都放在 pyspark 中?如果我在 Databricks 中,那么这到底有多重要,因为它已经在 Spark 集群上了?
如果我在 A 列中有一个范围从 1-1000 的值列表,我该如何格式化该列,使每个值都是“0000”,即。基于 len(max(A:A)) ,该值为 4。这需要取决于最大值。
如果 A 列中的最大值为 10,500,我希望每个值的格式为“00000”。有什么方法可以自动设置它 - 无论是在 VBA 还是其他格式化方法中?谢谢
寻找使用 3 个 python 列表创建字典的帮助
a = ['alpha','bravo','charlie']
b = ['a','b','c']
c = [1,2,3]
output:
{'alpha': {'letter': 'a', 'number': 1},
'bravo': {'letter': 'b', 'number': 2},
'charlie': {'letter': 'c', 'number': 3}}
Run Code Online (Sandbox Code Playgroud)
我尝试过这样的事情。这可能很接近,但需要一些调整:
{k: dict(v) for k,v in zip(a, zip(('letter', b),('number', c)))}
Run Code Online (Sandbox Code Playgroud)