我从他们的网站本身尝试了一个简单的 python 多处理示例,但它没有提供任何输入。它显示为正在运行,我无法在 jupyter 笔记本中停止它。
from multiprocessing import Pool
def f(x):
return x*x
if __name__ == '__main__':
p = Pool(5)
print(p.map(f, [1, 2, 3]))
Run Code Online (Sandbox Code Playgroud)
其他多处理示例也是如此。它不会给出任何错误或超时或任何东西。就像陷入无限循环或死锁一样。
我有包含以下详细信息的 yaml 文件。文件名:config.yml
- firstName: "James"
lastName: "Bond"
age: 30
- firstName: "Super"
lastName: "Man"
age: 25
Run Code Online (Sandbox Code Playgroud)
由此,我需要使用 spark 和 scala 来获取 spark 数据帧
+---+---------+--------+
|age|firstName|lastName|
+---+---------+--------+
|30 |James |Bond |
|25 |Super |Man |
+---+---------+--------+
Run Code Online (Sandbox Code Playgroud)
我曾尝试转换为 json,然后转换为数据帧,但我无法在数据集序列中指定它。