小编use*_*178的帖子

为什么将Spark管道应用于具有多列但行很少的数据集会很慢?

我正在使用具有312个列(大部分为数字)但只有421行的简单数据集来测试Spark管道。它虽然很小,但是将我的ML管道应用到具有60G内存的24核心服务器上需要3分钟。对于这么小的数据集来说,这似乎很长了。类似的点线可以在具有较少列和更多行的数据集上快速运行。有关导致性能降低的列数的信息。

这是我的指导中的阶段列表:

000_strIdx_5708525b2b6c      048_bucketizer_888b0055c1ad  096_bucketizer_e677659ca253
001_strIdx_ec2296082913      049_bucketizer_974e0a1433a6  097_bucketizer_396e35548c72
002_bucketizer_3cbc8811877b  050_bucketizer_e848c0937cb9  098_bucketizer_78a6410d7a84
003_bucketizer_5a01d5d78436  051_bucketizer_95611095a4ac  099_bucketizer_e3ae6e54bca1
004_bucketizer_bf290d11364d  052_bucketizer_660a6031acd9  100_bucketizer_9fed5923fe8a
005_bucketizer_c3296dfe94b2  053_bucketizer_aaffe5a3140d  101_bucketizer_8925ba4c3ee2
006_bucketizer_7071ca50eb85  054_bucketizer_8dc569be285f  102_bucketizer_95750b6942b8
007_bucketizer_27738213c2a1  055_bucketizer_83d1bffa07bc  103_bucketizer_6e8b50a1918b
008_bucketizer_bd728fd89ba1  056_bucketizer_0c6180ba75e6  104_bucketizer_36cfcc13d4ba
009_bucketizer_e1e716f51796  057_bucketizer_452f265a000d  105_bucketizer_2716d0455512
010_bucketizer_38be665993ba  058_bucketizer_38e02ddfb447  106_bucketizer_9bcf2891652f
011_bucketizer_5a0e41e5e94f  059_bucketizer_6fa4ad5d3ebd  107_bucketizer_8c3d352915f7
012_bucketizer_b5a3d5743aaa  060_bucketizer_91044ee766ce  108_bucketizer_0786c17d5ef9
013_bucketizer_4420f98ff7ff  061_bucketizer_9a9ef04a173d  109_bucketizer_f22df23ef56f
014_bucketizer_777cc4fe6d12  062_bucketizer_3d98eb15f206  110_bucketizer_bad04578bd20
015_bucketizer_f0f3a3e5530e  063_bucketizer_c4915bb4d4ed  111_bucketizer_35cfbde7e28f
016_bucketizer_218ecca3b5c1  064_bucketizer_8ca2b6550c38  112_bucketizer_cf89177a528b
017_bucketizer_0b083439a192  065_bucketizer_417ee9b760bc  113_bucketizer_183a0d393ef0
018_bucketizer_4520203aec27  066_bucketizer_67f3556bebe8  114_bucketizer_467c78156a67
019_bucketizer_462c2c346079  067_bucketizer_0556deb652c6  115_bucketizer_380345e651ab
020_bucketizer_47435822e04c  068_bucketizer_067b4b3d234c  116_bucketizer_0f39f6de1625
021_bucketizer_eb9dccb5e6e8  069_bucketizer_30ba55321538  117_bucketizer_d8500b2c0c2f
022_bucketizer_b5f63dd7451d  070_bucketizer_ad826cc5d746  118_bucketizer_dc5f1fd09ff1
023_bucketizer_e0fd5041c841  071_bucketizer_77676a898055  119_bucketizer_eeaf9e6cdaef
024_bucketizer_ffb3b9737100  072_bucketizer_05c37a38ce30  120_bucketizer_5614cd4533d7
025_bucketizer_e06c0d29273c  073_bucketizer_6d9ae54163ed  121_bucketizer_2f1230e2871e …
Run Code Online (Sandbox Code Playgroud)

apache-spark-ml

5
推荐指数
0
解决办法
528
查看次数

标签 统计

apache-spark-ml ×1