小编jar*_*rfa的帖子

如何在Spark中更有效地加载Parquet文件(pySpark v1.2.0)

我正在加载高维镶木地板文件,但只需要几列.我目前的代码如下:

dat = sqc.parquetFile(path) \
          .filter(lambda r: len(r.a)>0) \
          .map(lambda r: (r.a, r.b, r.c))
Run Code Online (Sandbox Code Playgroud)

我正在发生的事情的心理模型是它在所有数据中加载,然后丢弃我不想要的列.我显然更喜欢它甚至不读这些专栏,以及我对镶木地板的理解,这似乎是可能的.

所以有两个问题:

  1. 我的心理模型错了吗?或者,spark编译器是否足够智能,只能读取上面示例中的a,b和c列?
  2. 如何强制sqc.parquetFile()更有效地读取数据?

apache-spark parquet apache-spark-sql pyspark

8
推荐指数
1
解决办法
9560
查看次数

解释Vowpal Wabbit结果:为什么有些行附加"h"?

以下是培训我的大众汽车模型​​的日志的一部分.

为什么这些行中的一些后跟h?您会注意到最后的摘要中的"平均损失"行是正确的.我不确定这意味着什么,或者我是否应该关心.

...  
average    since         example     example  current  current  current    
loss       last          counter      weight    label  predict features    
1.000000   1.000000            1         1.0  -1.0000   0.0000       15    
0.500000   0.000000            2         2.0   1.0000   1.0000       15    
1.250000   2.000000            4         4.0  -1.0000   1.0000        9    
1.167489   1.084979            8         8.0  -1.0000   1.0000       29    
1.291439   1.415389           16        16.0   1.0000   1.0000       45    
1.096302   0.901166           32        32.0  -1.0000  -1.0000       21    
1.299807   1.503312           64        64.0  -1.0000   1.0000        7    
1.413753   1.527699          128       128.0  -1.0000   1.0000       11    
1.459430   1.505107          256       256.0  -1.0000   1.0000       47 …
Run Code Online (Sandbox Code Playgroud)

vowpalwabbit

5
推荐指数
2
解决办法
867
查看次数