小编jar*_*rfa的帖子

如何在Spark中更有效地加载Parquet文件(pySpark v1.2.0)

我正在加载高维镶木地板文件,但只需要几列.我目前的代码如下:

dat = sqc.parquetFile(path) \
          .filter(lambda r: len(r.a)>0) \
          .map(lambda r: (r.a, r.b, r.c))

Run Code Online (Sandbox Code Playgroud)

我正在发生的事情的心理模型是它在所有数据中加载,然后丢弃我不想要的列.我显然更喜欢它甚至不读这些专栏,以及我对镶木地板的理解,这似乎是可能的.

所以有两个问题:

我的心理模型错了吗？或者,spark编译器是否足够智能,只能读取上面示例中的a,b和c列？
如何强制sqc.parquetFile()更有效地读取数据？

apache-spark parquet apache-spark-sql pyspark

jar*_*rfa

2015 04-23

8
推荐指数

1
解决办法

9560
查看次数

解释Vowpal Wabbit结果:为什么有些行附加"h"？

以下是培训我的大众汽车模型的日志的一部分.

为什么这些行中的一些后跟h？您会注意到最后的摘要中的"平均损失"行是正确的.我不确定这意味着什么,或者我是否应该关心.

...  
average    since         example     example  current  current  current    
loss       last          counter      weight    label  predict features    
1.000000   1.000000            1         1.0  -1.0000   0.0000       15    
0.500000   0.000000            2         2.0   1.0000   1.0000       15    
1.250000   2.000000            4         4.0  -1.0000   1.0000        9    
1.167489   1.084979            8         8.0  -1.0000   1.0000       29    
1.291439   1.415389           16        16.0   1.0000   1.0000       45    
1.096302   0.901166           32        32.0  -1.0000  -1.0000       21    
1.299807   1.503312           64        64.0  -1.0000   1.0000        7    
1.413753   1.527699          128       128.0  -1.0000   1.0000       11    
1.459430   1.505107          256       256.0  -1.0000   1.0000       47 …

Run Code Online (Sandbox Code Playgroud)

vowpalwabbit

jar*_*rfa

lucky-day

5
推荐指数

2
解决办法

867
查看次数