我正在加载高维镶木地板文件,但只需要几列.我目前的代码如下:
dat = sqc.parquetFile(path) \
.filter(lambda r: len(r.a)>0) \
.map(lambda r: (r.a, r.b, r.c))
Run Code Online (Sandbox Code Playgroud)
我正在发生的事情的心理模型是它在所有数据中加载,然后丢弃我不想要的列.我显然更喜欢它甚至不读这些专栏,以及我对镶木地板的理解,这似乎是可能的.
所以有两个问题:
sqc.parquetFile()更有效地读取数据?以下是培训我的大众汽车模型的日志的一部分.
为什么这些行中的一些后跟h?您会注意到最后的摘要中的"平均损失"行是正确的.我不确定这意味着什么,或者我是否应该关心.
...
average since example example current current current
loss last counter weight label predict features
1.000000 1.000000 1 1.0 -1.0000 0.0000 15
0.500000 0.000000 2 2.0 1.0000 1.0000 15
1.250000 2.000000 4 4.0 -1.0000 1.0000 9
1.167489 1.084979 8 8.0 -1.0000 1.0000 29
1.291439 1.415389 16 16.0 1.0000 1.0000 45
1.096302 0.901166 32 32.0 -1.0000 -1.0000 21
1.299807 1.503312 64 64.0 -1.0000 1.0000 7
1.413753 1.527699 128 128.0 -1.0000 1.0000 11
1.459430 1.505107 256 256.0 -1.0000 1.0000 47 …Run Code Online (Sandbox Code Playgroud)