我想在Apache Spark中读取具有以下结构的文件.
628344092\t20070220\t200702\t2007\t2007.1370
Run Code Online (Sandbox Code Playgroud)
分隔符是\ t.如何在使用spark.read.csv()时实现这一点?
csv太大而无法使用pandas,因为读取此文件需要很长时间.有没有一种方法与之相似
pandas.read_csv(file, sep = '\t')
Run Code Online (Sandbox Code Playgroud)
非常感谢!
我想用我拥有的数据集做一个朴素的预测,但我正在努力这样做。
values = DataFrame(dataset.iloc[:, -1])
Y_naive = pd.concat([values.shift(24), values], axis=1)
Y_naive.columns = ['t', 't+1']
x = Y_naive.values
Run Code Online (Sandbox Code Playgroud)
我基本上拥有的是每小时数据,我想在其中比较关于其表现形式 {0,1} 的最后一列。由于我想将此天真的预测与其他日前预测器进行比较,因此我想使用前一天 (shift(24)) 的数据来预测实际表现。天真预测:
def naive_forecast(x):
return x
predictions = list()
for x in test_x:
yhat = naive_forecast(x)
predictions.append(yhat)
Run Code Online (Sandbox Code Playgroud)
对我来说,如何进行映射过程非常不清楚。这意味着如何放弃对于二进制分类测试我想使用 24 小时前的数据将其映射到现在迭代整个数据集的数据的论点。( https://en.wikipedia.org/wiki/Forecasting#Na.C3.AFve_approach )