小编inn*_*neb的帖子

自定义分隔符csv阅读器火花

我想在Apache Spark中读取具有以下结构的文件.

628344092\t20070220\t200702\t2007\t2007.1370

Run Code Online (Sandbox Code Playgroud)

分隔符是\ t.如何在使用spark.read.csv()时实现这一点？

csv太大而无法使用pandas,因为读取此文件需要很长时间.有没有一种方法与之相似

pandas.read_csv(file, sep = '\t')

Run Code Online (Sandbox Code Playgroud)

非常感谢!

csv apache-spark pyspark

inn*_*neb

2018 10-19

17
推荐指数

2
解决办法

3万
查看次数

天真的预测日前

我想用我拥有的数据集做一个朴素的预测，但我正在努力这样做。

    values = DataFrame(dataset.iloc[:, -1])
    Y_naive = pd.concat([values.shift(24), values], axis=1)
    Y_naive.columns = ['t', 't+1']
    x = Y_naive.values

Run Code Online (Sandbox Code Playgroud)

我基本上拥有的是每小时数据，我想在其中比较关于其表现形式 {0,1} 的最后一列。由于我想将此天真的预测与其他日前预测器进行比较，因此我想使用前一天 (shift(24)) 的数据来预测实际表现。天真预测：

    def naive_forecast(x):
        return x
    predictions = list()
    for x in test_x:
        yhat = naive_forecast(x)
        predictions.append(yhat)

Run Code Online (Sandbox Code Playgroud)

对我来说，如何进行映射过程非常不清楚。这意味着如何放弃对于二进制分类测试我想使用 24 小时前的数据将其映射到现在迭代整个数据集的数据的论点。( https://en.wikipedia.org/wiki/Forecasting#Na.C3.AFve_approach )

python statistics pandas

inn*_*neb

lucky-day

1
推荐指数

1
解决办法

1587
查看次数