小编inn*_*neb的帖子

自定义分隔符csv阅读器火花

我想在Apache Spark中读取具有以下结构的文件.

628344092\t20070220\t200702\t2007\t2007.1370
Run Code Online (Sandbox Code Playgroud)

分隔符是\ t.如何在使用spark.read.csv()时实现这一点?

csv太大而无法使用pandas,因为读取此文件需要很长时间.有没有一种方法与之相似

pandas.read_csv(file, sep = '\t')
Run Code Online (Sandbox Code Playgroud)

非常感谢!

csv apache-spark pyspark

17
推荐指数
2
解决办法
3万
查看次数

天真的预测日前

我想用我拥有的数据集做一个朴素的预测,但我正在努力这样做。

    values = DataFrame(dataset.iloc[:, -1])
    Y_naive = pd.concat([values.shift(24), values], axis=1)
    Y_naive.columns = ['t', 't+1']
    x = Y_naive.values
Run Code Online (Sandbox Code Playgroud)

我基本上拥有的是每小时数据,我想在其中比较关于其表现形式 {0,1} 的最后一列。由于我想将此天真的预测与其他日前​​预测器进行比较,因此我想使用前一天 (shift(24)) 的数据来预测实际表现。天真预测:

    def naive_forecast(x):
        return x
    predictions = list()
    for x in test_x:
        yhat = naive_forecast(x)
        predictions.append(yhat)
Run Code Online (Sandbox Code Playgroud)

对我来说,如何进行映射过程非常不清楚。这意味着如何放弃对于二进制分类测试我想使用 24 小时前的数据将其映射到现在迭代整个数据集的数据的论点。( https://en.wikipedia.org/wiki/Forecasting#Na.C3.AFve_approach )

python statistics pandas

1
推荐指数
1
解决办法
1587
查看次数

标签 统计

apache-spark ×1

csv ×1

pandas ×1

pyspark ×1

python ×1

statistics ×1