小编Fas*_*sty的帖子

如何遍历 spark 数据帧的一列并逐一访问其中的值?

我有火花数据框 在这里

我想一一获取一列的值并需要将其分配给某个变量? 如何在 pyspark 中完成。对不起,我是一个新手,可以使用 spark 和 stackoverflow。请原谅我的问题不够清晰

apache-spark-sql pyspark

5
推荐指数
1
解决办法
4703
查看次数

如何从 pyspark 数据框中更快地保存 csv 文件?

我目前在本地 Windows 10 系统上使用 pyspark。pyspark 代码运行速度非常快,但需要花费大量时间将 pyspark 数据帧保存为 csv 格式。

我正在将 pyspark 数据框转换为 Pandas,然后将其保存到 csv 文件。我也尝试过使用 write 方法来保存 csv 文件。

Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False)




Full_data.repartition(1).write.format('com.databricks.spark.csv').option("header", "true").save("Level 1 - {} Hourly Avg Data.csv".format(yr))
Run Code Online (Sandbox Code Playgroud)

两个代码都花了大约一个小时来保存 csv 文件。有没有更快的方法来从 pyspark 数据框中保存 csv 文件?

python hadoop apache-spark pyspark

4
推荐指数
1
解决办法
1999
查看次数

你能解释一下keras模型中tensorflow加载和hdf5加载之间的区别吗

我试图加载我在训练期间保存的 keras 模型。所以我去了keras 文档,在那里我看到了这个。

从 TensorFlow 格式加载权重时,仅支持拓扑加载 (by_name=False)。请注意,对于从 tf.keras.Model 继承的用户定义类,TensorFlow 和 HDF5 格式之间的拓扑加载略有不同:HDF5 基于权重的扁平列表进行加载,而 TensorFlow 格式则基于属性的对象局部名称进行加载。层在模型的构造函数中分配。

能否请您解释一下上面的内容?

python computer-vision keras tensorflow machine-learning-model

4
推荐指数
1
解决办法
2416
查看次数

加载模型时如何使用 min max scaler 拟合测试数据?

我正在做自动编码器模型。我已经保存了模型,在此之前我使用 min max scaler 缩放了数据。

X_train = df.values
scaler = MinMaxScaler()
X_train_scaled = scaler.fit_transform(X_train)
Run Code Online (Sandbox Code Playgroud)

完成此操作后,我安装了模型并将其保存为“h5”文件。现在当我提供测试数据时,在自然加载保存的模型后,它也应该进行缩放。

所以当我加载模型并使用

X_test_scaled  = scaler.transform(X_test)
Run Code Online (Sandbox Code Playgroud)

它给出了错误

NotFittedError: This MinMaxScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this method.
Run Code Online (Sandbox Code Playgroud)

所以我给出了X_test_scaled = scaler.fit_transform(X_test) (我有一种预感,它是愚蠢的)确实给出了一个结果(在加载保存的模型和测试之后),当我训练它并一起测试时它是不同的。为了我的目的,我现在已经保存了大约 4000 个模型(所以我无法训练并再次保存它,因为它花费了很多时间,所以我想要一条出路)。

有没有一种方法可以通过按照我训练的方式对其进行转换来缩放测试数据(可能是保存缩放值,我不知道)。或者可以对模型进行去缩放,以便我可以在非缩放数据上测试模型.

如果我没有强调或过分强调任何一点,请在评论中告诉我!

python scaling test-data machine-learning normalization

3
推荐指数
1
解决办法
1884
查看次数