如何将 scipy 稀疏矩阵保存到 parquet 文件中

Ser*_*rov 5 python io scipy sparse-matrix parquet

我正在尝试重现Netflix 最近关于产品 Vectorflow 的文章中提到的设置。

他们使用 Hive 中的 parquet 文件作为数据源。我想用 scipy 的稀疏矩阵生成一些假数据。如何将这样的矩阵保存到镶木地板文件中?

Uwe*_*orn 2

您可以使用 Apache Arrow(Python 包名称为pyarrow)来编写 Parquet 文件:https://arrow.apache.org/docs/python/parquet.html

有一些方便的函数来存储pandas.DataFrames,对于 scipy 稀疏矩阵,您可以使用其中一些函数,但需要稍微调整一下。

使用 Apache Parquet 的重要一点是它是一种列式、类似表格的格式,即它需要一个数组字典。您必须以这种形式提交您的矩阵。这在一定程度上取决于 Vectorflow 对数据的期望方式。