Ser*_*rov 5 python io scipy sparse-matrix parquet
我正在尝试重现Netflix 最近关于产品 Vectorflow 的文章中提到的设置。
他们使用 Hive 中的 parquet 文件作为数据源。我想用 scipy 的稀疏矩阵生成一些假数据。如何将这样的矩阵保存到镶木地板文件中?
您可以使用 Apache Arrow(Python 包名称为pyarrow)来编写 Parquet 文件:https://arrow.apache.org/docs/python/parquet.html
有一些方便的函数来存储pandas.DataFrames,对于 scipy 稀疏矩阵,您可以使用其中一些函数,但需要稍微调整一下。
使用 Apache Parquet 的重要一点是它是一种列式、类似表格的格式,即它需要一个数组字典。您必须以这种形式提交您的矩阵。这在一定程度上取决于 Vectorflow 对数据的期望方式。