如何在apache Beam中使用Pandas？

Question

如何在apache Beam中使用Pandas？

Nag*_*han 3 join pandas google-cloud-dataflow apache-beam

如何在Apache Beam中实现Pandas？我无法在多个列上执行左联接，并且Pcollections不支持sql查询。甚至Apache Beam文档也没有正确地构建框架。我检查了一下，但是在Apache Beam中找不到任何熊猫实现。谁能将我定向到所需的链接？

Answer 1

jkf*_*kff 7

这里有些混乱。

pandas是“受支持的”，从某种意义上说pandas，只要您指定适当的依赖关系，就可以像在没有Apache Beam的情况下使用库一样使用库，也可以从Beam管道中使用任何其他库的方法来使用库。从某种意义上说，它也是“受支持的”，因为默认情况下它捆绑为一个依赖项，因此您不必自己指定它。例如，您可以编写一个对每个元素都DoFn执行一些计算的pandas；每个元素的单独计算，由Beam在所有元素上并行执行。

从某种意义上说，不支持Apache Beam，因为它不提供任何特殊的集成，例如，您不能将a PCollection作为熊猫数据框使用，反之亦然。A PCollection在物理上不包含任何数据（这对于流传输管道来说应该特别清楚）-它只是Beam执行计划中的一个占位符节点。

就是说，使用类似pandasAPI的Beam PCollections无疑是一个好主意，并且可以简化许多现有pandas用户的学习Beam的工作，但是我认为目前还没有人在努力实现这一目标。但是，Beam社区当前正在讨论向PCollections添加架构的想法，这是朝着这个方向迈出的一步。

Beam支持类似的操作，但是如上所述，它不为它们提供类似熊猫的界面。如果这是客户所要求的，则需要在Beam API之上自己实现它。 (2认同)

Answer 2

rob*_*twb 5

除了直接从 DoFns 使用 Pandas 之外，Beam 现在还有一个 API 可以将 PCollections 作为数据帧进行操作。有关更多详细信息，请参阅https://s.apache.org/simple-python-pipelines-2020。

归档时间：	8 年，3 月前
查看次数：	2607 次
最近记录：	7 年前