Nag*_*han 3 join pandas google-cloud-dataflow apache-beam
如何在Apache Beam中实现Pandas?我无法在多个列上执行左联接,并且Pcollections不支持sql查询。甚至Apache Beam文档也没有正确地构建框架。我检查了一下,但是在Apache Beam中找不到任何熊猫实现。谁能将我定向到所需的链接?
这里有些混乱。
pandas是“受支持的”,从某种意义上说pandas,只要您指定适当的依赖关系,就可以像在没有Apache Beam的情况下使用库一样使用库,也可以从Beam管道中使用任何其他库的方法来使用库。从某种意义上说,它也是“受支持的”,因为默认情况下它捆绑为一个依赖项,因此您不必自己指定它。例如,您可以编写一个对每个元素都DoFn执行一些计算的pandas;每个元素的单独计算,由Beam在所有元素上并行执行。
从某种意义上说,不支持Apache Beam,因为它不提供任何特殊的集成,例如,您不能将a PCollection作为熊猫数据框使用,反之亦然。A PCollection在物理上不包含任何数据(这对于流传输管道来说应该特别清楚)-它只是Beam执行计划中的一个占位符节点。
就是说,使用类似pandasAPI的Beam PCollections无疑是一个好主意,并且可以简化许多现有pandas用户的学习Beam的工作,但是我认为目前还没有人在努力实现这一目标。但是,Beam社区当前正在讨论向PCollections添加架构的想法,这是朝着这个方向迈出的一步。
除了直接从 DoFns 使用 Pandas 之外,Beam 现在还有一个 API 可以将 PCollections 作为数据帧进行操作。有关更多详细信息,请参阅https://s.apache.org/simple-python-pipelines-2020。
| 归档时间: |
|
| 查看次数: |
2607 次 |
| 最近记录: |