如何从 PHP 代码创建 ORC 或 Parquet 文件?

Nir*_*Nir 1 php hive presto parquet orc

是否有任何库可用于从 PHP 应用程序以 ORC 或 Parquet 格式编写自定义数据文件以进行 Presto 查询?

如果不是,这种情况下的最佳做法是什么?希望不涉及设置 MapReduce 集群。

10X - 尼尔

小智 6

抱歉打扰了,但我觉得这个问题应该更新。

去年,我发布了第一个公开可用的用于读取/写入 Parquet 文件的 PHP 库,php-parquet. 请参阅https://github.com/jocoon/php-parquet和/或已发布的 Composer 包https://packagist.org/packages/jocoon/parquet ( composer require jocoon/parquet)。它是parquet-dotnet的部分移植,并受其启发,基于 Apache Thrift 规范。

只要您没有特殊的压缩需求(例如snappy),您就不需要外来的 PHP 扩展。BCMathGMP是必需的,因为可能存在任意精度的数字,并且您需要可用zlib(据我所知,Parquet 文件最常用/典型的压缩方法,更准确地说:gzip)。

相应的 github 页面上提供了基本使用说明。

免责声明:我是这个包的开发者。这并不是广告。该库是在 MIT 许可下发布的。请随意提交问题或做出贡献。