我有一些计算的浮点列。我想显示四舍五入的一列的值,但round(pl.col("value"), 2)在 Polars 中无法正确旋转。我怎样才能做到呢?
我有多个polars数据帧,我想将它们附加到现有的 Parquet 文件中。
df.write_parquet("path.parquet")覆盖现有的镶木地板文件。我怎样才能追加?
我的工作有 df 3 个主要列:cid1, cid2, cid3,以及更多 7 个列cid4, cid5, etc。
cid1是cid2,int另一列是float。
cid1和的每个组合cid2都是一个包含某些行的工作集,其中所有其他列的值都不同。我想过滤 df 并接收我的 df ,其中仅包含和cid3的每个组合的列中的最大值。下一列必须保持不变。cid1cid2cid4
这段代码帮助我完成了部分任务:
df = (df
.groupby(["cid1", "cid2"])
.agg([pl.max("cid3").alias("max_cid3")])
)
Run Code Online (Sandbox Code Playgroud)
它只接收 3 列:cid1、cid2,并在不是最大值max_cid3时过滤所有行。cid3但我无法找到如何cid4, etc在不进行更改的情况下接收该行的所有其他列 ( )。
df = (df
.groupby(["cid1", "cid2"])
.agg([pl.max("cid3").alias("max_cid3"), pl.col("cid4")])
)
Run Code Online (Sandbox Code Playgroud)
我尝试添加pl.col("cid4")到 aggs 列表,但在列中我看到某些值的不同列表cid4。
我怎样才能正确地做到这一点?也许 Polars 有另一种方法可以实现 groupby 功能?
在 …