Geo*_*rge 7 python python-3.x pandas h2o
使用 h2o.H2OFrame() 函数将 Pandas 数据帧转换为 H2O 帧时,发生错误。
正在 H2o 框架中创建其他行。当我查看此内容时,新行似乎与其他行重复。根据数据大小,添加的重复行数会有所不同,但通常约为 2-10。
代码:
train_h2o = h2o.H2OFrame(python_obj=train_df_complete)
print(train_df_complete.shape[0])
print(train_h2o.nrow)
Run Code Online (Sandbox Code Playgroud)
输出:
3871998
3872000
Run Code Online (Sandbox Code Playgroud)
正如您在此处看到的,添加了 2 个额外的行。仔细研究后,现在每个用户有 2 行,供 2 个用户使用。即 2 行已被复制。
这似乎是一个主要错误,有没有人遇到过这个问题,有没有办法修复它?
谢谢
我遇到了同样的问题,假设您的“train_h2o”没有重复项,只需识别数据框中重复项的索引并将其删除。不幸的是,h2o Dataframe 的功能有限。
temp_df = train_h2o.as_data_frame()
train_h2o = train_h2o.drop(list(temp_df[temp_df.duplicated()].index), axis=0)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1015 次 |
| 最近记录: |