mji*_*cua 5 python pyspark record-linkage python-dedupe
我需要在大型数据集中查找重复项,因此我正在测试重复数据删除python 库。
我知道建议用于小型数据集,所以我认为使用好的机器可以提高性能。我有一台具有 56 GB RAM 的机器,并且正在针对包含 200000 行的数据集运行类似于“csv_example”的测试。它可以工作,但内存使用率非常低,处理(CPU)也非常低。
阻塞阶段似乎花费了太长的时间:
INFO:dedupe.blocking:10000, 110.6458142 seconds
INFO:dedupe.blocking:20000, 300.6112282 seconds
INFO:dedupe.blocking:30000, 557.1010122 seconds
INFO:dedupe.blocking:40000, 915.3087222 seconds
Run Code Online (Sandbox Code Playgroud)
谁能帮助我改进使用情况,或者告诉我是否有任何库/设置可以使程序使用更多可用资源?
归档时间: |
|
查看次数: |
997 次 |
最近记录: |