标签: dedupeplugin

Python 中的重复数据删除

在查看 Python 中用于记录重复数据删除的 Dedupe 库的示例时,我发现它在输出文件中创建了一个Cluster Id列,根据文档指示哪些记录相互引用。尽管我无法找出Cluster Id之间的任何关系以及这如何帮助查找重复记录。如果有人对此有所了解,请向我解释这一点。这是重复数据删除的代码。

# This can run either as a python2 or python3 code
from future.builtins import next

import os
import csv
import re
import logging
import optparse

import dedupe
from unidecode import  unidecode


input_file = 'data/csv_example_input_with_true_ids.csv'
output_file = 'data/csv_example_output1.csv'
settings_file = 'data/csv_example_learned_settings'
training_file = 'data/csv_example_training.json'

# Clean or process the data


def preProcess(column):

    try:
        column = column.decode('utf-8')
    except AttributeError:
        pass
    column = unidecode(column)
    column = re.sub(' +', ' ', column)
    column …
Run Code Online (Sandbox Code Playgroud)

python duplicates dedupeplugin python-dedupe

7
推荐指数
1
解决办法
1万
查看次数

在深度嵌套的节点模块中的应用程序中重复删除库

我有一个应用程序,我可以在其中添加模块作为node_modules.现在,这些模块和应用程序使用库XYZ作为节点模块.此外,这些模块还有其他节点模块,它们有自己的库XYZ作为节点模块.

所以,这大致是我的应用程序结构的样子 在此输入图像描述

我使用gulp和webpack,我正在尝试一些如何重复库XYZ.我想构建一个任务,通过这个嵌套的节点模块树,并构建1个通用版本的库XYZ.我怎样才能做到这一点?

我尝试使用deDupePlugin,这是我添加到我的gulp默认任务的所有内容,但它没有用.有什么我错过了吗?

plugins: [
            new webpack.optimize.DedupePlugin()
           // new CommonsChunkPlugin("commons", "commons.js")
        ],
Run Code Online (Sandbox Code Playgroud)

或者,还有其他方法可以实现吗?任何帮助将非常感激

javascript web webpack dedupeplugin commonschunkplugin

0
推荐指数
1
解决办法
551
查看次数