标签: duplicates

用于匹配名称/地址数据的工具

这是一个有趣的问题.

我有一个带有名称和地址信息的oracle数据库,需要保持最新状态.

我们从许多不同的gov't源获取数据,并且需要找出匹配项,以及是否使用数据更新db,或者是否需要创建新记录.

没有任何类型的唯一标识符可用于将记录绑定在一起,并且数据质量并不总是那么好 - 总会有拼写错误,人们使用不同的名称(即Joe vs. Joseph)等.

我有兴趣听到那些曾经解决过这类问题的人,以及他们如何解决这个问题,或至少是自动化部分问题.

duplicates data-quality record-linkage

14
推荐指数
2
解决办法
2万
查看次数

REPLACE INTO,它是否重新使用PRIMARY KEY?

REPLACE INTOMySQL中的函数以删除和插入行的方式工作.在我的表中,主键(id)是自动递增的,所以我期望它删除然后id在数据库的尾部插入一个表.

但是,它出乎意料并插入相同的id!这是预期的行为,还是我在这里遗漏了什么?(我id在调用REPLACE INTO语句时没有设置)

mysql sql duplicates sql-insert sql-delete

14
推荐指数
1
解决办法
2万
查看次数

从另一个向量中删除向量中第一次出现的元素

我有一个字符向量,包括一些重复的元素,例如

v <- c("d09", "d11", "d13", "d01", "d02", "d10", "d13")
Run Code Online (Sandbox Code Playgroud)

另一个向量包括这些字符的单个计数,例如

x <- c("d10", "d11", "d13")
Run Code Online (Sandbox Code Playgroud)

我想从第二个向量中仅删除每个元素的第一个出现位置.在此示例中,发生在两次,但仅删除第一个匹配,并保留副本.因此,我想最终得到:xvd13xvv

"d09", "d01", "d02", "d13"
Run Code Online (Sandbox Code Playgroud)

我一直在尝试各种各样的东西,z <- v[!(v %in% x)] 但它不断删除所有角色的实例x,而不仅仅是第一个,所以我最终得到了这个:

"d09", "d01", "d02"
Run Code Online (Sandbox Code Playgroud)

我该怎么做才能删除重复元素的一个实例?

r duplicates

14
推荐指数
1
解决办法
1433
查看次数

突出显示OpenOffice Calc中的重复值

在Excel,Office 2007上,我可以选择突出显示菜单上的重复值.保持简单!选择列,选择"条件格式" - "突出显示单元格规则" - "重复值"并vo!例如,在此列上重复的所有值都用红色绘制.

实际上我使用LibreOffice Calc,版本5.0.3.2,我在菜单上找不到这个选项!我怎么能做这个工作?

谢谢

formatting duplicates openoffice-calc

14
推荐指数
2
解决办法
3万
查看次数

火花数据帧丢弃重复并保持第一

问题:在丢弃重复项时,在pandas中,您可以指定要保留的列.Spark Dataframes中是否有等价物?

熊猫:

df.sort_values('actual_datetime', ascending=False).drop_duplicates(subset=['scheduled_datetime', 'flt_flightnumber'], keep='first')
Run Code Online (Sandbox Code Playgroud)

Spark数据帧(我使用Spark 1.6.0)没有keep选项

df.orderBy(['actual_datetime']).dropDuplicates(subset=['scheduled_datetime', 'flt_flightnumber'])
Run Code Online (Sandbox Code Playgroud)

想象一下'scheduled_datetime'和'flt_flightnumber'是第6,17列.通过基于这些列的值创建密钥,我们还可以进行重复数据删除

def get_key(x):
    return "{0}{1}".format(x[6],x[17])

df= df.map(lambda x: (get_key(x),x)).reduceByKey(lambda x,y: (x))
Run Code Online (Sandbox Code Playgroud)

但如何指定保留第一行并摆脱其他重复?最后一排怎么样?

duplicates dataframe apache-spark

14
推荐指数
5
解决办法
1万
查看次数

为什么java有很多重复的方法?

我正在玩Java,因为我打算从C#切换到它以用于跨平台目的.我刚刚注意到它有很多方法可以做同样的事情.我只是想知道他们为什么那样做?

例如,除了构造函数之外,Boolean类还有两个方法执行相同的操作.

Boolean b = new Boolean(true);
Boolean b = new Boolean("true");
Boolean b = Boolean.parseBoolean(true);
Boolean b = Boolean.parseBoolean("true");
Boolean b = Boolean.valueOf(true);
Boolean b = Boolean.valueOf("true");
Run Code Online (Sandbox Code Playgroud)

我可以通过调用变量本身(b)或方法b.booleanValue()来获取布尔值.有人想要调用一个方法来获取布尔值的布尔值,尽管他可以自己调用变量吗?

有什么意义?

java duplicates primitive-types

13
推荐指数
2
解决办法
6500
查看次数

R中的掩码函数列表

我使用了很多软件包,我知道有些函数被掩盖了,因为它们存在于几个不同的软件包中.有没有办法获取重复函数列表(或掩码函数?)

理想的情况是拥有一个重复函数列表,并为每个函数列出它所在的包列表.

packages r mask duplicates

13
推荐指数
1
解决办法
1192
查看次数

SQLSTATE [23000]:完整性约束违规:1062密钥'IDX_STOCK_PRODUCT'的重复条目'1922-1'

在创建产品时,在检索一段时间后的最后一步,Magento给出以下错误 - :

SQLSTATE [23000]:完整性约束违规:1062密钥'IDX_STOCK_PRODUCT'的重复条目'1922-1'

我正在做的是,通过捕获产品ID,我将它放入自定义表中.我已从外部连接到Magento数据库.

令人惊讶的是,数据被插入到Magento的基表和自定义表中,但为什么它会在产品保存后给我这个错误...?

我清除了缓存,浏览器cookie.同时删除/ var/cache,/ var/session.仍然给出错误.有人可以提出解决方案吗?

constraints duplicates magento mysql-error-1062

13
推荐指数
1
解决办法
11万
查看次数

PHP/MySQL:在没有别名的连接查询中获取具有相同名称的多列?

我有两张桌子.一个用户,一个用于帖子.users表包含以下字段:

id, username, password, created_at, modified_at
Run Code Online (Sandbox Code Playgroud)

posts表包含以下字段:

id, user_id, title, body, created_at, modified_at
Run Code Online (Sandbox Code Playgroud)

当我使用如下查询时:

SELECT * FROM `users` LEFT OUTER JOIN `posts` ON users.id=posts.user_id
Run Code Online (Sandbox Code Playgroud)

并使用PDO获取结果:

$sth = $this->$default_connection->prepare($query);
$sth->execute();
$sth->fetchAll(PDO::FETCH_ASSOC);
Run Code Online (Sandbox Code Playgroud)

返回的数组将覆盖具有相同名称的所有列,id, created_at, modified_at如下所示:

 Array
(
    [0] => Array
        (
            [id] => 1
            [username] => johnSmith
            [password] => 2348r7edf8s79aa0230
            [created_at] => 0000-00-00 00:00:00
            [modified_at] => 0000-00-00 00:00:00
            [user_id] => 18
            [title] => First Post
            [body] => Just testing...
        )
)
Run Code Online (Sandbox Code Playgroud)

id未显示用户的字段,而是由id帖子覆盖.created_at和modified_at字段也是如此.

我相信我可以通过使用别名或类似的东西来解决这个问题:

    SELECT 
       users.id, 
       users.username, 
       users.password, …
Run Code Online (Sandbox Code Playgroud)

php mysql pdo join duplicates

13
推荐指数
2
解决办法
1万
查看次数

Java序列化和重复对象

我有以下设置:

public class A {
  private Set<C> cSet;
}

public class B {
  private Set<C> cSet;
}

public class C {}
Run Code Online (Sandbox Code Playgroud)

A和B的cSet可能引用了相同的C实例.我想序列化A和B,以便在反序列化时我没有重复的C对象.如果我将它序列化/反序列化到同一个ObjectOutputStream中,Java是否知道如何做正确的事情,或者我最终会得到比我开始时更多的C实例?

java serialization duplicates

13
推荐指数
1
解决办法
1197
查看次数