标签: duplicate-data

如何检测重复数据?

我有一个简单的联系人数据库,但我遇到用户输入重复数据的问题.我已经实现了一个简单的数据比较,但不幸的是,输入的重复数据并不完全相同.例如,名字拼写不正确,或者一个人将放入"Bill Smith",另一个人将为同一个人输入"William Smith".

那么是否存在某种算法可以给出一个条目与另一个条目的相似程度的百分比?

language-agnostic algorithm duplicate-data

14
推荐指数
3
解决办法
1万
查看次数

如何从电子邮件中删除引用的文本,仅显示新文本

我正在解析电子邮件.当我看到对电子邮件的回复时,我想删除引用的文本,以便我可以将文本附加到上一封电子邮件中(即使是回复).

通常情况下,您会看到:

第一封电子邮件(会话开始)

This is the first email
Run Code Online (Sandbox Code Playgroud)

第2封电子邮件(回复第一封)

This is the second email

Tim said:
This is the first email
Run Code Online (Sandbox Code Playgroud)

这个输出只是"这是第二封电子邮件".虽然不同的电子邮件客户端引用文本的方式不同,但如果只是为了获得大部分新的电子邮件文本,那也是可以接受的.

java email duplicate-data

14
推荐指数
3
解决办法
6796
查看次数

Vim重复选择

如果我在视觉模式下在VIM中选择了某些内容......我如何复制该选择并将其放在选择的下方或上方.

vim duplicate-data selection

13
推荐指数
3
解决办法
4750
查看次数

在vi中删除连续的重复行而不进行排序

此问题已经解决了如何删除重复行,但强制首先对列表进行排序.

我想执行删除连续的重复行步骤(即uniq)而不首先对它们进行排序.

以前的例子:

Foo
Foo
Bar
Bar
Run Code Online (Sandbox Code Playgroud)

示例之后:

Foo
Bar
Run Code Online (Sandbox Code Playgroud)

regex vi vim duplicate-data

13
推荐指数
3
解决办法
8468
查看次数

不区分大小写的重复SQL

所以我有一个user表,其中user.username有许多重复项,如:

usernameUsernameuseRnAme
johnJohnjOhn

这是一个错误,这三个记录应该只有一个.

我正在尝试提出一个SQL查询,列出按创建日期排序的所有这些案例,所以理想情况下结果应该是这样的:

username jan01
useRnAme jan02
Username jan03
john     feb01 
John     feb02
jOhn     feb03
Run Code Online (Sandbox Code Playgroud)

任何建议将不胜感激

mysql sql postgresql duplicate-data

12
推荐指数
1
解决办法
2万
查看次数

在Rails 3中复制记录

我在Rails 3应用程序中有一个处方模型.我正在尝试找出允许复制记录的最佳方法,但允许用户在保存之前"复核"副本.

我已经阅读了SO上的一些问题/答案(例如这个),它解释了如何复制/克隆记录然后保存它 - 但没有一个解释如何在保存之前显示表单.

出现读取Rails API的克隆方法可用.

阅读其他问题和答案表明可以做到但除了以下代码之外没有示例代码:

new_record = old_record.dup
Run Code Online (Sandbox Code Playgroud)

我目前使用的控制器代码如下(该模型没有任何关系):

  # POST /prescriptions
  # POST /prescriptions.json
  def create
    @prescription = Prescription.new(params[:prescription])
    @prescription.localip = request.env['REMOTE_ADDR']
    @prescription.employee = @prescription.employee.upcase

    respond_to do |format|
      if @prescription.save
        format.html { redirect_to @prescription, notice: 'Prescription was successfully created.' }
        format.json { render json: @prescription, status: :created, location: @prescription }
      else
        format.html { render action: "new" }
        format.json { render json: @prescription.errors, status: :unprocessable_entity }
      end
    end
  end
Run Code Online (Sandbox Code Playgroud)

我将从视图链接到此克隆操作:

<%= …
Run Code Online (Sandbox Code Playgroud)

activerecord duplicate-data clone model ruby-on-rails-3

9
推荐指数
2
解决办法
7832
查看次数

合并两个数据框并删除重复的列

我想要cbind两个数据框并删除重复的列.例如:

df1 <- data.frame(var1=c('a','b','c'), var2=c(1,2,3))
df2 <- data.frame(var1=c('a','b','c'), var3=c(2,4,6))

cbind(df1,df2) #this creates a data frame in which column var1 is duplicated
Run Code Online (Sandbox Code Playgroud)

我想创建一个包含列的数据框var1,var2并且不会重复var3哪一列var2.

duplicate-data r

8
推荐指数
1
解决办法
1万
查看次数

在重复密钥上插入...使用MySQL更新任何内容

我的问题是我在桌子上有多个唯一键.

  1. 插入忽略不是一个选项,因为它可以抑制错误.
  2. MySQL不支持语句之外的任何类型的条件(例如,if(cond)然后插入else不插入)
  3. 存储过程不是一个选项(我可以使用if/else语句的唯一地方)
  4. 在重复键上可能会使用新值更新键,但我希望在唯一约束失败的情况下不更改唯一键.

因此,唯一的选择是重复只是不更新​​任何东西.有什么办法可以实现吗?或者还有其他选择吗?

mysql duplicate-data

8
推荐指数
1
解决办法
2万
查看次数

SQL:删除重复记录 - 虽然不同类型

请考虑下表:

TAB6
         A          B C
---------- ---------- -
         1          2 A
         2          1 A
         2          3 C
         3          4 D
Run Code Online (Sandbox Code Playgroud)

我认为,记录{1,2,A}和{2,1,A}是重复的.我需要选择并生成以下记录集:

         A          B C                      A          B C
---------- ---------- -             ---------- ---------- -
         1          2 A         or           2          1 A
         2          3 C                      2          3 C
         3          4 D                      3          4 D
Run Code Online (Sandbox Code Playgroud)

我尝试了以下查询.但无济于事.

select t1.*
from t6 t1
, t6 t2
where t1.a <> t2.b
and t1.b <> t2.a
and t1.rowid <> t2.rowid
/

         A          B C
---------- ---------- - …
Run Code Online (Sandbox Code Playgroud)

sql oracle duplicate-data duplicate-removal

7
推荐指数
1
解决办法
514
查看次数

如何在matlab中找到具有重复的矩阵的每一行的索引?

我想找到具有重复的矩阵的所有行的索引.例如

A = [1 2 3 4
     1 2 3 4
     2 3 4 5
     1 2 3 4
     6 5 4 3]
Run Code Online (Sandbox Code Playgroud)

要返回的向量是 [1,2,4]

很多类似的问题建议使用unique我已尝试过的功能,但最接近我想要的是:

[C, ia, ic] = unique(A, 'rows')

ia = [1 3 5]
m = 5;
setdiff(1:m,ia) = [2,4]
Run Code Online (Sandbox Code Playgroud)

但是使用unique我只能提取行的第2,第3,第4 ......等实例,我还需要获取第一行.有什么方法可以做到这一点吗?

注意:它必须是一个不涉及循环遍历行的方法,因为我正在处理大型稀疏矩阵.

matlab duplicate-data matrix duplicates sparse-matrix

7
推荐指数
1
解决办法
1716
查看次数