标签: duplicate-removal

如何从TextBox中删除重复项?

我有一个文本框,每个项目都在一个新行上.我试图从这个textBox中删除重复项.我什么都想不到.我尝试将每个项目添加到数组并删除重复项,但它不起作用.还有其他选择吗?

c# textbox duplicates duplicate-removal winforms

4
推荐指数
1
解决办法
3013
查看次数

从MYSQL中的表中删除重复的电子邮件地址

我有与列的表格ID,firstname,lastname,address,email等.

有没有办法email从TABLE中删除重复的地址?

其他信息(来自评论):

如果有两行具有相同email地址的人会拥有一个正常的firstnamelastname,但其它的就没有"即时"firstname.因此我可以区分它们.我只想删除名字为'instant'的那个.

注意,一些记录firstname='Instant'只有1个email地址.我不想只删除一个唯一的电子邮件地址,所以我不能只删除其中的所有内容firstname='Instant'.

请帮帮我.

mysql duplicate-removal

4
推荐指数
3
解决办法
6767
查看次数

删除文件中的行 - Ruby

在特定行中存在特定值的ruby中从CSV文件中删除行的巧妙方法是什么?

这是一个文件的例子:

350 lbs., Outrigger Footprint, 61" x 53", Weight, 767 lbs., 300-2080
350 lbs., Outrigger Footprint, 61" x 53", Weight, 817 lbs., 300-2580
350 lbs., Outrigger Footprint, 61" x 53", Weight, 817 lbs., 300-2580
350 lbs., Outrigger Footprint, 69" x 61", Weight, 867 lbs., 300-3080
350 lbs., Outrigger Footprint, 69" x 61", Weight, 867 lbs., 300-3080
Run Code Online (Sandbox Code Playgroud)

理想情况下,我想要一个只用这个创建的新文件:

350 lbs., Outrigger Footprint, 61" x 53", Weight, 767 lbs., 300-2080
350 lbs., Outrigger Footprint, 61" x 53", Weight, 817 lbs., 300-2580 …
Run Code Online (Sandbox Code Playgroud)

ruby duplicate-removal

4
推荐指数
1
解决办法
4555
查看次数

SSIS数据流如何删除重复行但在SSIS中记录重复项

我从SSIS数据流中删除重复项中学到了如何使用排序转换来删除具有重复数据值的行.

在我的情况下,我正在读取分隔文件,需要消除重复项,并记录具有重复键的行.我需要将这些行输出到另一个分隔文件,并将其通过电子邮件发送给客户,以便他们可以更正数据并重试.

不过,我无法弄清楚如何做到这一点.我将尝试使用Aggregate和Merge Join,但我希望有一个已知的模式来做到这一点.

ssis duplicates duplicate-removal

4
推荐指数
1
解决办法
2万
查看次数

如何使用Rails和Active Record在单个列中查找紧密匹配?

我知道如何在单个表中使用基本SQL和活动记录查询语言查找完全重复的记录.但我需要知道如何实现近距离匹配搜索,我想考虑拼写错误.在rails应用程序中查找潜在重复项和关闭匹配项的最佳方法是什么?我正在使用MySQL作为数据库.

编辑:我想要匹配的数据类型是字符串,它们作为字符串存储在数据库中.

ruby ruby-on-rails duplicates duplicate-removal ruby-on-rails-3

4
推荐指数
1
解决办法
302
查看次数

使用 pHash 搜索庞大的图像数据库,最好的方法是什么?

我需要搜索一个巨大的图像数据库以使用 pHash 查找可能的重复项,假设这些图像记录具有使用 pHash 生成的哈希码。

现在我必须比较一个新图像,我必须使用 pHash 针对现有记录为此创建哈希。但根据我的理解,有比较并不像

hash1 - has2 < threshold
Run Code Online (Sandbox Code Playgroud)

看起来我需要将两个哈希码传递到 pHash API 中进行匹配。所以我必须从数据库中批量检索所有哈希码并使用 pHash API 一一比较。

但是如果我有大约 1000 张图像在队列中与数百万已经存在的图像进行比较,这看起来不是最好的方法。

我需要知道以下内容。

  1. 我对使用 pHash 与现有图像数据库进行比较的理解/方法是否正确?
  2. 有没有更好的方法来处理这个问题(不使用像里拉这样的 cbir 库)?
  3. 我听说有一种叫做 dHash 的算法,它也可以用于与哈希码的图像比较。是否有任何 java 库用于此,可以将其与 pHash 一起使用以优化大图像和重复图像处理任务的任务。

提前致谢。

java image-processing duplicate-removal cbir phash

4
推荐指数
1
解决办法
2703
查看次数

在推送之前检查重复的项目

早上好,

我想将新项目推送到一个数组(我们可以做),但在推送检查重复项之前,以防止重复数组中的项目.

我试过这个例子,但没有成功,我没有设法使用我们的代码.

如果有人知道更好的解决方案或者可以看到我们出错的地方,请尽快告诉我们.谢谢.

**JS**

 $scope.Products = $scope.$storage.Products == undefined ? [] : $scope.$storage.Products;
 $scope.logItem = function($index, brandName, partNumber, productName, amount) {

     $scope.newItem = {
         Brand: brandName,
         Part: partNumber,
         Product: productName,
         Amount: amount
     };

     var duplicateItem = $scope.Products.reduce(function(previous, i) {
         if ($scope.newItem === i) return true;
         return previous
     }, false);

     if (duplicateItem) {
         alert("Already Logged");
     } else {
         alert("Item Logged");
         $scope.Products.push($scope.newItem);
         $scope.$storage.Products = $scope.Products;
     }


 }
Run Code Online (Sandbox Code Playgroud)

**FIX**

$scope.Products = $scope.$storage.Products == undefined ? [] : $scope.$storage.Products;
$scope.logItem = …
Run Code Online (Sandbox Code Playgroud)

arrays json duplicate-removal angularjs

4
推荐指数
1
解决办法
7511
查看次数

如何使用LINQ从List <string>中删除重复的组合

我有一个像List的字符串

List<string> MyList = new List<string>
{ 
    "A-B", 
    "B-A", 
    "C-D", 
    "C-E", 
    "D-C",
    "D-E",
    "E-C",
    "E-D",
    "F-G",
    "G-F"
};
Run Code Online (Sandbox Code Playgroud)

我需要从列表中删除重复,即,如果存在"AB"和"BA",那么我只需要保留"AB"(第一个条目)

所以结果就像

"A-B"   
"C-D"
"C-E"   
"D-E"
"F-G"
Run Code Online (Sandbox Code Playgroud)

有没有办法用LINQ做到这一点?

c# linq duplicate-removal

3
推荐指数
2
解决办法
3183
查看次数

找到所有重复项的平均值

这里有一个很好的解释,描述了如何通过选择最大变量来消除数据帧中的重复.
我还可以看到这如何应用于使用最小变量选择副本.
我现在的问题是如何显示所有重复的平均值
例如:

z <- data.frame(id=c(1,1,2,2,3,4),var=c(2,4,1,3,5,2))
# id var
#  1   2
#  1   4
#  2   1
#  2   3
#  3   5
#  4   2
Run Code Online (Sandbox Code Playgroud)

我想输出:

# id var
#  1   3     mean(2,4)
#  2   2     mean(1,3)
#  3   5
#  4   2
Run Code Online (Sandbox Code Playgroud)


我目前的代码是:

averages<-do.call(rbind,lapply(split(z,z$id),function(chunk) mean(chunk$var)))
z<-z[order(z$id),]
z<-z[!duplicated(z$id),]
z$var<-averages
Run Code Online (Sandbox Code Playgroud)

我的代码运行速度非常慢,比选择最大值的方法长大约10倍.如何优化此代码?

r duplicate-removal dataframe

3
推荐指数
1
解决办法
1943
查看次数

使用相似Postgres模糊自连接查询提高性能

我正在尝试运行一个连接表自身的查询,并进行模糊字符串比较(使用trigram比较)来查找可能的公司名称匹配.我的目标是返回记录,其中一个记录的公司名称(ref_name字段)的三元组相似性与另一个记录的公司名称相匹配.目前,我的阈值设置为0.9,因此它只会返回很可能包含类似字符串的匹配项.

我知道自联接本质上可以导致许多比较,但我想尽我所能地优化我的查询.我不需要即时结果,但是目前我运行的查询需要11个小时才能运行.

我在Ubuntu 12.04服务器上运行Postgres 9.2.我不知道ref_name字段的最大长度(我匹配的字段)是什么,所以我将它设置为a varchar(300).我想知道将它设置为文本类型可能会影响性能,或者是否有更好的字段类型可用于加速性能.我LC_CTYPELC_COLLATE语言环境设置为"en_US.UTF-8"

我运行查询的表总共包含大约160万条记录,但运行了11个小时的查询只占一小部分(约100k).

表结构:

CREATE TABLE ref_name (
  ref_name_id integer,
  ref_name character varying(300),
  ref_name_type character varying(2),
  name_display text,
  load_date timestamp without time zone
)
Run Code Online (Sandbox Code Playgroud)

索引:

CREATE INDEX ref_name_ref_name_trigram_idx ON ref_name
  USING gist (ref_name COLLATE pg_catalog."default" gist_trgm_ops);

CREATE INDEX ref_name_ref_name_trigram_idx_1 ON ref_name
  USING gist (ref_name COLLATE pg_catalog."default" gist_trgm_ops)
  WHERE ref_name_type::text = 'E'::text;

CREATE INDEX ref_name_ref_name_e_idx ON ref_name
  USING btree (ref_name COLLATE pg_catalog."default")
  WHERE ref_name_type::text = 'E'::text;
Run Code Online (Sandbox Code Playgroud)

查询:

select a.ref_name_id as name_id,a.ref_name …
Run Code Online (Sandbox Code Playgroud)

postgresql performance self-join duplicate-removal trigram

3
推荐指数
1
解决办法
1517
查看次数