标签: duplicate-removal

仅基于表的一列消除重复值

我的查询:

SELECT sites.siteName, sites.siteIP, history.date
FROM sites INNER JOIN
     history ON sites.siteName = history.siteName
ORDER BY siteName,date
Run Code Online (Sandbox Code Playgroud)

输出的第一部分:

在此输入图像描述

如何删除siteName列中的重复项?我想只留下基于date列的更新版本.

在上面的示例输出中,我需要行1,3,6,10

sql sql-server inner-join distinct duplicate-removal

27
推荐指数
2
解决办法
8万
查看次数

根据另一列的条件删除在一列中重复的行

这是我的数据集的一个例子;

Date      Time(GMT)Depth Temp  Salinity Density Phosphate
24/06/2002  1000    1           33.855          0.01
24/06/2002  1000    45          33.827          0.01
01/07/2002  1000    10  13.26   33.104  24.873  0.06
01/07/2002  1000    30  12.01   33.787  25.646  0.13
08/07/2002  1000    5   13.34   33.609  25.248  0.01
08/07/2002  1000    40  12.01   34.258  26.011  1.33
15/07/2002  1000    30  12.04   34.507  26.199  0.01
22/07/2002  1000    5   13.93   33.792  25.269  0.01
22/07/2002  1000    30  11.9    34.438  26.172  0.08
29/07/2002  1000    5   13.23   34.09   25.642  0.01
Run Code Online (Sandbox Code Playgroud)

我想删除重复的行,这样我每个日期只有一行,我想根据深度做这个,我想保持最深(最深)的行.有任何想法吗?

r date duplicate-removal

27
推荐指数
4
解决办法
4万
查看次数

如何基于多个字段删除SQL表中的重复项

我有一个游戏表,描述如下:

+---------------+-------------+------+-----+---------+----------------+
| Field         | Type        | Null | Key | Default | Extra          |
+---------------+-------------+------+-----+---------+----------------+
| id            | int(11)     | NO   | PRI | NULL    | auto_increment |
| date          | date        | NO   |     | NULL    |                |
| time          | time        | NO   |     | NULL    |                |
| hometeam_id   | int(11)     | NO   | MUL | NULL    |                |
| awayteam_id   | int(11)     | NO   | MUL | NULL    |                |
| locationcity  | varchar(30) | …
Run Code Online (Sandbox Code Playgroud)

mysql sql duplicate-removal

24
推荐指数
4
解决办法
4万
查看次数

在Pandas DataFrame中删除重复索引的最快方法

如果我想在数据帧中删除重复索引,则以下原因不明显:

myDF.drop_duplicates(cols=index)
Run Code Online (Sandbox Code Playgroud)

myDF.drop_duplicates(cols='index') 
Run Code Online (Sandbox Code Playgroud)

查找名为"index"的列

如果我想删除索引,我必须做:

myDF['index'] = myDF.index
myDF= myDF.drop_duplicates(cols='index')
myDF.set_index = myDF['index']
myDF= myDF.drop('index', axis =1)
Run Code Online (Sandbox Code Playgroud)

有更有效的方法吗?

python duplicate-removal pandas

24
推荐指数
3
解决办法
2万
查看次数

当单词超过2亿时,如何使用Java删除重复的单词?

我有一个文件(大小= ~1.9 GB),其中包含~220,000,000(~2亿)单词/字符串.它们有重复,每100个字几乎有1个重复字.

在我的第二个程序中,我想读取该文件.我成功地使用BufferedReader按行读取文件.

现在要删除重复项,我们可以使用Set(和它的实现),但Set有问题,如下面3个不同的场景所述:

  1. 使用默认的JVM大小,Set可以包含最多0.7到080万个单词,然后是OutOfMemoryError.
  2. 使用512M JVM大小,Set可以包含多达5-6百万字,然后是OOM错误.
  3. 使用1024M JVM大小时,Set最多可包含12-13百万字,然后是OOM错误.在将1000万条记录添加到Set中之后,操作变得极其缓慢.例如,添加下一个~4000条记录,耗时60秒.

我有限制,我不能进一步增加JVM大小,我想从文件中删除重复的单词.

如果您对从这样一个巨大的文件中使用Java删除重复单词的任何其他方法/方法有任何疑问,请告诉我.非常感谢 :)

添加信息问题:我的单词基本上是字母数字,它们是我们系统中唯一的ID.因此,它们不是简单的英语单词.

java duplicate-removal

22
推荐指数
4
解决办法
2922
查看次数

使用LINQ查找多个属性的重复项

给定具有以下定义的类:

public class MyTestClass
{
    public int ValueA { get; set; }
    public int ValueB { get; set; }
}
Run Code Online (Sandbox Code Playgroud)

如何在MyTestClass []数组中找到重复值?

例如,

MyTestClass[] items = new MyTestClass[3];
items[0] = new MyTestClass { ValueA = 1, ValueB = 1 };
items[1] = new MyTestClass { ValueA = 0, ValueB = 1 };
items[2] = new MyTestClass { ValueA = 1, ValueB = 1 };
Run Code Online (Sandbox Code Playgroud)

包含副本,因为有两个MyTestClass对象,其中ValueA ValueB都= 1

.net c# linq duplicate-removal

20
推荐指数
2
解决办法
2万
查看次数

从NumPy 2D阵列中删除重复的列和行

我正在使用2D形状阵列来存储经度+纬度对.有一次,我必须合并其中两个2D数组,然后删除任何重复的条目.我一直在寻找类似于numpy.unique的功能,但我没有运气.我一直在考虑的任何实现都看起来非常"未经优化".例如,我正在尝试将数组转换为元组列表,删除带有set的重复项,然后再次转换为数组:

coordskeys = np.array(list(set([tuple(x) for x in coordskeys])))
Run Code Online (Sandbox Code Playgroud)

有没有现成的解决方案,所以我不重新发明轮子?

为了说清楚,我正在寻找:

>>> a = np.array([[1, 1], [2, 3], [1, 1], [5, 4], [2, 3]])
>>> unique_rows(a)
array([[1, 1], [2, 3],[5, 4]])
Run Code Online (Sandbox Code Playgroud)

顺便说一句,我想只使用一个元组列表,但是这些列表非常大,以至于它们消耗了我的4Gb RAM + 4Gb交换(numpy数组更节省内存).

python numpy duplicate-removal scipy

20
推荐指数
3
解决办法
2万
查看次数

从SQL表中删除重复的行(基于多列中的值)

我有以下SQL表:

AR_Customer_ShipTo

+--------------+------------+-------------------+------------+
| ARDivisionNo | CustomerNo |   CustomerName    | ShipToCode |
+--------------+------------+-------------------+------------+
|           00 | 1234567    | Test Customer     |          1 |
|           00 | 1234567    | Test Customer     |          2 |
|           00 | 1234567    | Test Customer     |          3 |
|           00 | ARACODE    | ARACODE Customer  |          1 |
|           00 | ARACODE    | ARACODE Customer  |          2 |
|           01 | CBE1EX     | Normal Customer   |          1 |
|           02 | ZOCDOC     | Normal Customer-2 …
Run Code Online (Sandbox Code Playgroud)

sql t-sql sql-server join duplicate-removal

20
推荐指数
4
解决办法
2万
查看次数

删除列表中的重复对象(C#)

所以我理解如何通过使用Distinct()来自Linq的字符串和int等来删除列表中的重复项.但是,如何根据对象的特定属性删除重复项?

例如,我有一个TimeMetric班级.这个TimeMetric类有两个属性:MetricTextMetricTime.我有一个列表TimeMetricsMetricList.我想删除TimeMetric具有相同MetricText属性的任何重复项.该TimeMetric值可以是相同的,但如果任何TimeMetric具有相同的MetricText,它必须是不重复的.

c# linq list duplicate-removal

18
推荐指数
2
解决办法
2万
查看次数

删除字符串数组中具有相同字符的字符串

我现在正面临一个问题.在我的一个程序中,我需要从Array中删除具有相同字符的字符串.例如.假设,

我有3个阵列,

String[] name1 = {"amy", "jose", "jeremy", "alice", "patrick"};
String[] name2 = {"alan", "may", "jeremy", "helen", "alexi"};
String[] name3 = {"adel", "aron", "amy", "james", "yam"};
Run Code Online (Sandbox Code Playgroud)

正如你所看到的,有一个字符串amy中的name1数组.此外,我有类似的字符串may,amyyam在接下来的两个数组中.我需要的是,我需要一个不包含这些重复字符串的最终数组.我只需要出现一次:我需要删除最终数组中名称的所有排列.那是最后一个数组应该是:

String[] finalArray={"amy", "jose", "alice", "patrick","alan", "jeremy", "helen", "alexi","adel", "aron", "james"}
Run Code Online (Sandbox Code Playgroud)

(上面的数组删除了山药,可能,只包括amy).

我到目前为止尝试使用的HashSet,如下所示

String[] name1 = {"Amy", "Jose", "Jeremy", "Alice", "Patrick"};
String[] name2 = {"Alan", "mAy", "Jeremy", "Helen", "Alexi"};
String[] name3 = {"Adel", "Aaron", "Amy", "James", "Alice"};
Set<String> letter = new HashSet<String>(); …
Run Code Online (Sandbox Code Playgroud)

java arrays string duplicate-removal

18
推荐指数
2
解决办法
1527
查看次数

标签 统计

duplicate-removal ×10

sql ×3

c# ×2

java ×2

linq ×2

python ×2

sql-server ×2

.net ×1

arrays ×1

date ×1

distinct ×1

inner-join ×1

join ×1

list ×1

mysql ×1

numpy ×1

pandas ×1

r ×1

scipy ×1

string ×1

t-sql ×1