标签: ignore-duplicates

两列中的SQL重复数据删除

我已经在这方面苦苦挣扎了很长一段时间,但我无法理解.

我有一个有3列的表.2列包含名称,第三列包含这些名称之间的Damerau Levensthein距离(http://en.wikipedia.org/wiki/Damerau%E2%80%93Levenshtein_distance).

每列都包含每个名称,这意味着autor1列中的所有名称也存在于autor2列中.因此,我需要两次所需的行,只需交换autor1和autor2列.

例如,第3行等于第1行,只是交换了autor列,2-4相同.我将如何制定一个省略那些"重复"的查询？
ID- | ------ autor1 ---- | ------ ----- autor2 | dld
1 - | 阿贝尔,古斯塔夫 - | 阿贝尔,古斯塔夫| 1
2 - | 阿贝尔,古斯塔夫 - | 阿贝莱,古斯塔夫| 1
3 - | 阿贝尔,古斯塔夫| 阿贝尔,古斯塔夫 - | 1
4 - | 阿贝莱,古斯塔夫| 阿贝尔,古斯塔夫 - | 1

to
| ------ autor1 ---- | ------ autor2 ----- | dld
| 阿贝尔,古斯塔夫 - | 阿贝尔,古斯塔夫| 1
| 阿贝尔,古斯塔夫 - | 阿贝莱,古斯塔夫| 1

sql duplicates ignore-duplicates

lig*_*txx

lucky-day

5
推荐指数

1
解决办法

1453
查看次数

从R中的数据框中删除重复列组合

我想从以下数据中删除sessionid,qf和qn的重复组合

               sessionid             qf        qn         city
1  9cf571c8faa67cad2aa9ff41f3a26e38     cat   biddix          fresno
2  e30f853d4e54604fd62858badb68113a   caleb     amos                
3  2ad41134cc285bcc06892fd68a471cd7  daniel  folkers                
4  2ad41134cc285bcc06892fd68a471cd7  daniel  folkers                
5  63a5e839510a647c1ff3b8aed684c2a5 charles   pierce           flint
6  691df47f2df12f14f000f9a17d1cc40e       j    franz prescott+valley
7  691df47f2df12f14f000f9a17d1cc40e       j    franz prescott+valley
8  b3a1476aa37ae4b799495256324a8d3d  carrie mascorro            brea
9  bd9f1404b313415e7e7b8769376d2705    fred  morales       las+vegas
10 b50a610292803dc302f24ae507ea853a  aurora      lee                
11 fb74940e6feb0dc61a1b4d09fcbbcb37  andrew    price       yorkville

Run Code Online (Sandbox Code Playgroud)

我将数据读入data.frame并将其称为mydata.Heree是我到目前为止的代码,但我需要知道如何正确地对data.frame进行排序.其次删除sessionid,qf和qn的重复组合.最后用qf列中的直方图字符绘制图形

sortDATA<-function(name)
{
#sort the code by session Id, first name, then last name
sort1.name <- name[order("sessionid","qf","qn") , ]
#create a vector of length …

Run Code Online (Sandbox Code Playgroud)

r dataframe ignore-duplicates

meg*_*egv

lucky-day

4
推荐指数

1
解决办法

2万
查看次数