我目前的数据如下:
Person Team
10 100
11 100
12 100
10 200
11 200
14 200
15 200
Run Code Online (Sandbox Code Playgroud)
我想根据他们在一起的队伍来推断出彼此认识的人.我还想要计算一个团队在一个团队中的次数,我想跟踪链接每对人的团队识别码.换句话说,我想创建一个如下所示的数据集:
Person1 Person2 Count Team1 Team2 Team3
10 11 2 100 200 NA
10 12 1 100 NA NA
11 12 1 100 NA NA
10 14 1 200 NA NA
10 15 1 200 NA NA
11 14 1 200 NA NA
11 15 1 200 NA NA
Run Code Online (Sandbox Code Playgroud)
生成的数据集捕获可以根据原始数据集中概述的团队推断出的关系."Count"变量反映了一对人在一起的实例数量."Team1","Team2"和"Team3"变量列出了将每对人员彼此链接的团队ID.首先列出哪个人/团队ID与第二名相比没有区别.团队规模从2名成员到8名成员.
我正在使用 R 中的数据集,但我遇到了一个我似乎无法弄清楚的问题。我的数据目前看起来像这样:
Team Person1 Person2 Person3 Person4 Person5 Person6 Person7
6594794 37505959 37469784 NA NA NA NA NA
6595053 30113392 33080042 21537147 32293683 NA NA NA
6595201 697417 22860111 NA NA NA NA NA
6595380 24432987 32370372 11521625 362790 24432987 22312802 32432267
6595382 12317669 25645492 NA NA NA NA NA
6595444 8114419 236357 32545314 22247108 NA NA NA
6595459 2135269 32332907 32332907 32436550 NA NA NA
6595468 33590928 10905322 32319555 10439608 NA NA NA
6595485 33080810 33162061 NA NA …Run Code Online (Sandbox Code Playgroud) 我有一个如下所示的数据集(dat):
Person IPaddress
36598035 222.999.22.99
36598035 222.999.22.99
36598035 222.999.22.99
36598035 222.999.22.99
36598035 222.999.22.99
36598035 444.666.44.66
37811171 111.88.111.88
37811171 111.88.111.88
37811171 111.88.111.88
37811171 111.88.111.88
37811171 111.88.111.88
Run Code Online (Sandbox Code Playgroud)
它反映了在一段时间内登录网站的个人的实例.我需要数据看起来像这样:
Person IPaddress Number of Logins
36598035 222.999.22.99 6
37811171 111.88.111.88 5
Run Code Online (Sandbox Code Playgroud)
因此,对于同一个人而言,不是多个条目,每个人只有一行,并且计算他们登录的次数.
此外,您将在我的示例中注意到,人员36598035在多于1个IP地址下登录.发生这种情况时,我希望最终数据集中的IP地址反映模式IP地址 - 换句话说,个人最常登录的IP地址.
我有一个IP地址的数据集(dat),其格式如下:
Person IP_Address
267 555.66.44.222
299 111.222.55.22
513 222.111.8.777
524 888.88.333.222
Run Code Online (Sandbox Code Playgroud)
我还有一个IP地址的数据库(db),其格式如下:
First_IP_Address_In_Netblock Last_IP_Address_In_Netblock Latitude Longitude
16777216 16777471 -27.48333 153.01667
16777472 16778239 26.06139 119.30611
16778240 16779263 -37.814 144.96332
16779264 16781311 23.11667 113.25
16781312 16785407 35.689506 139.6917
16785408 16793599 23.11667 113.25
16793600 16797695 34.38528 132.45528
16797696 16798719 35.689506 139.6917
16798720 16799743 34.38528 132.45528
16799744 16799999 35.689506 139.6917
Run Code Online (Sandbox Code Playgroud)
我的问题有两个:1)我如何转换IP地址(来自数据集或数据库),以便它们采用相同的格式?2)我怎样才能将每个人的纬度和经度相匹配?第二个问题是让我感到困惑,因为每个坐标都与一系列IP地址相关联(从网络块中的第一个IP地址到网络块中的最后一个IP地址),而不是单个地址.