小编Ozg*_*kın的帖子

在 r 中使用 dplyr 处理大型数据集(400 万行)

我正在用 dplyr 用我的大量数据进行一些数据操作(b ) 框架进行一些数据操作。\n我已经能够成功地处理较小的数据子集。我想我的问题是数据框的大小。

\n

我的数据框有 400 万行和 34 列。

\n

我的代码如下:

\n
df<-b %>%\n  group_by(Id) %>%\n  mutate(numberoflead = n(),#lead say\xc4\xb1s\xc4\xb1\n         lastcreateddateoflead=max(CreatedDate),#last date of lead\n         firstcreateddateoflead=min(CreatedDate),#first date of lead\n         lastcloseddate=max(Kapanma.tarihi....),#last closed date of kapanm tarihi\n         yas=as.Date(lastcloseddate)-as.Date(firstcreateddateoflead),#yas\n         leadduration=as.Date(lastcreateddateoflead)-as.Date(firstcreateddateoflead)) %>%#lead duration\n  inner_join(b %>% \n               select(Id, CreatedDate, lasttouch = Lead_DataSource__c),\n             by = c("Id" = "Id", "lastcreateddateoflead" = "CreatedDate")) %>% #lasttouch\n  inner_join(b %>% \n               select(Id, CreatedDate, firsttouch = Lead_DataSource__c),\n             by = c("Id" = "Id", "firstcreateddateoflead" = "CreatedDate")) %>%  #firsttouch\n  inner_join(b %>% \n …
Run Code Online (Sandbox Code Playgroud)

r large-data dplyr

6
推荐指数
1
解决办法
834
查看次数

如何计算两个字符串向量之间的余弦相似度

我有 2 个维度为 6 的向量,我想要一个介于 0 和 1 之间的数字。

a=c("HDa","2Pb","2","BxU","BuQ","Bve")

b=c("HCK","2Pb","2","09","F","G")
Run Code Online (Sandbox Code Playgroud)

谁能解释一下我应该怎么做?

r machine-learning cosine-similarity

3
推荐指数
1
解决办法
6975
查看次数

如何计算R中向量与数据帧每行之间的余弦相似度?

这是我的数据框:

                    ui 194635691 194153563 177382028 177382031 195129144 196972549 196258704 194907960 196950156 194139014 153444738
1 56320e0e55e89c3e14e26d3d      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.01     0.000         0         0
2 563734c3b65dd40e340eaa56      0.01      0.00      0.00      0.00      0.00      0.00      0.00      0.00     0.000         0         0
3 563e12657d4c410c5832579c      0.00      0.00      0.01      0.01      0.00      0.00      0.00      0.00     0.000         0         0
4 565181854c24b410e4891e11      0.00      0.00      0.00      0.00      0.00      0.01      0.00      0.00     0.000         0         0
5 5651b53fec231f1df8482d23      0.00      0.00      0.00      0.00      0.00      0.00      0.00      0.00     0.027         0         0
6 56548df4b84c321fe4cdfb8f …
Run Code Online (Sandbox Code Playgroud)

r cosine-similarity

1
推荐指数
1
解决办法
3538
查看次数