小编Luc*_*cia的帖子

用另一列R替换列中的值

我有两个不同维度的表,现在我想根据userids用datB $ swl2中的值替换值datA $ swl1.

数据

 id swl1
 1   0.8
 2   0.7
 3   0.4
 4   0.7
 5   0.0
Run Code Online (Sandbox Code Playgroud)

DATB

id   swl2
 1   0.8
 3   0.6
 5   0.7
Run Code Online (Sandbox Code Playgroud)

产量

datA(此处swl1被swl2中的新值替换,但并非所有id都有新值,对于那些没有的值,保留原始值)

 id swl1
 1   0.8
 2   0.7
 3   0.6
 4   0.7
 5   0.7
Run Code Online (Sandbox Code Playgroud)

这该怎么做?

replace r multiple-columns

3
推荐指数
3
解决办法
8783
查看次数

模式匹配R.

ca.df

id    Category
1     Noun
2     Negative
3     Positive
4     adj
5     word
Run Code Online (Sandbox Code Playgroud)

每个术语分配到多个类别,因此,它对应多于1个ID.在术语中,所有ID都在一列中.

terms.df

Terms   id
 Love    1 4 5 3
 Hate    2 4 5
 ice     1 5
Run Code Online (Sandbox Code Playgroud)

id的含义与ca.df中的类别相对应.我想要一个像这样的输出:

x.df

Category      terms

Noun          ice Love
Negative      Hate
Positive      Love
adj           Hate Love
word          ice Hate Love
Run Code Online (Sandbox Code Playgroud)

这该怎么做?

r pattern-matching

2
推荐指数
1
解决办法
135
查看次数

R 按模式将一列拆分为多列

我想将数据框列中的数字和字符分开d.df

col1 
ab 12 14 56
xb 23 234 2342 2
ad 23 45
Run Code Online (Sandbox Code Playgroud)

预期输出:

col1   col2
ab     12 14 56
xb     23 234 2342 2
ad     23 45
Run Code Online (Sandbox Code Playgroud)

我知道它会与此类似,但我不确定分隔符

t <- as.data.frame(str_match(d$col1,"^(.*)"))
Run Code Online (Sandbox Code Playgroud)

我尝试了很多方法,输出是:

col1      col2      
a         b 12 14 56
x         b  23 234 2342 2
a         d  23 45
Run Code Online (Sandbox Code Playgroud)

split r

2
推荐指数
1
解决办法
1929
查看次数

如何从text2vec LDA获取主题概率表

text2vec包中的LDA主题建模非常棒.它确实比topicmodel快得多

但是,我不知道如何获得每个文档属于每个主题的概率,如下例所示:

    V1  V2  V3  V4
1   0.001025237 7.89E-05    7.89E-05    7.89E-05
2   0.002906977 0.002906977 0.014534884 0.002906977
3   0.003164557 0.003164557 0.003164557 0.003164557
4   7.21E-05    7.21E-05    0.000360334 7.21E-05
5   0.000804433 8.94E-05    8.94E-05    8.94E-05
6   5.63E-05    5.63E-05    5.63E-05    5.63E-05
7   0.001984127 0.001984127 0.001984127 0.001984127
8   0.003515625 0.000390625 0.000390625 0.000390625
9   0.000748503 0.000748503 0.003742515 0.003742515
10  0.000141723 0.00297619  0.000141723 0.000708617
Run Code Online (Sandbox Code Playgroud)

这是text2vec lda的代码

ss2 <- as.character(stressor5$weibo)
seg2 <- mmseg4j(ss2)


# Create vocabulary. Terms will be unigrams (simple words).
it_test = itoken(seg2, progressbar = FALSE)
vocab2 …
Run Code Online (Sandbox Code Playgroud)

r lda text2vec

1
推荐指数
1
解决办法
974
查看次数

标签 统计

r ×4

lda ×1

multiple-columns ×1

pattern-matching ×1

replace ×1

split ×1

text2vec ×1