我有两个不同维度的表,现在我想根据userids用datB $ swl2中的值替换值datA $ swl1.
数据
id swl1
1 0.8
2 0.7
3 0.4
4 0.7
5 0.0
Run Code Online (Sandbox Code Playgroud)
DATB
id swl2
1 0.8
3 0.6
5 0.7
Run Code Online (Sandbox Code Playgroud)
产量
datA(此处swl1被swl2中的新值替换,但并非所有id都有新值,对于那些没有的值,保留原始值)
id swl1
1 0.8
2 0.7
3 0.6
4 0.7
5 0.7
Run Code Online (Sandbox Code Playgroud)
这该怎么做?
ca.df
id Category
1 Noun
2 Negative
3 Positive
4 adj
5 word
Run Code Online (Sandbox Code Playgroud)
每个术语分配到多个类别,因此,它对应多于1个ID.在术语中,所有ID都在一列中.
terms.df
Terms id
Love 1 4 5 3
Hate 2 4 5
ice 1 5
Run Code Online (Sandbox Code Playgroud)
id的含义与ca.df中的类别相对应.我想要一个像这样的输出:
x.df
Category terms
Noun ice Love
Negative Hate
Positive Love
adj Hate Love
word ice Hate Love
Run Code Online (Sandbox Code Playgroud)
这该怎么做?
我想将数据框列中的数字和字符分开d.df:
col1
ab 12 14 56
xb 23 234 2342 2
ad 23 45
Run Code Online (Sandbox Code Playgroud)
预期输出:
col1 col2
ab 12 14 56
xb 23 234 2342 2
ad 23 45
Run Code Online (Sandbox Code Playgroud)
我知道它会与此类似,但我不确定分隔符
t <- as.data.frame(str_match(d$col1,"^(.*)"))
Run Code Online (Sandbox Code Playgroud)
我尝试了很多方法,输出是:
col1 col2
a b 12 14 56
x b 23 234 2342 2
a d 23 45
Run Code Online (Sandbox Code Playgroud) text2vec包中的LDA主题建模非常棒.它确实比topicmodel快得多
但是,我不知道如何获得每个文档属于每个主题的概率,如下例所示:
V1 V2 V3 V4
1 0.001025237 7.89E-05 7.89E-05 7.89E-05
2 0.002906977 0.002906977 0.014534884 0.002906977
3 0.003164557 0.003164557 0.003164557 0.003164557
4 7.21E-05 7.21E-05 0.000360334 7.21E-05
5 0.000804433 8.94E-05 8.94E-05 8.94E-05
6 5.63E-05 5.63E-05 5.63E-05 5.63E-05
7 0.001984127 0.001984127 0.001984127 0.001984127
8 0.003515625 0.000390625 0.000390625 0.000390625
9 0.000748503 0.000748503 0.003742515 0.003742515
10 0.000141723 0.00297619 0.000141723 0.000708617
Run Code Online (Sandbox Code Playgroud)
这是text2vec lda的代码
ss2 <- as.character(stressor5$weibo)
seg2 <- mmseg4j(ss2)
# Create vocabulary. Terms will be unigrams (simple words).
it_test = itoken(seg2, progressbar = FALSE)
vocab2 …Run Code Online (Sandbox Code Playgroud)