相关疑难解决方法(0)

从标签向量列表中创建标签频率的数据帧

我正在R中编写一个函数来查找类型对话的形式统计(语言测量).我使用openNLP词性标记来标记单词(令人惊奇的工具,但因为它正在做一些重任务,所以很慢).无论如何,这个功能已经存在问题了,我遇到了一个问题,我希望尽可能快地完成这个问题.我开始用复杂的语言思考,并且知道我需要一些集体小组来思考这个问题.

我有一个带有标签的向量列表,如下所示:

G 
[[1]]
[1] "MD"  "DT"  "NN"  "VB"  "VBG" "TO"  "POS"

[[2]]
[1] "DT" "NN" "JJ" "RB"

[[3]]
[1] "RB"  "TO"  "PRP"

[[4]]
[1] "VBZ" "PRP" "VBG" "RB"  "TO"  "NN" 

[[5]]
[1] "NN" "NN"
Run Code Online (Sandbox Code Playgroud)

对于每个向量,我想计算所有可能标记的出现频率(向量插入的零不包含标记)并生成如下所示的数据帧结构:

  DT  JJ  MD  NN  POS PRP RB  TO  VB  VBG VBZ
1  1   0   1   1    1   0  0   1   1    1   0
2  1   1   0   1    0   0  1   0   0    0   0
3  0   0   0   0    0   1 …
Run Code Online (Sandbox Code Playgroud)

r

4
推荐指数
1
解决办法
681
查看次数

标签 统计

r ×1