我正在R中编写一个函数来查找类型对话的形式统计(语言测量).我使用openNLP词性标记来标记单词(令人惊奇的工具,但因为它正在做一些重任务,所以很慢).无论如何,这个功能已经存在问题了,我遇到了一个问题,我希望尽可能快地完成这个问题.我开始用复杂的语言思考,并且知道我需要一些集体小组来思考这个问题.
我有一个带有标签的向量列表,如下所示:
G
[[1]]
[1] "MD" "DT" "NN" "VB" "VBG" "TO" "POS"
[[2]]
[1] "DT" "NN" "JJ" "RB"
[[3]]
[1] "RB" "TO" "PRP"
[[4]]
[1] "VBZ" "PRP" "VBG" "RB" "TO" "NN"
[[5]]
[1] "NN" "NN"
Run Code Online (Sandbox Code Playgroud)
对于每个向量,我想计算所有可能标记的出现频率(向量插入的零不包含标记)并生成如下所示的数据帧结构:
DT JJ MD NN POS PRP RB TO VB VBG VBZ
1 1 0 1 1 1 0 0 1 1 1 0
2 1 1 0 1 0 0 1 0 0 0 0
3 0 0 0 0 0 1 …Run Code Online (Sandbox Code Playgroud) r ×1