我正在使用包tm.
假设我有一个2列,500行的数据框.第一列是随机生成的ID,其中包含字符和数字:"txF87uyK"第二列是实际文本:"今天天气好.约翰去慢跑.等等,等等......"
现在我想从这个数据框创建一个文档术语矩阵.
我的问题是我想保留ID信息,以便在我得到文档 - 术语矩阵后,我可以将此矩阵与另一个矩阵连接起来,每个矩阵的每一行都是每个文档的其他信息(日期,主题,情感),每一行都是由文件ID识别.
我怎样才能做到这一点?
问题1:如何将此数据框转换为语料库并获取ID信息?
问题2:获取dtm后,如何将其与ID的其他数据集合加入?
在slam包或Matrix包中是否有内置函数将简单三元组矩阵形式的稀疏矩阵(从slam包)转换为dgTMatrix/dgCMatrix形式的稀疏矩阵(来自Matrix包)?
是否有内置的方法从简单的三元组矩阵访问非零条目?
我在R工作