小编Gor*_*InR的帖子

tm:读入数据框,保留文本ID,构造DTM并加入其他数据集

我正在使用包tm.

假设我有一个2列,500行的数据框.第一列是随机生成的ID,其中包含字符和数字:"txF87uyK"第二列是实际文本:"今天天气好.约翰去慢跑.等等,等等......"

现在我想从这个数据框创建一个文档术语矩阵.

我的问题是我想保留ID信息,以便在我得到文档 - 术语矩阵后,我可以将此矩阵与另一个矩阵连接起来,每个矩阵的每一行都是每个文档的其他信息(日期,主题,情感),每一行都是由文件ID识别.

我怎样才能做到这一点?

问题1:如何将此数据框转换为语料库并获取ID信息?

问题2:获取dtm后,如何将其与ID的其他数据集合加入?

r text-mining tm

10
推荐指数
2
解决办法
1万
查看次数

将简单三元组矩阵(slam)转换为R中的稀疏矩阵(矩阵)

在slam包或Matrix包中是否有内置函数将简单三元组矩阵形式的稀疏矩阵(从slam包)转换为dgTMatrix/dgCMatrix形式的稀疏矩阵(来自Matrix包)?

是否有内置的方法从简单的三元组矩阵访问非零条目?

我在R工作

r matrix sparse-matrix

9
推荐指数
1
解决办法
3286
查看次数

标签 统计

r ×2

matrix ×1

sparse-matrix ×1

text-mining ×1

tm ×1