我需要使用R来分解大约7500万个字符串.我需要做一些事情,比如创建一个Term Document矩阵,其中文档中出现的每个单词都成为矩阵中的一列,并且在术语出现的任何地方,矩阵元素被编码为1.
我有:大约7500万个字符串,长度约为0-100个字符; 它们代表一个时间序列,提供有关该时期发生的事件的编码信息.每个代码只有一个字符,对应一个时间段.
我需要:某种矩阵或传达信息的方式,它取消了时间序列,并告诉我每个系列中报告某个代码的次数.
例如:字符串"ABCDEFG-123"将成为矩阵中的一行,其中每个字符将被计算为一次.如果这太难了,0和1的矩阵也会给我一些信息,虽然我宁愿保留尽可能多的信息.
有没有人对如何快速做到这一点有任何想法?有20种可能的代码.