小编tan*_*tan的帖子

LDA主题建模 - 培训和测试

我读过LDA,我理解当输入文档集合时如何生成主题的数学.

参考文献说,LDA是一种算法,在给定文档集合的情况下(不需要监督),可以发现该集合中文档所表达的"主题".因此,通过使用LDA算法和Gibbs采样器(或变分贝叶斯),我可以输入一组文档,作为输出,我可以得到主题.每个主题都是一组具有指定概率的术语.

我不明白的是,如果上述情况属实,那么为什么许多主题建模教程谈论将数据集分成训练和测试集?

任何人都可以向我解释LDA如何用于训练模型的步骤(基本概念),然后可以用它来分析另一个测试数据集?

lda topic-modeling

37
推荐指数
1
解决办法
2万
查看次数

在向量中查找多个最大值的索引

which.max确定位置,即数值向量的(第一个)最小值或最大值的索引.如果向量有多个max,我该如何检索所有这些?

r

14
推荐指数
1
解决办法
1万
查看次数

寻找互相关最大的滞后ccf()

我有两个时间序列,我用它ccf来找到它们之间的互相关. ccf(ts1, ts2)列出所有时间滞后的互相关.如何在不手动查看数据的情况下找到导致最大相关性的滞后?

r time-series correlation

13
推荐指数
2
解决办法
2万
查看次数

R的Jensen Shannon分歧

我是R的新手并且正在尝试找到一个计算R中JS散度的函数.我可以看到R有KLdiv用于计算KL散度,但有没有可用于JS分歧的东西?

r

6
推荐指数
3
解决办法
7616
查看次数

git clean -f -d从我的本地目录中删除了文件

git clean -f -d从我的本地目录中删除了文件我该如何检索它们?我用它来删除未跟踪的目录和文件,发现它也从我的本地文件系统中删除了它.这可能吗?我做错了什么,是否有办法撤回他们?

git git-clean

6
推荐指数
1
解决办法
1015
查看次数

在R中,如何将稀疏矩阵写入文件?

我有一个稀疏矩阵A,作为glmnet函数的输出生成.当我打印矩阵A时,它显示所有条目,并在顶部显示 -

    1897 x 100 sparse Matrix of class "dgCMatrix"
   [[ suppressing 32 column names 's0', 's1', 's2' ... ]]
Run Code Online (Sandbox Code Playgroud)

但是,当我尝试查看矩阵的尺寸时,它显示为NULL:

> dim(A)
NULL
Run Code Online (Sandbox Code Playgroud)

因此,如果我使用as.matrix将其转换为常规矩阵并写入文件,我会收到错误:

as.matrix(fit$A[,1])
Error in as.matrix(fit$A[, 1]) : 
  error in evaluating the argument 'x' in selecting a method for function 'as.matrix': Error in fit$A[, 1] : incorrect number of dimensions
Run Code Online (Sandbox Code Playgroud)

如何获取此稀疏矩阵中的值并写入文件?

当我在glmnet函数中进行多项式回归(family ="multinomial")时,我遇到了这个问题.但是,当我进行binomail回归(family ="binomial")时,这种方法很好.

另外,我尝试过使用writeMM函数.这也不起作用:

> library('Matrix')
> writeMM(fit$A,file='test.txt')
Error in (function (classes, fdef, mtable)  : 
  unable to find an inherited method for function 'writeMM' for signature …
Run Code Online (Sandbox Code Playgroud)

statistics r matrix sparse-matrix

5
推荐指数
1
解决办法
6088
查看次数

R - 大数据 - 向量超过向量长度限制

我有以下R代码:

data <- read.csv('testfile.data', header = T)
mat = as.matrix(data)
Run Code Online (Sandbox Code Playgroud)

我的testfile.data的更多统计信息:

> ncol(data)
[1] 75713
> nrow(data)
[1] 44771
Run Code Online (Sandbox Code Playgroud)

由于这是一个大型数据集,所以我使用的是带有64GB Ram空间的Amazon EC2.所以希望记忆不是问题.我能够加载数据(第一行工作).但as.matrix转换(第二行错误)会引发以下错误:

resulting vector exceeds vector length limit in 'AnswerType'
Run Code Online (Sandbox Code Playgroud)

有什么线索可能是什么问题?

r bigdata

3
推荐指数
2
解决办法
6454
查看次数