小编Shr*_*nik的帖子

有没有办法获得git存储库的下载/克隆统计信息?

有没有办法知道从github克隆或下载git存储库的次数?我只是很好奇,因为我发现其他统计信息,如提交时间代码行可以使用以下方法生成:http://gitstats.sourceforge.net/但我没有找到如何检查克隆/下载计数.

git github

71
推荐指数
4
解决办法
3万
查看次数

使用带有lm()对象列表的predict

我有定期运行回归的数据.每个"数据块"的数据都适合不同的回归.例如,每个州可能具有解释从属值的不同功能.这似乎是典型的"拆分 - 应用 - 组合"类型的问题,因此我使用的是plyr包.我可以轻松创建一个lm()运行良好的对象列表.但是,我不能完全理解我以后如何使用这些对象来预测单独data.frame中的值.

这是一个完全人为的例子,说明了我正在尝试做的事情:

# setting up some fake data
set.seed(1)
funct <- function(myState, myYear){
   rnorm(1, 100, 500) +  myState + (100 * myYear) 
}
state <- 50:60
year <- 10:40
myData <- expand.grid( year, state)
names(myData) <- c("year","state")
myData$value <- apply(myData, 1, function(x) funct(x[2], x[1]))
## ok, done with the fake data generation. 

require(plyr)

modelList <- dlply(myData, "state", function(x) lm(value ~ year, data=x))
## if you want to see the summaries of the lm() do …
Run Code Online (Sandbox Code Playgroud)

r predict plyr lm

18
推荐指数
3
解决办法
5725
查看次数

在R中聚类照片?

我在这里有一个一般的R问题:

通常使用数码相机,我们倾向于点击许多可能重复的图像,并且在Picassa上共享时会浪费在线空间,或者在尝试删除一些不需要的图像时会产生开销.

是否可以使用R聚类照片?我的意思是Matlab中有一些用于图像处理的聚类功能,但这种功能是否可用,或者在R中是否有任何建议?

如果有任何关于这个主题,请提供一些想法.

r image image-processing

8
推荐指数
1
解决办法
2176
查看次数

从文本中提取名词和动词

我想知道是否有可能在R包openNLP中单独提取名词,动词?我使用标记句子的tagPOS函数,但是如果我想分别提取动词,名词,该怎么做.

r

6
推荐指数
1
解决办法
8334
查看次数

将简单三元组矩阵写入文件?

我正在使用tm包来计算数据集的term-document-matrix,我现在必须将term-document-matrix写入文件,但是当我在RI中使用write函数时出现错误.

这是我正在使用的代码和我得到的错误:

data("crude")
tdm <- TermDocumentMatrix(crude, control = list(weighting = weightTfIdf, stopwords = TRUE))
dtm <- DocumentTermMatrix(crude, control = list(weighting = weightTfIdf, stopwords = TRUE))
Run Code Online (Sandbox Code Playgroud)

当我对此数据使用write.table命令时,这是错误:

Error in cat(list(...), file, sep, fill, labels, append) : argument 1 (type 'list') cannot be handled by 'cat'
Run Code Online (Sandbox Code Playgroud)

我知道tbm是Simple Triplet Matrix类型的对象,但我怎么能把它写成一个简单的文本文件.

r

6
推荐指数
1
解决办法
6151
查看次数

从作者关系中提取国家名称

我目前正在探索从作者联盟(PubMed文章)中提取国家名称的可能性,我的样本数据如下:

Mechanical and Production Engineering Department, National University of Singapore.

Cancer Research Campaign Mammalian Cell DNA Repair Group, Department of Zoology, Cambridge, U.K.

Cancer Research Campaign Mammalian Cell DNA Repair Group, Department of Zoology, Cambridge, UK.

Lilly Research Laboratories, Eli Lilly and Company, Indianapolis, IN 46285.

最初我尝试删除标点符号并将矢量分成单词,然后将其与维基百科的国家名称列表进行比较,但我没有成功.

任何人都可以建议我一个更好的方法吗?我更喜欢解决方案,R因为我必须进行进一步的分析并生成图形R.

text nlp r

6
推荐指数
1
解决办法
1926
查看次数

PubMed文章的全文PDF

在处理项目时,我需要下载和处理PubMed摘要的全文文章,是否有任何实现的代码或工具允许用户输入一组PubMed ID并下载免费的全文文章.非常感谢任何形式的帮助或提示.

pdf nlp text-mining pubmed

5
推荐指数
1
解决办法
4079
查看次数

跟踪单词接近度

我正在开发一个小项目,该项目涉及在文档集合中进行基于字典的文本搜索.我的字典有正面的信号词(又名好词),但在文档集中只是找到一个单词并不能保证肯定的结果,因为可能存在负面词,例如(不是,不重要)可能在这些正面词附近.我想构建一个矩阵,使其包含文档编号,正文字及其与否定字的接近程度.

任何人都可以建议一种方法来做到这一点.我的项目处于非常早期阶段,所以我给出了我的文本的基本示例.

No significant drug interactions have been reported in studies of candesartan cilexetil given with other drugs such as glyburide, nifedipine, digoxin, warfarin, hydrochlorothiazide.   
Run Code Online (Sandbox Code Playgroud)

这是我的示例文件,其中坎地沙坦西酯,格列本脲,硝苯地平,地高辛,华法林,氢氯噻嗪是我的正面词,没有重要的是我的否定词.我想在我的积极和有意义的词之间做一个接近(基于词的)映射.

谁能提供一些有用的指示?

r text-mining

3
推荐指数
1
解决办法
844
查看次数

在R中选择特定的XML节点?

我正在使用XMLpackage R来解析XML具有以下结构的文件.

 <document id="Something" origId="Text">
    <sentence id="Something" origId="thisorig" text="Blah Blah.">
    <special id="id.s0.i0" origId="1" e1="en1" e2="en2" type="" directed="True"/>
    </sentence>
     <sentence id="Something" origId="thisorig" text="Blah Blah.">
      </sentence>
</document>
Run Code Online (Sandbox Code Playgroud)

我想</special>在一个变量中选择具有标记的节点,</special>在其他变量中选择没有标记的节点.

有可能用R任何指针/答案来做这将是非常有帮助的.

xml r

3
推荐指数
1
解决办法
9570
查看次数

标签 统计

r ×7

nlp ×2

text-mining ×2

git ×1

github ×1

image ×1

image-processing ×1

lm ×1

pdf ×1

plyr ×1

predict ×1

pubmed ×1

text ×1

xml ×1