我想抓一下以下的wiki文章:http://en.wikipedia.org/wiki/Periodic_table
这样我的R代码的输出将是一个包含以下列的表:
(显然,每个化学元素都有一行)
我正在尝试使用XML包来获取页面内的值,但似乎一直停留在开头,所以我很欣赏如何做到这一点的示例(和/或相关示例的链接)
library(XML)
base_url<-"http://en.wikipedia.org/wiki/Periodic_table"
base_html<-getURLContent(base_url)[[1]]
parsed_html <- htmlTreeParse(base_html, useInternalNodes = TRUE)
xmlChildren(parsed_html)
getNodeSet(parsed_html, "//html", c(x = base_url))
[[1]]
attr(,"class")
[1] "XMLNodeSet"
Run Code Online (Sandbox Code Playgroud) (我试过在BioStars上问过这个问题,但是由于文本挖掘的某个人认为有更好的解决方案的可能性很小,我也在这里重新发布)
我想要实现的任务是对齐几个序列.
我没有匹配的基本模式.我所知道的只是"真实"模式的长度应该是"30",并且我在随机点引入了缺失值的序列.
这是一个这样的序列的例子,在左边我们看到了缺失值的真实位置,在右边我们看到了我们能够观察到的序列.
我的目标是仅使用我在右栏中获得的序列重建左列(基于每个位置中的许多字母相同的事实)
Real_sequence The_sequence_we_see
1 CGCAATACTAAC-AGCTGACTTACGCACCG CGCAATACTAACAGCTGACTTACGCACCG
2 CGCAATACTAGC-AGGTGACTTCC-CT-CG CGCAATACTAGCAGGTGACTTCCCTCG
3 CGCAATGATCAC--GGTGGCTCCCGGTGCG CGCAATGATCACGGTGGCTCCCGGTGCG
4 CGCAATACTAACCA-CTAACT--CGCTGCG CGCAATACTAACCACTAACTCGCTGCG
5 CGCACGGGTAAGAACGTGA-TTACGCTCAG CGCACGGGTAAGAACGTGATTACGCTCAG
6 CGCTATACTAACAA-GTG-CTTAGGC-CTG CGCTATACTAACAAGTGCTTAGGCCTG
7 CCCA-C-CTAA-ACGGTGACTTACGCTCCG CCCACCTAAACGGTGACTTACGCTCCG
Run Code Online (Sandbox Code Playgroud)
以下是重现上述示例的示例代码:
ATCG <- c("A","T","C","G")
set.seed(40)
original.seq <- sample(ATCG, 30, T)
seqS <- matrix(original.seq,200,30, T)
change.letters <- function(x, number.of.changes = 15, letters.to.change.with = ATCG)
{
number.of.changes <- sample(seq_len(number.of.changes), 1)
new.letters <- sample(letters.to.change.with , number.of.changes, T)
where.to.change.the.letters <- sample(seq_along(x) , number.of.changes, F)
x[where.to.change.the.letters] <- new.letters
return(x)
}
change.letters(original.seq)
insert.missing.values <- function(x) change.letters(x, …Run Code Online (Sandbox Code Playgroud) 我想知道你能打印多久这个:
http://www.iheartchaos.com/post/16393143676/fun-with-math-dividing-one-by-998001-yields-a
在R.
例如:1/998001
令人尴尬的基本问题.
当想要理解R的源代码时,我经常只在R中写下它的名字并通读代码.这种方法的缺点是,我将获得剥离其注释的代码.
假设我使用git而不是subversion,我有什么简单的解决方案来查看源代码?
例如,我可以通过git下载R的源代码吗?(与github一样)
是否有一些网站的所有代码都可以轻松搜索?
谢谢.
我想在R中创建一个树状图,它有彩色分支,如下图所示.

到目前为止,我使用以下命令创建标准树形图:
d <- dist(as.matrix(data[,29])) # find distance matrix
hc <- hclust(d) # apply hirarchical clustering
plot(hc,labels=data[,1], main="", xlab="") # plot the dendrogram
Run Code Online (Sandbox Code Playgroud)
我该如何修改此代码以获得所需的结果?
在此先感谢您的帮助.
我试图将层次聚类的结果绘制R为树状图,矩形识别聚类.
下面的代码用于垂直树形图,但对于水平树形图(horiz=TRUE),不绘制矩形.有没有办法对水平树形图做同样的事情.
library("cluster")
dst <- daisy(iris, metric = c("gower"), stand = FALSE)
hca <- hclust(dst, method = "average")
plot(as.dendrogram(hca), horiz = FALSE)
rect.hclust(hca, k = 3, border = "red")
Run Code Online (Sandbox Code Playgroud)
此外,我想绘制一条线来切割所需距离值的树.如何在R中绘制该cutree函数.函数返回聚类,但是也可以绘制它.
cutree(hca, k = 3)
Run Code Online (Sandbox Code Playgroud)
我正在寻找的所需输出是这样的.

如何在R中完成这项工作?
我在解释熵包中的mi.plugin()(或mi.empirical())函数的结果时遇到问题.据我所知,MI = 0告诉您,您要比较的两个变量是完全独立的; 随着MI的增加,两个变量之间的关联越来越不随机.
那么,为什么在R中运行以下命令(使用{entropy}包)时,我得到的值为0 :
mi.plugin( rbind( c(1, 2, 3), c(1, 2, 3) ) )
当我比较两个完全相同的向量时?
我认为我的困惑是基于我的理论误解,有人可以告诉我哪里出错了吗?
提前致谢.
我正在按照这个例子说明如何用带有R's的树状图创建聚簇热图plotly.这是一个例子:
library(ggplot2)
library(ggdendro)
library(plotly)
#dendogram data
x <- as.matrix(scale(mtcars))
dd.col <- as.dendrogram(hclust(dist(x)))
dd.row <- as.dendrogram(hclust(dist(t(x))))
dx <- dendro_data(dd.row)
dy <- dendro_data(dd.col)
# helper function for creating dendograms
ggdend <- function(df) {
ggplot() +
geom_segment(data = df, aes(x=x, y=y, xend=xend, yend=yend)) +
labs(x = "", y = "") + theme_minimal() +
theme(axis.text = element_blank(), axis.ticks = element_blank(),
panel.grid = element_blank())
}
# x/y dendograms
px <- ggdend(dx$segments)
py <- ggdend(dy$segments) + coord_flip()
# heatmap
col.ord …Run Code Online (Sandbox Code Playgroud) 我遇到了这个有趣的网站,想到了一种可视化聚类算法的方法,称为"Clustergram":
alt text http://www.schonlau.net/images/clustergramexample.gif
我不确定这是多么有用,但为了玩它我想用R重现它,但我不知道如何去做.
您如何为每个项目创建一条线,以便在不同数量的集群中保持一致?
以下是可用答案的示例代码/数据:
hc <- hclust(dist(USArrests), "ave")
plot(hc)
Run Code Online (Sandbox Code Playgroud) 我希望使用R将HTML文件转换为PDF文件.
是否有可以执行此转换的命令或工具/命令的组合?