小编Tal*_*ili的帖子

为"周期表"和所有链接搜索维基页面

我想抓一下以下的wiki文章:http://en.wikipedia.org/wiki/Periodic_table

这样我的R代码的输出将是一个包含以下列的表:

  • 化学元素简称
  • 化学元素全称
  • 化学元素维基页面的URL

(显然,每个化学元素都有一行)

我正在尝试使用XML包来获取页面内的值,但似乎一直停留在开头,所以我很欣赏如何做到这一点的示例(和/或相关示例的链接)

library(XML)
base_url<-"http://en.wikipedia.org/wiki/Periodic_table"
base_html<-getURLContent(base_url)[[1]]
parsed_html <- htmlTreeParse(base_html, useInternalNodes = TRUE)
xmlChildren(parsed_html)
getNodeSet(parsed_html, "//html", c(x = base_url))
[[1]]
attr(,"class")
[1] "XMLNodeSet"
Run Code Online (Sandbox Code Playgroud)

xml r web-scraping

8
推荐指数
2
解决办法
1335
查看次数

如何在R中执行基本的多序列比对?

(我试过在BioStars上问过这个问题,但是由于文本挖掘的某个人认为有更好的解决方案的可能性很小,我也在这里重新发布)

我想要实现的任务是对齐几个序列.

我没有匹配的基本模式.我所知道的只是"真实"模式的长度应该是"30",并且我在随机点引入了缺失值的序列.

这是一个这样的序列的例子,在左边我们看到了缺失值的真实位置,在右边我们看到了我们能够观察到的序列.

我的目标是仅使用我在右栏中获得的序列重建左列(基于每个位置中的许多字母相同的事实)

                     Real_sequence           The_sequence_we_see
1   CGCAATACTAAC-AGCTGACTTACGCACCG CGCAATACTAACAGCTGACTTACGCACCG
2   CGCAATACTAGC-AGGTGACTTCC-CT-CG   CGCAATACTAGCAGGTGACTTCCCTCG
3   CGCAATGATCAC--GGTGGCTCCCGGTGCG  CGCAATGATCACGGTGGCTCCCGGTGCG
4   CGCAATACTAACCA-CTAACT--CGCTGCG   CGCAATACTAACCACTAACTCGCTGCG
5   CGCACGGGTAAGAACGTGA-TTACGCTCAG CGCACGGGTAAGAACGTGATTACGCTCAG
6   CGCTATACTAACAA-GTG-CTTAGGC-CTG   CGCTATACTAACAAGTGCTTAGGCCTG
7   CCCA-C-CTAA-ACGGTGACTTACGCTCCG   CCCACCTAAACGGTGACTTACGCTCCG
Run Code Online (Sandbox Code Playgroud)

以下是重现上述示例的示例代码:

ATCG <- c("A","T","C","G")
set.seed(40)
original.seq <- sample(ATCG, 30, T)
seqS <- matrix(original.seq,200,30, T)
change.letters <- function(x, number.of.changes = 15, letters.to.change.with = ATCG) 
{
    number.of.changes <- sample(seq_len(number.of.changes), 1)
    new.letters <- sample(letters.to.change.with , number.of.changes, T)
    where.to.change.the.letters <- sample(seq_along(x) , number.of.changes, F)
    x[where.to.change.the.letters] <- new.letters
    return(x)
}
change.letters(original.seq)
insert.missing.values <- function(x) change.letters(x, …
Run Code Online (Sandbox Code Playgroud)

r bioinformatics alignment sequence text-alignment

8
推荐指数
2
解决办法
1万
查看次数


如何查看R的源代码(预解析)

令人尴尬的基本问题.

当想要理解R的源代码时,我经常只在R中写下它的名字并通读代码.这种方法的缺点是,我将获得剥离其注释的代码.

假设我使用git而不是subversion,我有什么简单的解决方案来查看源代码?

例如,我可以通过git下载R的源代码吗?(与github一样)

是否有一些网站的所有代码都可以轻松搜索?

谢谢.

r

8
推荐指数
1
解决办法
214
查看次数

如何用彩色分支创建树状图?

我想在R中创建一个树状图,它有彩色分支,如下图所示. 在此输入图像描述

到目前为止,我使用以下命令创建标准树形图:

d <- dist(as.matrix(data[,29]))   # find distance matrix 
 hc <- hclust(d)                # apply hirarchical clustering 
 plot(hc,labels=data[,1], main="", xlab="") # plot the dendrogram
Run Code Online (Sandbox Code Playgroud)

我该如何修改此代码以获得所需的结果?

在此先感谢您的帮助.

r classification dendrogram dendextend

8
推荐指数
3
解决办法
1万
查看次数

树枝切割和簇周围的矩形,用于R中的水平树状图

我试图将层次聚类的结果绘制R为树状图,矩形识别聚类.

下面的代码用于垂直树形图,但对于水平树形图(horiz=TRUE),不绘制矩​​形.有没有办法对水平树形图做同样的事情.

library("cluster")
dst <- daisy(iris, metric = c("gower"), stand = FALSE)
hca <- hclust(dst, method = "average")
plot(as.dendrogram(hca), horiz = FALSE)
rect.hclust(hca, k = 3, border = "red")
Run Code Online (Sandbox Code Playgroud)

此外,我想绘制一条线来切割所需距离值的树.如何在R中绘制该cutree函数.函数返回聚类,但是也可以绘制它.

cutree(hca, k = 3)
Run Code Online (Sandbox Code Playgroud)

我正在寻找的所需输出是这样的.

树状图

如何在R中完成这项工作?

r dendrogram hclust ggdendro dendextend

8
推荐指数
2
解决办法
9345
查看次数

计算R中的互信息

我在解释熵包中的mi.plugin()(或mi.empirical())函数的结果时遇到问题.据我所知,MI = 0告诉您,您要比较的两个变量是完全独立的; 随着MI的增加,两个变量之间的关联越来越不随机.

那么,为什么在R中运行以下命令(使用{entropy}包)时,我得到的值为0 :

mi.plugin( rbind( c(1, 2, 3), c(1, 2, 3) ) )

当我比较两个完全相同的向量时?

我认为我的困惑是基于我的理论误解,有人可以告诉我哪里出错了吗?

提前致谢.

r entropy information-theory

8
推荐指数
1
解决办法
9418
查看次数

使用R绘图用树状图绘制聚类热图

我正在按照这个例子说明如何用带有R's的树状图创建聚簇热图plotly.这是一个例子:

library(ggplot2)
library(ggdendro)
library(plotly)

#dendogram data
x <- as.matrix(scale(mtcars))
dd.col <- as.dendrogram(hclust(dist(x)))
dd.row <- as.dendrogram(hclust(dist(t(x))))
dx <- dendro_data(dd.row)
dy <- dendro_data(dd.col)

# helper function for creating dendograms
ggdend <- function(df) {
  ggplot() +
    geom_segment(data = df, aes(x=x, y=y, xend=xend, yend=yend)) +
    labs(x = "", y = "") + theme_minimal() +
    theme(axis.text = element_blank(), axis.ticks = element_blank(),
          panel.grid = element_blank())
}

# x/y dendograms
px <- ggdend(dx$segments)
py <- ggdend(dy$segments) + coord_flip()

# heatmap
col.ord …
Run Code Online (Sandbox Code Playgroud)

r heatmap ggplot2 plotly heatmaply

8
推荐指数
2
解决办法
8369
查看次数

如何创建"Clustergram"图?(在R中)

我遇到了这个有趣的网站,想到了一种可视化聚类算法的方法,称为"Clustergram":

alt text http://www.schonlau.net/images/clustergramexample.gif

我不确定这是多么有用,但为了玩它我想用R重现它,但我不知道如何去做.

您如何为每个项目创建一条线,以便在不同数量的集群中保持一致?

以下是可用答案的示例代码/数据:

hc <- hclust(dist(USArrests), "ave")
plot(hc)
Run Code Online (Sandbox Code Playgroud)

graphics visualization r cluster-analysis

7
推荐指数
1
解决办法
3124
查看次数

将文件转换(打印)为PDF - 使用R?(在windows中)

我希望使用R将HTML文件转换为PDF文件.

是否有可以执行此转换的命令或工具/命令的组合?

html pdf r

7
推荐指数
1
解决办法
5667
查看次数