如何使用XML包刮取html表?
以巴西足球队的维基百科页面为例.我想在R中阅读并获得"巴西队对阵FIFA认可球队所有比赛的名单"表作为data.frame.我怎样才能做到这一点?
假设您在R中有此数据,并且您想在stackoverflow上发布一个问题.对于其他人来说,如果他们能够拥有您的对象(数据框,矢量等)的副本,那将会很好.
假设您的数据位于名为site.data的数据框中
> site.data
site year peak
1 ALBEN 5 101529.6
2 ALBEN 10 117483.4
3 ALBEN 20 132960.9
8 ALDER 5 6561.3
9 ALDER 10 7897.1
10 ALDER 20 9208.1
15 AMERI 5 43656.5
16 AMERI 10 51475.3
17 AMERI 20 58854.4
Run Code Online (Sandbox Code Playgroud)
如何打包它以便用户可以完全按照您的方式重新创建数据?
您希望在没有人下载文本文件并导入它的情况下执行此操作.
(注意:这些数据来自REvolutions博客的一个例子)
假设我有一个x包含10行和2列的矩阵.我想生成一个M包含每对唯一行x的新矩阵 - 即一个包含55行和4列的新矩阵.
例如,
x <- matrix (nrow=10, ncol=2, 1:20)
M <- data.frame(matrix(ncol=4, nrow=55))
k <- 1
for (i in 1:nrow(x))
for (j in i:nrow(x))
{
M[k,] <- unlist(cbind (x[i,], x[j,]))
k <- k + 1
}
Run Code Online (Sandbox Code Playgroud)
那么,x是:
[,1] [,2]
[1,] 1 11
[2,] 2 12
[3,] 3 13
[4,] 4 14
[5,] 5 15
[6,] 6 16
[7,] 7 17
[8,] 8 18
[9,] 9 19
[10,] 10 20
Run Code Online (Sandbox Code Playgroud)
然后M …
r ×3
cartesian ×1
definition ×1
export ×1
html ×1
matrix ×1
parsing ×1
structure ×1
web-scraping ×1
xml ×1