相关疑难解决方法(0)

除了XHTML自包含标记之外,RegEx匹配开放标记

我需要匹配所有这些开始标记:

<p>
<a href="foo">
Run Code Online (Sandbox Code Playgroud)

但不是这些:

<br />
<hr class="foo" />
Run Code Online (Sandbox Code Playgroud)

我想出了这个,并希望确保我做对了.我只抓住了a-z.

<([a-z]+) *[^/]*?>
Run Code Online (Sandbox Code Playgroud)

我相信它说:

  • 找一个小于,然后
  • 然后,查找(并捕获)az一次或多次
  • 然后找到零个或多个空格
  • 找到任何字符零次或多次,贪婪/,然后
  • 找到一个大于

我有这个权利吗?更重要的是,你怎么看?

html regex xhtml

1323
推荐指数
36
解决办法
270万
查看次数

使用XML包将html表刮入R数据帧

如何使用XML包刮取html表?

巴西足球队的维基百科页面为例.我想在R中阅读并获得"巴西队对阵FIFA认可球队所有比赛的名单"表作为data.frame.我怎样才能做到这一点?

html xml parsing r web-scraping

151
推荐指数
4
解决办法
11万
查看次数

R中是否有一种简单的方法来只提取HTML页面的文本元素?

R中是否有一种简单的方法来只提取HTML页面的文本元素?

我认为这被称为"屏幕抓取",但我没有它的经验,我只需要一种简单的方法来提取您在访问网址时通常在浏览器中看到的文本.

html screen-scraping r

22
推荐指数
2
解决办法
2万
查看次数

标签 统计

html ×3

r ×2

parsing ×1

regex ×1

screen-scraping ×1

web-scraping ×1

xhtml ×1

xml ×1