相关疑难解决方法(0)

使用正则表达式解析HTML:为什么不呢?

似乎stackoverflow上的每个问题,其中提问者使用正则表达式从HTML中获取一些信息将不可避免地有一个"答案",表示不使用正则表达式来解析HTML.

为什么不?我知道那里有引用 - 不引用"真正的"HTML解析器,比如Beautiful Soup,我相信它们是强大而有用的,但是如果你只是做一些简单,快速或肮脏的事情,那么为什么当一些正则表达式语句运行得很好时,麻烦​​使用如此复杂的东西?

此外,是否有一些基本的东西,我不了解正则表达式,这使得它们一般是解析的错误选择?

regex html-parsing

202
推荐指数
10
解决办法
6万
查看次数

使用R从网页中提取链接

下面的两个帖子是从网站提取数据并将其解析为R的不同方法的很好的例子.

使用XML包将html表刮入R数据帧

我如何使用R(Rcurl/XML包?!)来抓取这个网页

我对编程非常陌生,刚开始使用R,所以我希望这个问题非常基本,但考虑到上面的那些帖子,我想是的.

我要做的就是提取与给定模式匹配的链接.我觉得我可以使用RCurl来读取网页并使用字符串表达式提取它们的暴力方法.也就是说,如果网页形成得相当好,我将如何使用XML包进行此操作.

随着我了解更多,我喜欢在查看问题时"查看"数据.问题是这些方法中的一些生成了列表列表等列表,因此新的(像我)这样的人很难走到我需要去的地方.

同样,我对所有编程都是新手,所以任何帮助或代码片段都将不胜感激.

r web-scraping

26
推荐指数
2
解决办法
3万
查看次数

网页搜罗(在R?中)

我想要得到的公司的名字中的中间列页面(用蓝色粗体),以及是谁注册投诉的人的位置指示器(例如,"印度新德里",写在绿) .基本上,我想要一个包含两列的表(或数据框),一列用于公司,另一列用于位置.有任何想法吗?

r html-parsing web-scraping

2
推荐指数
1
解决办法
6543
查看次数

标签 统计

html-parsing ×2

r ×2

web-scraping ×2

regex ×1