相关疑难解决方法(0)

html解析cricinfo记分卡

目标

我希望从Cricinfo网站上获取 20/20板球记分卡数据,理想情况下将其转换为CSV格式,以便在Excel中进行数据分析

例如,目前的澳大利亚Big Bash 2011/12记分卡可以从

背景

我精通使用VBA(自动化IE或使用XMLHTTP然后使用正则表达式)从网站上抓取数据,即 从HTML TD和Tr中提取值

在同一个问题中,发表了一条评论,建议使用html解析 - 我之前没有遇到过 - 所以我看了一些问题,比如除了XHTML自包含标签之外的RegEx匹配开放标签

询问

虽然我可以编写一个正则表达式来解析下面的板球数据,但我想知道如何使用html解析有效地检索这些结果.

请记住,我的偏好是可重复的CSV格式,包含:

  • 比赛的日期/名称
  • 第1组的名字
  • 输出最多可以转移到第1组的11条记录(玩家没有击球的空白记录,即"没有击球")
  • 第2组的名字
  • 输出最多可以转移到第2组的11条记录(玩家没有击球的空白记录)

Nirvana对我来说是一个可以使用VBA或VBscript部署的解决方案,所以我可以完全自动化我的分析,但我认为我将不得不使用一个单独的工具来进行HTML解析.

示例站点链接和要提取的数据

cricinfo记分卡 来源日期

html regex xml parsing vba

35
推荐指数
2
解决办法
2万
查看次数

标签 统计

html ×1

parsing ×1

regex ×1

vba ×1

xml ×1