目标
我希望从Cricinfo网站上获取 20/20板球记分卡数据,理想情况下将其转换为CSV格式,以便在Excel中进行数据分析
例如,目前的澳大利亚Big Bash 2011/12记分卡可以从
背景
我精通使用VBA(自动化IE或使用XMLHTTP然后使用正则表达式)从网站上抓取数据,即
从HTML TD和Tr中提取值
在同一个问题中,发表了一条评论,建议使用html解析 - 我之前没有遇到过 - 所以我看了一些问题,比如除了XHTML自包含标签之外的RegEx匹配开放标签
询问
虽然我可以编写一个正则表达式来解析下面的板球数据,但我想知道如何使用html解析有效地检索这些结果.
请记住,我的偏好是可重复的CSV格式,包含:
Nirvana对我来说是一个可以使用VBA或VBscript部署的解决方案,所以我可以完全自动化我的分析,但我认为我将不得不使用一个单独的工具来进行HTML解析.
示例站点链接和要提取的数据
