去解析HTML表

Question

我有一个html表,我想解析.类似于以下http://sprunge.us/IJUC中的那个但是,我不确定解析信息的好方法.我已经看过几个html解析器,但是那些似乎要求所有东西都有一个特殊的标签供你解析它,就像抓取信息一样; 但是,我的大部分信息都在<td></td>

有没有人建议解析这些信息？

Answer 1

无耻的插件:我的goquery库.这是带到Go的jQuery语法(需要Go的实验性html包,请参阅库的自述文件中的说明).

所以你可以这样做(假设你的HTML文档是在doc,a中加载的*goquery.Document):

doc.Find("td").Each(func (i int, s *goquery.Selection) {
  fmt.Printf("Content of cell %d: %s\n", i, s.Text())
})

编辑:更改doc.Root.Find为doc.Find示例,因为goquery文档现在也是一个选择(v0.2/master分支中的新增内容)