使用Go lang从网页中提取链接

Jif*_*ang 25 go html-parsing

我正在学习谷歌的Go编程语言.有没有人知道从html网页中提取所有URL的最佳做法?

来自Java世界,有工作的库,例如jsoup,htmlparser等.但是对于go lang,我想没有可用的类似库吗?

Mat*_*att 23

如果你了解jQuery,你会喜欢GoQuery.

老实说,它是我在Go中找到的最简单,最强大的HTML实用程序,它基于go.net存储库中的html包.(好吧,所以它比仅仅是一个解析器更高级,因为它不会暴露原始HTML令牌等,但是如果你想要用HTML文档实际完成任何事情,这个包将有所帮助.)


Son*_*nia 20

Go用于HTML解析的标准包仍然是一项正在进行的工作,并不是当前版本的一部分.你可能尝试的第三方软件包是go-html-transform.它正在积极维护.


Von*_*onC 17

虽然用于HTML解析的Go包确实仍在进行中,但它可以在go.net存储库中找到.

它的来源是 code.google.com/p/go.net/html github.com/golang/net 它正在积极发展.

在最近的讨论中提到了它.


请注意,对于Go 1.4(2014年12月),正如我在本回答中所提到的,现在包golang.org/x/net(请参阅godoc).

  • Go html包已移至[go.net](https://code.google.com/p/go/source/browse?repo=net#hg%2Fhtml)回购.[here](http://godoc.org/code.google.com/p/go.net/html)是文档. (2认同)

Ye *_*ung 6

我四处搜索,发现有一个名为Gokogiri的图书馆听起来像是红宝石的Nogokiri.我认为该项目也很活跃.