朱莉娅:网站抓取了吗?

fla*_*sky 4 web-scraping julia

我已经尝试了几天的时间,用这个小代码从期刊网站上获取新闻的标题和链接。

using HTTP
function website_parser(website_url::AbstractString)
r = readstring(get(website_url))
splitted = split(r, "\n")
end

website_parser("https://www.nature.com/news/newsandviews")
Run Code Online (Sandbox Code Playgroud)

问题是,一旦我从网站上获取了文字,我就不知道如何继续。如何检索特定元素(在这种情况下,作为新闻的标题和链接)?

非常感谢您的任何帮助,谢谢

phi*_*ler 5

您需要某种HTML解析。仅提取标头,您可能可以摆脱内建的 regex 。

如果它变得比这更复杂,那么正则表达式就不能泛化了,您应该使用成熟的HTML解析器。 Gumbo.jl似乎是Julia的最新技术,并且界面非常简单。

在后一种情况下,无需拆分文档。在前者中,它至少会使事情变得更复杂,因为此后您必须考虑换行符。因此,最好先解析,然后拆分。