朱莉娅：网站抓取了吗？

Question

朱莉娅：网站抓取了吗？

我已经尝试了几天的时间，用这个小代码从期刊网站上获取新闻的标题和链接。

using HTTP
function website_parser(website_url::AbstractString)
r = readstring(get(website_url))
splitted = split(r, "\n")
end

website_parser("https://www.nature.com/news/newsandviews")

Run Code Online (Sandbox Code Playgroud)

问题是，一旦我从网站上获取了文字，我就不知道如何继续。如何检索特定元素（在这种情况下，作为新闻的标题和链接）？

非常感谢您的任何帮助，谢谢

Answer 1

phi*_*ler 5

您需要某种HTML解析。仅提取标头，您可能可以摆脱内建的 regex 。

如果它变得比这更复杂，那么正则表达式就不能泛化了，您应该使用成熟的HTML解析器。 Gumbo.jl似乎是Julia的最新技术，并且界面非常简单。

在后一种情况下，无需拆分文档。在前者中，它至少会使事情变得更复杂，因为此后您必须考虑换行符。因此，最好先解析，然后拆分。

归档时间：	7 年，10 月前
查看次数：	1436 次
最近记录：	7 年，10 月前