我刚刚尝试过...
lynx -dump -list_inline "http://www.samplepage.com"
Run Code Online (Sandbox Code Playgroud)
获取网页的格式化输出。但是,我注意到对于链接,只标记了起点,但没有标记终点。例如,对于这样的事情
this is <a href="www.link.com">a link</a> somewhere
Run Code Online (Sandbox Code Playgroud)
我明白了
this is [www.link.com]a link somewhere
Run Code Online (Sandbox Code Playgroud)
但我想要得到的是类似的东西
this is [www.link.com]a link[endlink] somewhere
Run Code Online (Sandbox Code Playgroud)
这样我就知道链接中到底包含文本的哪一部分。有人知道如何做到这一点吗?
非常感谢您的帮助!
最好的问候,弗洛里安