我正在考虑使用不同的解决方案来创建向用户显示一些数据分析的Web应用程序.我想使用R和闪亮的服务器,但我不确定它将如何为大量用户扩展.问题:
我想从网站上读取HTML文件.具体来说,我想从gutenberg.org阅读HTML格式的书籍.每章的标题用标记"h2"标记,每章的内容在"h2"之后的段落标记"p"中.使用XML包我可以获取每个标记的值或完整的HTML代码.
以下是使用George Elliot的Middlemarch的示例代码:
library(XML)
doc.html = htmlTreeParse('http://www.gutenberg.org/files/145/145-h/145-h.htm',
useInternal = TRUE)
doc.value <- xpathApply(doc.html, '//h2|//p', xmlValue)
doc.html.value <- xpathApply(doc.html, '//h2|//p')
Run Code Online (Sandbox Code Playgroud)
doc.value包含一个列表,其中每个元素都是标记的内容,但我不知道是h2标记还是p标记.另一方面,doc.html.value包含一个列表,其中包含每个标记的html代码.这给了我的信息,无论它是"h2"还是"p"标签,但它还包含许多我不需要的额外代码(如样式信息等).
我的问题:是否有一种简单的方法可以获得标签的类型和标签的价值而没有与之相关的其他信息?