如何使用R解析html字符串？

Question

如何从这个html字符串grep数据项

a <- "<div class=\"tst-10\">100%</div>"

结果是100%？主要思想是在<<之间获取数据.

Answer 1

我会gsub()在这种情况下使用:

gsub("(<.*>)(.*)(<.*>)", "\\2", a)
[1] "100%"

基本上,这打破了串分为三个部分,每个部分由常规支架分离(和).然后我们可以将它们用作反向引用.与第一组反向引用匹配的内容可以称为\1(使用双斜杠来转义特殊字符),第二组匹配的内容,\2依此类推.

所以,基本上,我们说解析这个字符串,找出符合我条件的东西,并只返回第二个反向引用.

一块一块:

记住这一点,你实际上可能会使用gsub("(.*>)(.*)(<.*)", "\\2", a)并获得相同的结果.