如何使用R解析html字符串?

jra*_*ara 3 regex r

如何从这个html字符串grep数据项

a <- "<div class=\"tst-10\">100%</div>"
Run Code Online (Sandbox Code Playgroud)

结果是100%?主要思想是在<<之间获取数据.

A5C*_*2T1 5

我会gsub()在这种情况下使用:

gsub("(<.*>)(.*)(<.*>)", "\\2", a)
[1] "100%"
Run Code Online (Sandbox Code Playgroud)

基本上,这打破了串分为三个部分,每个部分由常规支架分离().然后我们可以将它们用作反向引用.与第一组反向引用匹配的内容可以称为\1(使用双斜杠来转义特殊字符),第二组匹配的内容,\2依此类推.

所以,基本上,我们说解析这个字符串,找出符合我条件的东西,并只返回第二个反向引用.

一块一块:

  • <.*> 说找到一个"<"后跟任意数量的任何字符".*"直到你到达">"
  • .* 意味着匹配任意数量的字符(直到下一个条件)

记住这一点,你实际上可能会使用gsub("(.*>)(.*)(<.*)", "\\2", a)并获得相同的结果.