我试图在 R 中刮一张我以 html 形式给出的表格。Rvest 在从表格中取出所有文本方面非常有用,但我想保留其 HTML 表单中出现的内联样式。
例如,表格中的文本可能是
"This is a sentence <BR> this is another sentence"
Run Code Online (Sandbox Code Playgroud)
我想保留 BR
我试过在整个表格中阅读:
my_table <- my_table_html %>%
html_nodes("table") %>%
html_table(fill=TRUE)
Run Code Online (Sandbox Code Playgroud)
我还尝试选择表中的特定列:
my_column <- my_table_html %>%
html_nodes(".Tabletitle:nth-child(2)") %>%
html_text()
Run Code Online (Sandbox Code Playgroud)
任何想法将不胜感激