小编lan*_*dge的帖子

在R和rvest中抓取多个链接的HTML表

这篇文章http://www.ajnr.org/content/30/7/1402.full包含四个指向html-tables的链接,我想用rvest来搜索.

借助css选择器:

"#T1 a" 
Run Code Online (Sandbox Code Playgroud)

可以像这样到达第一个表:

library("rvest")
html_session("http://www.ajnr.org/content/30/7/1402.full") %>%
follow_link(css="#T1 a") %>%
html_table() %>%
View()
Run Code Online (Sandbox Code Playgroud)

css选择器:

".table-inline li:nth-child(1) a"
Run Code Online (Sandbox Code Playgroud)

可以选择包含链接到四个表的标签的所有四个html节点:

library("rvest")
html("http://www.ajnr.org/content/30/7/1402.full") %>%
html_nodes(css=".table-inline li:nth-child(1) a")
Run Code Online (Sandbox Code Playgroud)

如何循环遍历此列表并一次性检索所有四个表?什么是最好的方法?

r web-scraping rvest

10
推荐指数
1
解决办法
5361
查看次数

使用.str.replace()vs .replace()更新pandas DataFrame

我的pandas Dataframe df中有一个列,其中包含一些字符串,其中包含一些尾随的十六进制编码的NULL(\ x00).至少我认为就是这样.当我尝试用以下内容替换它们时:

df['SOPInstanceUID'] = df['SOPInstanceUID'].replace('\x00', '')
Run Code Online (Sandbox Code Playgroud)

该列未更新.当我这样做的时候

df['SOPInstanceUID'] = df['SOPInstanceUID'].str.replace('\x00', '')
Run Code Online (Sandbox Code Playgroud)

它工作正常.这有什么区别?(SOPInstanceUID不是索引.)

谢谢

python dataframe pandas

2
推荐指数
1
解决办法
2148
查看次数

标签 统计

dataframe ×1

pandas ×1

python ×1

r ×1

rvest ×1

web-scraping ×1