我是R和stackoverflow的新手,所以请保持温和,我会尽量保持这篇文章的正确性.我正在开展一个项目,将整个外显子组测序(WES)结果与蛋白质组数据进行比较.我们的WES工具仅将数据作为html文件提供,因此我需要将其读入R以继续我的工作.
我试图按照RBC的DataCamp教程进行操作,但我认为问题可能是html文件过于复杂,因为我得到的是一堆乱七八糟的\ t\t\t\tn \n\t,其间有一些文字.我想问题是一个不正确的html_node?
这是我的R代码,后面是缩写和变体修改的HTML.
我想得到的是一个与html中列相同的数据框.如在示例中,一些变体影响多个转录本,在这些情况下,单行/转录本将是完美的但不是必须的任何方式.
非常感谢您的帮助!
塞巴斯蒂安
library(tidyverse)
library(rvest)
htmlALL <- read_html("Example_html")
getDATA <- function(html){
html %>%
html_nodes(".table") %>%
html_text() %>%
str_trim() %>%
unlist()
}
df_html <- getDATA(htmlALL)
Run Code Online (Sandbox Code Playgroud)
<!DOCTYPE html
PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" lang="en-US" xml:lang="en-US">
<head>
<!-- add title in the brower tab bar -->
<title>Homozygous variants of sample XXX </title>
<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
</head>
<!-- change style to look nice -->
<style type="text/css">
html {
text-align: center;
vertical-align: middle; …Run Code Online (Sandbox Code Playgroud)