Jan*_*yne 8 bioinformatics download genome
我想下载源自微阵列实验产生的基因表达数据.我不太了解这个主题,但据我所知,行通常对应于基因,列对应于样本.理想情况下,我期待一个基因表达数据矩阵.
我一直在互联网上搜索,虽然看起来有很多地方可以下载这些数据,当我实际上下载数据时,我没有得到基因表达的矩阵.有人可以告诉我,如果有一个地方或如何以我期望的格式下载基因表达数据?
任何帮助表示赞赏.
原则上,微阵列数据可以表示(请原谅双关语)作为矩阵,样本作为列和行作为基因.实际上,为实验的原始数据导出这样的表示会更复杂一些.如果您只是获得预处理数据集,则几乎无法保证原始数据的处理方式与其他实验相当,或者基础原始数据的质量足够高.
您还需要高质量的元数据来从数据矩阵中获取任何含义.样品来源的生物条件和来源是什么?使用的特定阵列上的探针对应于哪些基因?(注意,9890_at是"探针组id",是特定序列设计的分子探针的唯一标识符,然后需要将其映射到基因,同一基因的不同探针不会给出完全相同的响应.)
因此,除了处理后的数据矩阵之外,公共微阵列数据库还提供了许多附加信息.除了已经提到的GEO之外,我还推荐使用ArrayExpress,在我看来它有更好的搜索界面.
用于许多微阵列数据的选择工具是用于统计编程语言R的生物导体软件套件.
Bioconductor提供API以下载来自两个存储库的伴随元数据的原始数据,请参阅GEO bioc包 和ArrayExpress bioc包.
与大多数bioconductor软件一样,这两个软件包都带有引入软件的优秀"小插图": GEO bioc vignette和 Arrayexpress bioc vignette
这些小插图还应该为您提供获取原始数据并从原始数据中导出"Esets"(表达集)的示例.此时,您可以访问bioconductor Eset对象中的基因表达矩阵,并且您有一个对象和API来询问必要的元数据.
注意,存在不同类型的微阵列.我建议从Affymetrix数组开始,因为它们可能是最简单的分析API.