我想测试一堆形式的基因组位置:
chr4:154723876-154724615
chr6:139580853-139581090
chr18:30440532-30441569
Run Code Online (Sandbox Code Playgroud)
我想看看它们是位于UTR还是内含子或外显子或基因间序列.我不关心这些坐标是哪些基因的内含子(等)的信息.
我假设每个已知的遗传元件(如外显子)都定义了基因组位置(每条染色体上基因组的起始位置).我知道外显子和内含子也是如此,例如Ensembl在基因组中有每个外显子的ID:参见Mus musclulus中Amy1基因的外显子和内含子的例子.我想用上面的位置列表查询这些位置的数据库,如果两者之间有重叠(理想情况下我应该能够指定重叠,比如说,至少10bp,但如果不是,我可以) ,我应该受欢迎(是的,这个区域在外显子/内含子/)
差点在于我有几千个这样的位置,并且理想情况下想要一次性查询它们并且作为输出有一个表格,其中每个位置将被分配为"内含子/外显子/ utr/intergenic".有机体是Mus musculus,位置来自整个基因组.
我现在不能提供我正在尝试做的代码示例,因为我不知道从哪里开始 - 如果我有一个包或任何内容可以帮助我找到解决方案.
如果我可以在R中完成,那将是完美的,但AFAIK我不能在biomaRt中做到这一点,我找不到一个包来做它.我想到了Galaxy,但是考虑到他们这样做的非平凡方式和他们产生的奇怪输出,我宁愿坚持R.你知道的魔鬼等.
非常感谢帮助.