科普篇|如何查找参考基因组信息
发布时间:2021-07-23 11:03 | 点击次数:
很多老师会发现,高通量测序后需要生信分析的过程中,需要填写一个信息分析表。而信息分析表中有一个对生信分析很重要的信息——基因组文件及注释文件。通常这类文件我们都是需要老师提供对应的下载链接,以便于生信直接利用这个链接去下载数据进而做分析,这样做的目的主要是为了避免公司分析使用的基因组信息不是老师研究的物种(同一物种不同属有不同的基因组)或者研究的版本(基因组版本经常会更新,但是不同版本的注释文件略有差异,尽量不要用来进行联合分析)。因此,老师自己去寻找对应的基因组注释信息以及提供对应的下载链接就显得很重要啦~而这类信息很多老师都不知道该怎么去寻找并提供。
参考基因组的注释信息通常需要基因组文件(genome.fa)、基因结构注释文件(gene annotation.GFF)以及蛋白注释文件(pep.fa)。在此,爱基百客基于比较常见的数据库(NCBI和Ensembl),对参考基因组注释信息的查找做了一个简单的介绍,有需要的老师可以参考一下。
01
NCBI: https://www.ncbi.nlm.nih.gov/
【以人(human,homo Sapiens)为例】
1、打开NCBI,在搜索栏输入homo Sapiens(或human,优先选拉丁名),Database选择genome,点击search。
2、在搜索页面,通过上方的注释信息找到对应的注释文件
3、信息分析表中需要3个注释信息
(1)基因组文件(genome.fa):
(2)基因结构注释文件(gff):
(3)蛋白注释文件(pep.fa):
4、请将对应文件的下载链接填写在表格中,,以“genome”为例,右键“genome”,在小窗中选择“复制链接地址”。此时下载链接已复制,随后将复制好的链接粘贴进表格内即可。
某信息分析表参考基因组注释示例:
02
Ensembl
动物组网址:http://ensembl.org/index.html
植物组网址:http://plants.ensembl.org/index.html
细菌组网址:http://bacteria.ensembl.org/index.html
真菌组网址:http://fungi.ensembl.org/index.html
以动物的页面为例:
1、打开Ensembl官网,像人、小鼠和斑马鱼这类的常用模式物种,我们可以直接点进去查看基因组信息。
2、若ensembl数据库中有收录我们要查找的物种基因组,点击view full list of all Ensembl species,我们可以在list中找到我们关注的物种。
3、也可直接在搜索框搜索(拉丁名)
4、很多物种拥有不止一个基因组版本,不同基因组版本可能来源于不同的基因组项目,或对应不同的亚种,进入相应物种页面之后,我们可以进入到不同的基因组链接中进行查看,例如人不同株系的细胞,也是需要在该位置点击株系列表浏览。
5、在找到具体物种基因组后,需要接着找到其对应注释信息,以homo sapiens为例:
(1)基因组genome.fa:
(2)基因结构注释文件gff:
(3)蛋白注释文件pep.fa:
6、同样将复制的链接地址粘贴进信息分析表中。
后记:
由于生信分析需要参考基因组信息,而正确的参考基因组链接对生信进行数据的下载以及后续的分析极为重要,因此,老师提供正确的参考基因组下载链接是很有必要的。
在爱基百客的信息分析表附录中,会包含部分物种是我们已经收录的,如包含老师想研究的物种及对应版本,可直接将附录中的链接复制粘贴进信息分析表的表格中。若没有老师想研究的物种及基因组版本,或老师有额外想要提供的其他参考基因组信息时,为避免产生因后续多次沟通基因组信息从而拉长生信分析周期等问题,请务必粘贴正确的“genome.fa;genome.gff以及pep.fa”文件的下载链接。
除“NCBI”和“Ensembl”数据库外,有时候还会有一些其他的数据库,如“TPIA”、“Phytozome”等,也是可以提供对应基因组注释信息的。老师们只要把对应正确的参考基因组注释文件的下载链接复制粘贴进信息分析表的表格,我们就可以进行下载分析。
祝各位老师科研顺利~