欧易生物

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置首页 » 新闻资讯 » 技术&解读&应用 » 基因组注释文件信息不足怎么破?!

基因组注释文件信息不足怎么破?!

返回列表 来源: 查看手机网址
扫一扫!基因组注释文件信息不足怎么破?!扫一扫!
浏览:- 发布日期:2017-05-17 08:45:01【

NCBI上公布的基因组注释信息文件为gff格式,关于gff文件格式介绍和如何通过awk提取gff的信息请点击(如何提取gff文件中的基因注释信息)。


回归正文,以绵羊基因组为例。在绵羊SOD1基因页面,我们观察到链接地址的最后9位序号(100270717)同页面中Gene ID号相同。同时页面信息中也有基因功能描述(Gene description),这个东东,I want IT!

网页其实就是文本!将这个网页下载(wget)下来,可以看到基因功能注释信息在网页中保存方式如下。

其实在gff文件中, 第9列的Dbxref就保存着GeneID信息。

  OK,有了上述信息作为支撑,我们就可以开始啦……

         第一步,将GeneID从gff文件中提取出来保存为gene_id.txt文档,类似下方的代码

         awk 'BEGIN{FS=OFS="\t"} {split($9,a,";");for(i in a){split(a[i],b,"=");c[b[1]]=b[2]}}{print c["Dbxref"]}' genome.gff | egrep -v "^$|taxon" | cut -b 8-16 | sort -u > gene_id.txt


第二步,将所有相关网页下载到html_out的目录中,类似下方的代码:

fori in `cat gene_id.txt`

do

wget -nd -r -l1 --no-parent https://www.ncbi.nlm.nih.gov/gene/$i

done


第三步,将GeneID和其对应的基因功能描述信息关联在一起,类似下方的代码:

fori in `ls html_out/*`

do

grep -A1 "Gene description" $i | sed -n '2p' | awk -v i=$i 'BEGIN{FS="<|>";OFS="\t"}{print i,$3}' >>des.list

done


最后将这些信息整合到您的基因组注释信息中就大功告成了!

 

OK,经过上面的步骤,你的基因注释信息就丰满了。