SEARCH
技术服务021-34781616

热门搜索关键词:转录组基因组甲基化酵母文库蛋白芯片

021-34781616

当前位置首页 » 新闻资讯 » 技术&解读&应用 » 转录组数据上传之GEO

转录组数据上传之GEO

返回列表 来源: 查看手机网址
扫一扫!转录组数据上传之GEO扫一扫!
浏览:- 发布日期:2017-02-23 09:36:06【

首先向大家简单介绍下GEO数据库,它是为了共享基因表达数据而建立的一个在线数据库。很多文章发表都需要上传到GEO数据库,还不赶紧学习下,(*^__^*)。

如果要上传GEO数据库,首先要建立一个NCBI的账号,再建立一个GEO的账号。可以从https://www.ncbi.nlm.nih.gov/geo/LogintoSubmit进入创建。

创建完成后,再点击Submission Guidelines进入GEO主页。

接下来,选择你要上传的数据类型,这里只介绍上传转录组测序数据。

点击High-throughput sequence submissions

上传总共需要3类文件,

1.Metadata spreadsheet(上传所需要填写的表格,比较麻烦,后面详细介绍)

2.Processed datafiles(基因表达量文件,也就是FPKM)

如下图所示。因为这里有Novel类基因(预测基因),所以需要提供:

Chromosome(染色体号)Strand(链的正负)start(起始位置)length(长度)。

如果没有Novel类基因,只需要提供A、B列即可。

3.Raw data files(原始的测序数据)

Metadata spreadsheet详细介绍

进入High-throughput sequence submissions页面后,下载Metadata spreadsheet

1SERIES:跟文章相关的内容:标题,摘要,实验设计,参与者(根据自己情况填写);

2SAMPLES:跟样本信息相关的内容:样本名称,物种,特征,及对应的表达值数据和原始数据;

3PROTOCOLS:样本的实验准备和文库构建的描述;

4DATAPROCESSINGPIPELINE:数据处理方面的描述,如数据预处理,数据比对,采用的基因组版本等;

5PROCESSEDDATAFILES:处理后数据名称,格式,及MD5码。即FPKM文件,其中file type一列可以统一写成abundance measurements。file checksum列即为MD5码(MD5码生成软件可以直接百度下载)。

6RAWFILES:原始数据名称,格式,MD5码,平台类型,测序读长及单双端信息;

7PAIRED-END EXPERIMENTS:如果是双端测序,还需要填写双端原始数据的名称,插入片段长度及插入长度的标准偏差。

到这里METADATA TEMPLATE算是填写完成了,接下来就可以进行上传数据啦!

首先需要下载Filezilla软件,然后在Filezilla中输入GEO地址:ftp-private.ncbi.hlm.nih.gov并登陆(用户名和密码可进入High-throughput sequence submissions页面中寻找,有

可能定期更新),即可连接GEO数据库进行上传了。

注:Filezilla软件的设置一定要根据下图重新设置,不然可能会一直中断

/(ㄒoㄒ)/~~

等待数据都上传完成后就可以写邮件告诉GEO数据上传完成了。邮件内容可以写成如下格式(仅供参考^_^)

Dear sir,

We had finished the raw data uploading.Please check according to the following information:

GEOaccount;你的GEO用户名

Path of the directory deposited;(存放数据的路径,例如/fasp/12345)

Public release date;例如2017/2/21(根据情况填写数据需要公开的日期)

Our data files were named as follows:
GX2_1.clean.fq.gz
GX2_2.clean.fq.gz
GX3_1.clean.fq.gz
GX3_2.clean.fq.gz
GX4_1.clean.fq.gz
GX4_2.clean.fq.gz
GX5_1.clean.fq.gz
GX5_2.clean.fq.gz
GX6_1.clean.fq.gz
GX6_2.clean.fq.gz

Our processed data files were named as follows:

GX2.txt,GX3.txt,GX4.txt,GX5.txt,GX6.txt

And METADATA TEMPLATE was named as: seq_template_v2.1.xls

最后,就大功告成啦,接下来两天内应该会收到邮件,如果上传成功就会给你GEO的登录号,不然也会告诉你哪里有错误,需要重新修改。


推荐阅读

    【本文标签】:数据上传 转录组测序
    【责任编辑】:欧易生物版权所有:https://www.oebiotech.com转载请注明出处

    欧易生物

    技术热线:021-34781616 咨询热线:4006-4008-26

    上海市闵行区新骏环路138号5幢3层
    service@oebiotech.com
    欧易生物
    欧易生物微信公众号
    沪ICP备-050455 网站地图  Copyright © 2016 上海欧易生物医学科技有限公司 保留所有权利