简介

Gene Expression Omnibus(GEO)数据库是一个由美国国立生物技术信息中心(NCBI)于2000年创建并维护的高通量基因表达数据库。

主要特点

国际公共存储库:GEO是一个全球性的公共存储库,供研究者上传和共享数据。

高通量数据收录:收录了包括微阵列芯片、二代测序等在内的高通量基因组数据。

免费下载:GEO数据库提供的数据可以免费下载,便于研究者使用。

数据类型多样:包括基因芯片数据和高通量测序数据,涵盖RNA、甲基化和SNP芯片数据等。

多物种和条件覆盖:数据类型涵盖了多种生物物种、组织和生理条件下的基因表达数据。

数据组织结构:分为Platforms(GPL)、Samples(GSM)、Series(GSE)和DataSets(GDS)四个基本实体类型。

Platforms:指高通量实验检测所用的工具,如芯片或测序平台。

Samples:指具体的样本数据。

Series:由多个样本构成的一个完整的研究数据集。

DataSets:GEO工作人员根据用户提交的数据整理后的数据集。

原始数据与处理数据:高通量测序的原始数据存储在SRA(Sequence Read Archive),处理后的数据存储在GEO中。

结论

GEO数据库作为一个高通量基因表达数据库,为全球研究者提供了一个宝贵的资源,用于存储、共享和分析基因表达数据。它的多物种、多条件下的数据覆盖,以及详细的数据组织结构,使得GEO成为生物医学研究领域中不可或缺的工具。随着高通量测序技术的发展,GEO数据库将继续扩展其数据范围,为科学研究提供支持。