深圳国家基因库:一部四万年时长的“高清电影”

自去年6月17日揭牌以来,备受舆论关注。张勇向记者介绍说,截至目前,国家基因库已经收集了13PB(100万GB)的生物数据,包含基因组、转录组、蛋白质组、代谢组及表型的数据,同时也积累了约四十万份生物样本。预计基因库最终将达到EB(10亿GB)级别的数据容量。


    深圳国家基因库,由深圳华大基因研究院负责组建,是我国第一个国家级综合基因库。它的组建,可以更有效地保护、开发和利用中国宝贵的遗传资源,促进中国生物产业发展和维护国家生物信息安全,增强中国主动抢占生物技术领域制高点的能力。


    和国际上已有的基因库相比,深圳国家基因库的特点是既有“湿库”也有“干库”:前者将把千万种实体的动植物、微生物和人类组织细胞等资源和样本纳入网络;后者将汇集巨量的核酸、基因表达、蛋白、表型等多类数据信息,成为“大数据”生物学时代研究生物生长发育、疾病、衰老、死亡以及向产业化推广的利器。

索取lncRNA芯片的详细资料


    我国不断创新发展的信息科技则为国家基因库的未来发展提供了新的空间。随着我国超级计算机技术的成熟与发展,国家基因库已经开始着手将BT(生物技术)和IT(信息技术)这两项前沿科技融合。


    “和国际上传统实验室相比,我们积累了一整套工业化、规模化的基因数据处理经验和项目运作经验,拥有近1000人的生物信息分析人员团队,这使得我们的科研方式更具规模性和成效性,在与全球其他测序机构的竞争中具备了特殊优势。”华大基因研究院新闻发言人杨碧澄介绍说。


    大数据来自高通量的基因测序技术、蛋白质谱技术等。如:利用先进的第二代DNA测序仪,华大基因能够实现同时进行上千人的基因测序,单个人的全基因组测序只需耗时15天,这和二十世纪九十年代,全球生命科学工作者花费十年才完成一个人体的全基因图谱测序形成鲜明对比。


    “如果说第一代DNA测序仪是物种时代,第二代是个体时代,第三代是细胞时代,尺度的变小,意味着速度、效率的提升和成本的降低,以及我们对于生命的理解不断深入的过程。这一切伴随着大数据的爆发,而对这些大数据的解读与应用尤为重要。”张勇说。


    为适应更庞大数据存储、处理、分析与应用的要求,深圳华大基因研究院正在和国家超算天津中心、深圳超算中心、广州超算中心等机构展开战略性合作。而下一步,将通过云计算的模式来组织存储和处理相关数据。


    展望未来,深圳国家基因库还有望带动形成千亿元规模的周边产业集群。以人体的疾病检测为例。张勇介绍,目前,世界已知的单基因病有6700多种,其中只有1000多种单基因病的发病机制比较明确,能指导临床检测和治疗。国家基因库通过大量的样本与临床知识积累,通过基因数据的采集与挖掘,为单基因病的临床诊断提供基础数据支撑,将大大加速剩余5000多种单基因病发病机制的发现。