在基因组数据爆炸中科学家发现了大量的错误

华盛顿州立大学的研究人员在公开获得的基因组数据中发现了大量错误，因为他们对蛋白质序列进行了大规模分析。

这项研究发表在世界上被引用最多的微生物学期刊“微生物学前沿 ”杂志上，可能对未来的基因组研究产生重要影响。

跨学科的科学家小组最初开始寻找Proteobacteria生存所需蛋白质最少的证据。他们的数据集由近900万个蛋白质序列组成，这些蛋白质序列通过来自2,300多个细菌基因组的相似性聚类。

基因组是细胞或生物体中的完整基因集，基因提供构建构成所有生物体的蛋白质的指令。

当他们在大量数据集中搜索被认为属于Proteobacteria最小基因组的四种特定蛋白质时，他们发现他们所寻找的四种蛋白质中只有一种被所有细菌共享。他们还在公开数据中发现了大量错误。

“我们发现，对于每种蛋白质，它们的基因注释都存在错误，导致序列截短或缺失，”电气工程与计算机科学学院教授Shira Broschat说。

新一代测序技术所产生的大量数据使得WSU团队发现的注释错误特别成问题，该论文的第一作者，WSU计算机科学博士毕业生Svetlana Lockwood说。

“单个注释错误可以迅速传播，因为科学家在对新基因组进行测序时会依据先前的注释，”她说。

虽然在2003年将人类基因组测序作为人类基因组计划的一部分需要13年和27亿美元，但同样的工作现在可以在一小时内以不到1500美元的价格完成。

“就在过去两年中，研究人员测序的细菌基因组数量是之前二十年的两倍，”Broschat说。

虽然这不是第一篇注意到注释错误存在的论文，但WSU团队的工作列出并解释了当前在基因组测序数据中发现的各种注释错误。

“随着我们发现错误注释的规模，研究人员必须重新评估公共可用基因组数据在大数据应用中的可靠性，”Broschat说。

根据兽医微生物学和病理学系教授Kelly Brayton的说法，这些错误是由于人类和技术因素造成的。由于不完善的DNA测序技术经常发生错误，该技术提供了DNA片段中碱基对的信息。它们也可能由于混淆和缺乏对蛋白质的了解而发生。

该团队在PNNL校园中使用最先进的软件和高性能计算集群来处理他们的数据集，这是迄今为止分析的最大数据集。这些数据来自国家生物技术信息中心提供的数据库，该数据库是美国国家医学图书馆的一部分，是世界上最大的医学图书馆，该项目由国家科学基金会资助。

Broschat和Brayton现在正在开发一种工具来查找生物数据集中的注释错误，这对于从事生命科学工作的人来说非常有用。