RNA测序是遗传学家工具箱中的一种常用工具。利用RNA测序,研究人员能够定量地检测各种生物体的基因表达,从而更好地了解细胞中正在发生的事情以及特定基因的功能。由于在药物发现、疾病诊断和基因鉴定中具有潜在作用,RNA测序的应用似乎无极限。
RNA测序的准确性
早在2014年,《Nature Biotechnology》上发表了三篇文章。它们属于RNA测序质量控制(SEQC)项目的一部分,旨在评估新一代测序平台的性能以及RNA分析的优势和局限。研究人员测试了三个常用RNA测序平台的可靠性、准确性和信息内容,希望确定平台的使用范围并寻找变化的来源。
在整个研究过程中,三个研究机构都产生了超过10亿个核苷酸的数据。他们还研究了30个不同的RNA测序实验室所使用的技术以及数百名研究人员使用的生化方法。总的来说,他们认为RNA的提取和分析可以跨机构圆满完成,即使样本已严重降解,但是遗传数据仍然可靠。
这些结果让研究机构以及医生患者放心,RNA测序是准确且可靠的。一项研究的负责人、梅奥诊所的E. Aubrey Thompson评论道:“患者的护理决策似乎受到基因组数据的影响,而这些数据来源于患者样本的RNA和DNA测序。如今我们知道了这些分析可在多大程度上依赖某个实验室。”
生物实验的重复性危机
如今,我们正处于所谓的重复性危机中,越来越多的研究变得难以重复,甚至不可能重复。据估计,单单就美国而言,每年花在无法重复的生物研究上的费用高达280亿美元。除了经济成本之外,不可重复的研究还造成药物开发的延误,阻碍疾病疗法的开发。
在设计实验和决定使用哪种技术时,重复性仍然是人们主要考虑的因素。可靠的方法通常是许多人的首选,比如RNA测序。然而,以色列特拉维夫大学的研究人员开展的荟萃分析表明,RNA测序的数据分析过程中存在技术偏倚,可能造成数据的错误解释和大量错误结果1。
RNA测序无法重复?
在分析了35个公开的RNA测序数据集之后,研究人员注意到某些基因反复呈现基因表达的变化。这些数据来自近年发表的人类和小鼠研究,覆盖了多个生物过程。他们对此感到困惑,想了解这一现象背后究竟是真实的生物学现象,还是实验过程引入的人为误差。
在其中30个数据集中,研究人员发现特别长或特别短的基因往往表现出最明显的基因表达水平变化。大多数短基因编码了组成核糖体的蛋白质,而许多长基因则编码了与细胞外基质有关的蛋白质。
经过进一步的研究,他们发现这种现象源于实验的人为因素,而不是天然的生物反应。在比较相同条件下的重复样本后,他们发现这种模式是由于技术偏倚,似乎与基因的长度有关。此外,若统计分析中存在缺陷,人们往往将检测到的偏倚错误地标为细胞反应,特别是与核糖体或细胞外基质有关的反应。在许多常用的数据归一化方法中,这种偏倚并未得到校正,因此可能已包含在许多数据集中。
这种效应被称为样本特异性长度效应(sample-specific length effect),之前已在文献中提到过。许多研究人员已经意识到这一问题,但没有积极地解决它。在此次分析的数据集中,未经校正的数据比例仍然很高。
不要低估统计分析的重要性
尽管乍一看让人担忧,但结果似乎也不是那么严重。在文中,研究人员还介绍了如何克服和消除这种偏倚,从而过滤掉错误的结果,保持生物学上的相关性。将基因长度视为样本特异性的协变量,可以明显减少假阳性结果的数量。
目前还不清楚哪些因素能够淡化样本特异性的长度效应,可能还需要进一步研究。作者建议研究人员在自己的研究中注意这种偏倚,并将建议的数据归一化方法作为默认步骤,应用在RNA-seq数据分析的标准实践中。
美国北卡罗来纳大学教堂山分校的生物统计学家Michael Love表示:“这篇文章很好地证明了质量控制的重要性。”他指出,还有一些偏倚也会影响RNA测序数据的质量,比如GC含量偏倚,各个研究团队在分析过程中应始终考虑这些因素。他本人并未参与此项研究。
这项研究强调称,所有技术都不是100%可靠的,因为偏倚的可能性始终存在。随着各个研究领域的重复性危机浮出水面并获得关注,这项工作强化了准确开展统计分析的必要性。