垃圾DNA?
探索非编码基因的遗传密码,
解读基因组中“暗物质”存在的意义!
数十年来,我们基因组里有98%的DNA因为没有编码蛋白质而被称为“垃圾”。直到最近,这些垃圾区域重要且显著的功能才开始为人们所了解。
从罕见的遗传疾病到唐氏综合征,从常见的病毒感染到衰老过程——还没算上六个指头的猫(以及人类中的同症状者)——由基因组中暗物质导致的影响是常见、多样和本质性的。
科学家们在这个备受争议的领域中快速增长的知识已经提供了治疗失明的成功疗法,并挽救了被DNA指纹宣判了死刑的无辜的人,而且很可能带来对包括肥胖在内的很多医学疾病的治疗方法的革命。
在内莎?凯里,也是畅销书《遗传的革命》的作者看来,这是一本面对大众读者的一个可能会奠定人体复杂性观念的图书。
《垃圾DNA》对非编码基因作了深入介绍。展示了科学家们在学术领域逐渐发现的证据,提示这些所谓的“垃圾DNA”的变异和调节与一些难治性疾病有关。并用不可辩驳的证据证明了“垃圾DNA”在基因的表达调控中起着重要且不可预料的作用,其作用覆盖从单个基因的微调到整个染色体的关闭。这些功能迫使科学家们重新审视关于“基因”的定义。
《垃圾DNA》是内莎?凯里续《遗传的革命》出版之后又一部具有高学术性的相关遗传学经典力作。作者以令人信服的笔触为读者全面介绍了“垃圾DNA”的涵义,及其与遗传性疾病、病毒感染、哺乳动物性别决定和生命进化的关系。阅读本书,我们可以紧跟科学家的脚步迅速进入“垃圾DNA”的领域。而这个具有快速发展的且颇受争议的领域,还有广袤的未知在等着我们去开发与探索。
作者序
其实写一本关于垃圾DNA的书还是有些困难的,因为它的含义一直都在不断地演变。有部分原因是新的数据会不停地改变我们的旧有观念,结果就是,只要一个垃圾DNA被证明事实上具有一定的功能,有些科学家就会说(在逻辑上完全正确)它不再是垃圾。但使用这种方法有可能掩盖掉这些年来我们对基因组的理解产生了何等翻天覆地变化的过程。
与其花时间在这里纠缠不清,我决定采取一个快刀斩乱麻的方法,使用一个简单粗暴的定义。把任何不能编码蛋白的序列都定义为垃圾,如同它在过去最初的定义一般(20世纪下半叶)。纯粹主义者会尖叫抗议,但就这样决定了。问3个不同的科学家什么是“垃圾”DNA,我们可能会得到4个不同的答案。因此,在开始的时候就简单一点利大于弊。
同样,我使用“基因”这个词来描述编码蛋白的那些DNA序列。这个定义会贯穿本书的始终。
在我的第一本书《遗传的革命》出版后,我意识到不同的读者对基因名称的需求差异很大。有些人喜欢知道我们正在讨论的是哪个基因,但对于其他读者而言,这或许会干扰阅读的流畅性。所以这次,我只在绝对必要的情况下才使用具体的基因名称。
对基因组暗物质的介绍
想象一下现在你手里有一个戏剧、一部电影、一部电视节目的剧本。当然,完全可能有人仅仅把剧本当成一本书来看。但是,如果它被用来产生某些东西的时候,它会变得更有力量。在被大声朗读出来,甚至被表演出来时,它就不再仅是页面上的一串字符而已了。
DNA就是如此,它是最杰出的剧本。仅使用4个简单的字母,它就携带了生命的所有编码,从细菌到大象、从啤酒酵母到蓝鲸。但试管中的DNA是很无聊的,它完全没有用处。而细胞或动物开始用它进行生产的时候,DNA就会变得令人兴奋。DNA被作为制造蛋白的编码,这些蛋白对呼吸、进食、排泄废物、生殖和所有其他生命特有的活动都至关重要。
蛋白的功能是如此重要,以至于20世纪的科学家使用它们来界定基因的含义。基因就是能够编码蛋白的DNA序列。
让我们来怀念一下历史上最伟大的剧作家威廉姆.莎士比亚(William Shakespeare)。我们可能需要一段时间才能理解莎士比亚的著作,因为英语从他去世的那个世纪起已发生了不小的改变。但即使如此,我们仍然相信,诗人仅书写了他需要演员说的那些话。
例如,莎士比亚不会像下面这么写剧本:
事实上,他只写了划线部分的单词:
就是“A rose by any other name would smell as sweet(即使给玫瑰换个称谓,它依然芳香如故)”。
但如果看看我们自己的DNA剧本,它并不像莎士比亚那些划了线的词语那么清晰和紧凑。相反,每个编码蛋白的区域就像是漂浮在“废话海洋”上的一个词。
多年来,科学家们并不能解释为什么那么多的DNA不编码蛋白。这些非编码的部分被误会成“垃圾DNA”。但渐渐的,这个看法已经被一大堆理由逼迫得站不住脚了。
也许,转变该观点最根本的原因是源于我们细胞中垃圾DNA那惊人的总量。其中一个最大的冲击来自2001年人类基因组测序完成的时候,人们发现人类细胞中98%以上的DNA被划入了垃圾的行列。它不编码任何蛋白。上面使用的莎士比亚的比喻实际上是一个精简了的模型。在基因组里,乱七八糟的文字的比例约为前面提到的乱序剧本的4倍。每一个有意义的字母都对应着超过50个字母的垃圾文字。
还有一个类似的比喻。请想象下我们去参观一个汽车厂,这家汽车厂也许像法拉利那么高端。如果我们看到只需要两个人就能造好一辆炫酷的红色跑车,而同时又有98个人在一旁无所事事的话一定很惊讶。这显然是荒谬的,那么为什么这在我们的基因组里是合理存在的?当然,你可以说从共同祖先进化而来的生物往往不是完美的——比如我们人类就确实不需要阑尾(本书中作者多次以阑尾为例说明人体确实存在一些无功能的器官,但此观点尚存争议,因为有研究者认为阑尾在免疫和消化方面仍具有一定的功能。)——但这次似乎不完美得有点过头了。
事实上,在我们的汽车厂里,更可能的情况应该是,由两个人组装一辆汽车,其他的98个人做着其他一切使这家企业运转的工作。融资、记帐、宣传产品、处理养老金、打扫厕所和汽车销售等,这可能是一个更好的垃圾DNA在我们基因组里工作的模式。我们可以把蛋白作为生命所需的最终物质,但如果没有垃圾DNA的话,它们永远不会被正确地生产和整合出来。确实,两人就能制造汽车,但他们不能保证公司可以出售汽车,也不能把它变成一个强大且成功的品牌。同样,如果没有汽车被生产出来,就算有98个员工在展厅拖地板和磨破嘴皮子也没有任何意义。只有每个组件各司其职的时候整个组织才能运转。而这,就是我们基因组的模式。
另一个来自基因组测序的令人震惊的事实是,使用经典的基因模型无法解释人类极其复杂的解剖结构、生理功能、智力和行为。在编码蛋白的基因的数量上,人体跟简单而微小的蠕虫几乎具有相同的数量(大约20 000个)。更值得注意的是,大部分蠕虫的基因跟人类基因可以直接等效。
当研究人员想在DNA水平上深入分析人类与其他生物到底有什么区别的时候,很明显,基因不能提供解释。事实上,遗传物质只有一个特征与复杂性相关。这个唯一的随着动物复杂性增加而增加的就是垃圾DNA区域。一个生命体越复杂,垃圾DNA所占的百分比就越高。只有现在,科学家们才真正开始关注这个有争议的观点,就是垃圾DNA可能是进化复杂性的关键。
从某个角度看,这些数据所引出的问题是很明显的。如果垃圾DNA是如此的重要,那它到底是干什么的?如果不编码蛋白,它在细胞中的作用是什么?现在人们逐渐接受了垃圾DNA其实具有多种不同功能的观点,所以对下面的叙述我们并不会感到吃惊。
它们中的一些在染色体(我们的DNA被打包成的巨大分子)中形成特殊的结构。这种垃圾DNA保护我们的DNA不被解体和受损。随着我们年龄的增长,这些区域不断缩小,最后缩小到临界程度。之后,我们的遗传物质就变得很容易遭遇潜在的灾难性的重排,从而导致细胞的死亡或癌变。其他结构类型的垃圾DNA在细胞分裂成子细胞过程中进行染色体均分时作为锚点。(“子细胞”是指由亲代细胞分裂产生的细胞。)其他的则作为绝缘结构,限制了特定区域染色体的基因表达。
但是我们很多的垃圾DNA并不仅仅具有上面提到的功能。它确实不编码蛋白质,但它却编码另外一种分子,我们称之为RNA。垃圾DNA里面有很大一类在细胞内建造工厂,来帮助蛋白质的合成。其他类型的RNA分子负责将制造蛋白质所需的原料转移到工厂里面。
另外有些垃圾DNA是来自病毒和其他微生物的遗传物质的入侵,它们已经如遗传间谍般融入了人类染色体中。这些早已死去的生物的残留物对细胞有着潜在的危险,有些在个体中,而有的甚至存在于广泛的人群中。哺乳动物细胞已进化出多种机制来使这些病毒元件保持沉默,但有的时候这些系统可以被打破。当出现这种问题的时候,它们所产生的影响可以是相对良性的,比如特定种系小鼠毛色的改变,也可以是很严重的,比如增加罹患癌症的风险。
就在前几年,人们认识到垃圾DNA的一个主要作用其实是调节基因的表达。有时候,它在个体上会有巨大的、明显的效果。比如,一个垃圾DNA就可以决定雌性动物能否保持正确的基因表达模式。它的作用也可以是在群体中的,一个最常见的例子是虎斑猫颜色特征的控制。在极端的例子中,该机制也能解释为什么有同样遗传性疾病的同卵双胞胎女性会出现截然不同的症状。在某些情况下,情况可以极端到双胞胎中的一个罹患了严重危及生命的疾病,而另一个则是完全健康的。
成千上万的垃圾DNA片段被认为参与了调控基因表达的网络。它们就像是遗传剧本的舞台导演一样,只是其指导对象的复杂性是我们在剧院里无法想象的。它绝对不是“出去,被熊追赶”那么简单。而应该是类似于“如果在温哥华和珀斯的暴风雨中表演《哈姆雷特》,就应该重读《麦克白》这一行的第四音节。除非有个业余演员在蒙巴萨表演《理查三世》而且基多在下雨。”
研究人员刚刚才开始揭开垃圾DNA庞大网络中的奥秘和关联的一角。这个领域仍极具争议。在极端的情况下,有科学家声称有些武断的说法严重缺乏实验证据的支持。其他有些人则觉得有整整一代科学家(甚至更多)被困在一个过时的模型中而无法看到或者理解这个新领域。
有部分原因是,我们可以用来探索垃圾DNA功能的手段还比较落后。这有时会让研究人员很难使用实验来检验他们的假设。确实,我们对该领域的研究时间还相对较短。但有时候,我们可以从实验室的板凳跟机器旁退出来,去草坪转转。实验每天都在我们身边发生,因为自然和进化已经使用了几十亿年的时间来尝试各种变化。即使仅仅在我们这个物种出现和繁衍的时间段,也已经有足够的时间来进行大规模的实验测试。因此,我们将在本书中利用人类遗传学的火炬来探索黑暗。
可以有许多方法来开始我们的探究基因组暗物质之旅,这里,让我们用一个有些奇怪但不容置疑的事实来开始。一些遗传病是由垃圾DNA的突变引起的,这应该是我们进入隐藏的基因组宇宙的最好起点。