测序

基因测序是指分析特定DNA片段的碱基序列,即腺嘌呤、胸腺嘧啶、胞嘧啶与鸟嘌呤的排列方式。

基因家谱

家谱是人们追思先祖、铭记血缘关系的最重要的工具。家谱中记录的是相同姓氏的家族成员。人们的姓氏大多继承自父亲,而Y 染色体是严格的父子相传的基因组片段。所以姓氏与Y 染色体的遗传应该是平行的,有共同姓氏的男性可能有相同或相近的Y 染色体类型。然而,多起源、改姓、非亲生、从母姓等社会因素弱化了某些姓氏与Y 染色体的关联,此时基因研究可为厘清父系血缘提供线索。Y 染色体上稳定的SNP 点突变可以永远在父系后代中流传,可以构建可靠的父系基因谱系;而其上突变较快的STR 微卫星位点又可以用以估算时间。因此,Y 染色体可用以研究很多姓氏宗族的历史,甚至千百年前的历史疑案。重建姓氏、家谱与Y 染色体的关系必将成为历史人类学研究的重要内容。

宗族姓氏与Y染色体的父系遗传

父系遗传关系,是家谱中记载的主要遗传关系。虽然姓氏普遍遵从父系遗传,但也并不完全。就中国社会情况而言,收养、继养、入赘,甚至直接改姓,都会影响姓氏与父系血统的关联程度。很多影响父系遗传关系的情况并不被忠实记录在家谱中。另一方面,中国大多数姓氏起源于春秋时期的各个封国,封国内的百姓都以国为姓的时候,这些同国百姓的血统可能本来就不一致,这就造成了很多比较大的姓氏内部遗传结构的不一致,亦即同姓不一定同源。

与姓氏不同,人类的Y染色体直接代表着父系遗传,永远是父子相传的,不会受到任何社会文化和自然因素的影响。人体内有23对染色体,其中22对常染色体中,每一对染色体都有一条来自父系,一条来自母系,两条染色体在传代过程中对应的部分会发生交换,从而造成混血效应,这就是遗传学上说的重组。另一对性染色体包括X染色体和Y染色体。在女性体内,X染色体也是成对的,分别来自父母双方,所以也不能避免混血的影响。而在男性体内,却只有一条来自母亲的X染色体和一条来自父亲的Y染色体,也就是说男性的Y染色体只能来源于父亲,所以人体性染色体的遗传方式决定了Y染色体遵从严格的父系遗传。

Y染色体与X染色体之间是否会发生重组呢?要回答这个问题,必须先了解Y染色体的结构。人类Y染色体DNA大约包含六千万个碱基对,其中染色体两端的5%为拟常染色体区域,在传代过程中与X染色体相应区段会发生重组,而主干部分的95%为非重组区域,不与任何染色体发生重组。所以,Y染色体主干部分的此特性,保证了子代能完整地继承父代的Y染色体主干而不受混血影响,保证了Y染色体主干的严格父系遗传。这是一条不能篡改的基因家谱。

人类Y染色体模式以及姓氏和Y染色体的共同父系传递

所以,当佚失的或者不忠实记载的姓氏家谱已经无法作为追寻祖先的可靠依据的时候,以现代的分子生物学技术为基础,研究Y染色体主干的类型,是直接追溯宗族姓氏成员之间的父系关系的最佳方法,是验证祖先与后代的父系关联,补全家谱的唯一手段。例如,在曹操的后人中分析Y染色体特征,我们就可以了解曹操本人的Y染色体特征,也可以了解现代曹氏后人之间的亲缘远近。实际上,在一段有较可信历史记录的时期内,整个家族的姓氏与父系遗传的关联是可以保证的,所以家族的姓氏往往与固定的Y染色体类型共同传递,紧密关联。

稳定中变化着的Y染色体

在一代一代的父子相承的传递过程中,Y染色体也在慢慢地积累着变化。正是因为遗传突变的积累,使得人类父系遗传体系中,距离越远的个体的Y染色体差异也越大。Y染色体上的突变形成的个体差异主要有两大类,单核苷酸多态(SNP)和短串联重复(STR)。DNA分子由四种碱基(A、T、C、G)按照一定的顺序连接而成,SNP是仅仅一个位置上的碱基类型变化。Y染色体上的同一个SNP在人群中一般只有两种类型。STR则是在染色体的特定区段,由几个碱基组成一个单位重复出现,不同的Y染色体上的同一个STR位置往往有不同的重复拷贝数。SNP和STR由于突变性质和突变速度不同,在分析中有着不同的用途。

短串联重复(STR)和单核苷酸多态(SNP)的两种突变类型区别

要确立父系遗传体系,最重要的前提是祖先的突变可以稳定的保留在后代的Y染色体上。SNP突变因为突变速率极低,可以做到在后代中永久地保留,后代只能在祖先的突变基础上积累新的突变,而不会丢失祖先的突变特征。通过比较人类与黑猩猩的Y染色体差异,以及大家系中的Y染色体的差异程度,Y染色体上的SNP突变的速率被计算了出来。每出生一个男子,一个染色体位置上发生SNP突变的概率为大约三千万分之一。实际上由于Y常染色质区的保守性,以及人类历史上大量男子都没有男性后代保留至今的事实,实际的群体中突变率应该低几个数量级。而我们通常研究的是Y染色体非重组区大约三千万个碱基对的常染色质区,按照每个碱基对三千万分之一的突变率,这个区段内每个男子平均都会有一个新的突变。这个新的突变随机地出现在Y常染区的任意一个点上,如果这个突变了的点上再发生一次突变,那么这个突变就在后代中丢失了,我们就无法通过后代确定祖先的Y染色体突变谱。但是,同一个点上先后发生两次突变的概率,按照概率计算方法就是三千万分之一的平方,也就是九百万亿分之一,相对于人类自古以来的人口,这个概率就近似于零。所以我们可以说,绝大多数情况下,祖先的Y染色体上出现的SNP突变特征在后代中能够找到,而后代只能在祖先Y染色体突变谱的基础上增加新的突变。

由多个SNP突变构成的一种突变系列组合被称为一种单倍型。例如下图中就有5个SNP突变,陆续构成5种单倍型。其中1型是其他单倍型的祖先型,其他单倍型都是后代型。祖先型与所有后代型合称为一个单倍群。一个家族的所有Y染色体理论上都属于一个单倍群,因为其中所有的男性都应该来自同一个祖先。

Y染色体突变谱可以构成单倍型的原理

当然,单倍群的概念可大可小。大而言之,全世界的Y染色体都属于一种单倍群,都来自20多万年前的一个东非晚期智人男子。进而,全世界又可以分为20种主干单倍群,编号从A到T。最古老的A和B单倍群都没有走出非洲,C和D单倍群最早来到了澳洲和亚洲,E单倍群来到了亚洲又回到非洲,F单倍群衍生出GHIJ等单倍群在西方形成欧罗巴人种,衍生出K单倍群并形成NOPQ等单倍群在东方形成蒙古人种,其中O单倍群成为了中国人的主流,而Q单倍群成为美洲印第安人的主流。所以,Y染色体的谱系构建出了全人类的一部大家谱。

Y染色体上的时钟

利用Y染色体上稳定遗传的SNP,我们可以构建出个体或家族之间明确的遗传渊源。而且,既然SNP有稳定的突变速率,当我们统计出不同人的Y染色体之间的突变差异数,将差异数除以速率,经过换算就可以估算两条Y染色体之间的分化时间,这就是计量进化时间的“分子钟”。但是,由于SNP的突变速率实在太低,个体之间的突变差异散布在Y染色体的各处,只能使用Y染色体全测序来寻找,而目前全测序的成本太高,尚不能普遍应用。这一缺点被Y染色体上的另一遗传标记STR弥补了。

一些STR位点分布在Y染色体上的固定位置,每一个STR位点内部的重复单位在传代过程中改变着拷贝数,这种改变也是有着固定的速率的。而STR突变速率要比SNP大得多,在家系中每出生一个男子每个STR位点突变概率大约是三百分之一。一般的Y染色体分析中,我们调查15个STR位点,其总体突变率大约是二十分之一。而Y染色体上大约有150个4~6个核苷酸重复的STR,如果分析全部的STR位点,那么总突变率大约是二分之一。这一高突变率就非常有利于估算不同Y染色体之间的分化时间,因此STR位点成为了Y染色体上的“时钟”。

STR的突变是双向性的,拷贝数可以增加或减少。有同一祖先的不同个体的同一STR位点,可能有不同突变方向和重复数。同SNP一样,数个不同位置上的STR也可以构成单倍型。在群体中分析STR单倍型的多样性程度可以计算群体的共祖时间。假设一个STR每次突变都只增加或者减少一个重复单位,也就是一步(single-step)突变模型,且群体有着恒定的有效群体大小,就可由公式t=-Ne×ln(1-V/Ne×μ)推算出某特定Y-SNP发生的大致时间。公式中,Ne是有效群体大小,μ是突变率,ln是自然对数,V是观察到的群体中的某一STR数值的方差,计算得到的t是经历的世代数,再乘以每一世代的年数即可得到时间。

以Y染色体上STR的总突变率二分之一来估算,几乎每个人可以构成独特的单倍型。然而,由于突变是一步一步发生的,父系亲缘关系越近的个体之间的STR单倍型越相似,一个纯粹由父系传递的姓氏应有相近的STR单倍型。但是,由于STR的突变速率的不稳定性,加上回复突变的影响,STR计算时间的误差还是极大。所以,准确地分析Y染色体单倍群的分化时间,还是要用全Y染色体SNP的突变谱,在这方面,复旦大学的人类学实验室的研究走在了世界最前沿。理论上,有了足够数量的Y染色体SNP和STR后,通过调查一个姓氏宗族内的男性的单倍型,就能够很清楚的构建其家族Y染色体的谱系树,乃至编写一部清晰的基因家谱。

Y染色体研究姓氏家谱的实践

多项研究证实各国的姓氏传承是相对稳定的。利用Y染色体来检测历史上的家族关系疑案,有多项成功的案例,较有意思的是美国第三任总统托马斯•杰斐逊因被怀疑与女仆有过孩子而遭起诉,通过比对杰斐逊的叔叔、女仆的两个儿子的男性后代Y染色体多态位点,最终结论杰斐逊是女仆的最小儿子的生父。Y染色体不但能够解决数百年的疑案,还能追溯到数千年前的历史并证实了圣经中的传说。圣经中记载,犹太人中的祭司是由犹太教的第一祭司长Aaron开始按血缘代代相传,而身为德系犹太人祭司的Skorecki发现他与一个西班牙系犹太人祭司的体质特征差别很大,为此他和研究Y染色体的专家Hammer教授合作,以Y染色体上多态位点YAP和DYS19来分析犹太教祭司的单倍型,结果显示,德系和西班牙系的犹太祭司与非祭司的犹太人相比有较近的亲缘关系。也就是说,祭司们可跨越3 300年追溯到一个共同的父系祖先。Y染色体的分析与圣经故事的完美契合着实让人吃惊。

对于中国的姓氏与Y染色体的相关性,也有许多研究见诸报道。多项研究对同一地区内居住的李姓、王姓和张姓等无关男性个体Y染色体遗传多态性分析表明,此三姓氏无关男性个体Y染色体的遗传多态性丰富,与不同姓的汉族无关男性群体遗传多样性比较差异不显著。这说明,汉族的大姓内部基本没有同源性,相关Y染色体研究只能在明确的姓氏宗族中开展。宗族的谱系整理只能通过Y染色体进行,而不能仅凭同姓或同祖居地推断。

汉族大姓氏内部的不一致,有很多可能的原因。在理想的情形下,每种姓氏都有一个唯一来源,即该姓氏的奠基者只是一人或是有相同Y染色体单倍型的多人,在姓氏传承过程中没有发生过干扰(改姓、非亲生等),此时一种姓氏可以被一种SNP和STR的单倍型来鉴定。但是中国的大多数姓氏起源并不单一。周朝的姓氏大多是以封国为氏,后改为姓。比如曹国的王室后代姓曹,其仆役后人也可以姓曹,甚至整个封国内所有百姓后代都可以姓曹。而曹国内的百姓来源本来就是多样的,有着各种各样的Y染色体,所以中国的姓氏总体上内部父系血缘不一致。

另外,犹如Y染色体STR单倍型随时间而演化出越来越多的类型一样,姓氏在传承过程中经历的时间越长,其受到的社会干扰越多,显示出的差异也越大。在中国,姓氏有近5 000年的历史,来源复杂且存在避祸改姓、避讳改姓、过继改姓、皇帝赐姓与贬姓、少数民族用汉姓等等问题。举个简单的例子,中国的100个大姓中有53个据称改自于姬姓。如此,研究中国的姓氏难度极大,但是中国又有编修家谱的传统,Y染色体的基因家谱研究就对厘清这纷繁复杂的血缘关系有很大帮助。

家谱是一种以表谱形式记载某一同宗共祖以血缘关系为主体的家族世系繁衍兼及其他方面情况的特殊图书体裁。也就是说,入谱者必须是同宗共祖,即使同姓,若不同祖,也不能修入一部家谱之中。在中国的广大农村,人们一直有着同姓聚居的习俗,加上婚姻半径较小,由家谱确定的某一地域内同姓人群,可以认为是有相同或相近Y染色体的父系隔离群体,这也就为分子人类学分析Y染色体DNA多样性提供了极好的研究模型。

然而,某些家谱里有假托、借抄的内容,因此对于家谱资料的使用必须审慎。但是,在Y染色体检验这种无可辩驳的科学证据面前,任何家谱都可以得到检验和修正。姓氏、家谱和Y染色体的关联研究必然成为社会大众编制家谱的新利器,成为研究中国人起源与演变的重要方式,开创历史人类学研究的新篇章。

作者:李 辉(复旦大学现代人类学教育部重点实验室)

 

怎样对一个人的基因组进行测序?

这个TED的科普视频形象地告诉大家科学家们是如何对基因组进行测序的。


《如何对人类基因组进行测序》(马克.J.基尔)

你大概已经听说过什么是人类基因组——它是巨量的基因总和,并且在你身体中每一个细胞里都有一份。你很可能也知道我们已经对人类基因组进行了测序,但这到底是什么意思?怎样对一个人的基因组进行测序?

先讲点背景知识。

什么是基因组?

简单来说,基因组,就是全部的基因再加上点别的物质共同组成的一个有机体。基因由DNA组成,而DNA是成对的长链,由A(腺嘌呤),T(胸腺嘧啶),C(胞嘧啶)和G(鸟嘌呤)组成。

你的基因组就像是一组代码,你的细胞需要通过它来知道自己在什么时候该做些什么。细胞交织在一起成为了组织,不同的组织相互协调构成了器官,而器官协同工作形成了生命体,也就是你!因此你之所以是你,很大程度上源自于你的基因组。

第一个人类基因组测序结果的真正完成时间是2003年。当时非常艰难,它花了15年才完成(视频中是20年,这其实是有争议的),期间有来自全世界几十个国家和地区几百位科学家的辛苦付出,而且费用超过30亿美元。但现在却只需要数天时间,费用不过6000人民币。我们已经可以展望在不久的将来,只要几分钟时间,就能搞清组成你这个人的基因组的字母排列,费用甚至还不及一份较好的生日礼物贵。

但这要怎么做呢?让我来解释一下,弄清你基因组中这几十亿个字母的排列顺序,是基因测序的基本目标。基因组既很大很大,又很小很小。DNA中的每个字母,就是A、T、C、G,宽度只有8-10个原子。

而它们在细胞中全部缠绕在一起成为一团,就像一团毛线。

所以要从这么小的地方获取所有的这些DNA信息,科学家首先要把DNA的长链打断为许多短链。然后把每一段分离出来单独测序。

那么,到底怎么测?你这样想一下或许会更容易理解:当DNA上彼此之间的序列刚好互补的话,这一条DNA就会和其它DNA交合:A配T,T配A,G配C,C配G。

那么,如果两片DNA的序列刚好能够互补,它们就会结合在一起。但由于基因片段非常小,我们需要某些办法来放大这些信号,这样才能检测到每个字母是什么。科学家最常用的方法,是用酶来把原来的基因片段多合成出几千份(以此将原来的信号放大几千几万倍)。这样我们就能够采用一些技术手段进行检测了。

经过复制之后,接下来我们要做的就是把全部的这些序列信息都读取出来。为了做到这一点,我们需要再制作一批特别的字母,每种都有特殊的颜色。

把这些带颜色标记的字母和酶混合在一起后,再加入到我们试图阅读的这个基因组里。这样,在化学反应的作用下,基因组上的每个位点,都有这样一个特殊字母和对应的字母结合,从而形成一段双链DNA,而且在新合成的DNA上每个字母上都带有颜色标记。

然后,科学家们对每一小段基因组进行照相,之后,我们就可以看到一些列颜色点的排列顺序,接着,我们就可以通过这些色点读出序列了。最后,这样几百万(甚至几亿)条的DNA片段会由计算机程序拼接在一起,我们就能得到这整个基因组的完整序列。

虽然这并非是获取DNA字母顺序的唯一方法,但却是目前最常用的方法。

当然,仅仅只是读取基因组中的字母还远远不够。这就好比你在翻一本书,你虽然能读出书里的每一个字母,但却不理解书里说了什么,这是因为书中所用的语言你并不懂。

所以,测序完成之后,下一步重要的工作就是解码出这些序列到底是什么意思。搞明白为什么你的基因组会和我的不一样。阐释这些基因组中各个基因元件的功能,是当下科学家们正在进行的工作,虽然并不是每一处不同之处都意义重大,但这些不同之处组合(叠加)在一起,就决定了人与人之间的不同。

它决定了我们的外貌看起来怎么样,我们喜欢什么,我们如何反应,甚至包括我们患上某种疾病的可能性,以及对各类药物的不同反应。

所以,更好地认识我们各自基因组上的差别之处意义重大。同时,在认识到这些差别之后,也必将会改变我们的许多传统观念:不仅包括医生应当如何治疗病人,也包括我们彼此之间该如何更好相待。

作者:黄树嘉    遗传学博士 | 公众号: 碱基矿工

 

(以下内容需获授权方可浏览)

基因检测报告