基因家譜的研究動態(tài)
譜牒又稱家譜、 家乘、 宗譜、 族譜和世譜,是家族的歷史書。譜牒、 方志和正史是我國史學(xué)研究的三大基石,故有“家乘猶國史” 的美譽。譜牒反映了中國宗法血緣文化,在我國有著悠久的歷史。
遺傳學(xué)究其本質(zhì)是一門歷史科學(xué)。遺傳突變世代相傳,并因為隨機性或者選擇作用在群體和物種間/內(nèi)積累下來。人體內(nèi)有23對染色體,其中22對常染色體中,每一對染色體都有一條來自于父親,一條來自于母親,兩條染色體在傳代過程中會發(fā)生部分重組。另一對性染色體,包括X染色體和Y染色體。在女性體內(nèi),X染色體成對出現(xiàn),也會發(fā)生重組現(xiàn)象。但是在男性體內(nèi),X染色體來自母親,Y染色體只能來自父親。因此,Y染色體具有父子相傳的特點,嚴(yán)格遵從父系遺傳的方式,傳遞過程中不受社會文化和自然因素的影響。
基因家譜研究是遺傳學(xué)在傳統(tǒng)譜牒學(xué)上的應(yīng)用,它試圖通過DNA檢測,特別是 Y染色體標(biāo)記體系,弄清家族內(nèi)部個體間的遺傳關(guān)系。基因家譜研究極大地彌補了傳統(tǒng)譜牒學(xué)的不足。在我國,家族、宗族都是指父系制度的同姓親族,是以婚姻和血緣關(guān)系結(jié)合成的社會單位,因此,相比其他遺傳標(biāo)記體系,Y染色體是研究基因家譜的絕佳材料。Y染色體上有著充足的拓?fù)鋵W(xué)關(guān)系明晰的遺傳標(biāo)記,可以滿足父系遺傳譜系的構(gòu)建; 另外,Y染色體上有著穩(wěn)定的“分子鐘”,可以估算不同Y染色體間的分化時間。因此,當(dāng)遺失的或者不忠實記載的譜牒無法作為追尋祖先的可靠依據(jù)時,以現(xiàn)代分子生物為基礎(chǔ)的基因家譜研究是直接追溯宗族成員之間親緣關(guān)系的最佳方法,是驗證祖先與后代的父系關(guān)聯(lián),補全和重構(gòu)家族譜牒的唯一手段。
對于人類根源的探索緣于人類本能的好奇心。20世紀(jì)末期,來自數(shù)個國家的數(shù)百萬人開始熱衷于尋找自己的祖先來源。這一狂熱的愛好催生了應(yīng)用科學(xué)一個新的分支———基因家譜學(xué),在該學(xué)科中,DNA分子起到了承載家族歷史的作用。
首個基因家譜研究實際上是一次法醫(yī)學(xué)調(diào)查。這些90年代早期的案例中,最有名的是羅曼諾夫沙皇家族和納粹罪犯約瑟夫·門格勒的遺骸鑒定。通過各種親緣關(guān)系的比較,前者確定出土于葉卡捷琳堡的一座墓葬中的9塊遺骨來自俄羅斯末代沙皇———尼古拉二世及其家族成員; 后者證明1985年出土于巴西的遺骸屬于約瑟夫·門格勒本人。
基因家譜學(xué)真正的萌芽是在20世紀(jì)90年代末,主要標(biāo)志為一系列高質(zhì)量文獻(xiàn)的 發(fā)表。從文獻(xiàn)發(fā)表的先后順序和學(xué)術(shù)意義來看,排在首位的是1997年Scorecki 等關(guān)于猶太祭祀Y染色體的研究。《圣經(jīng)》中記載猶太人中的祭司是由猶太教的第一祭司長Aaron開始按血緣代代相傳,作者們發(fā)現(xiàn)德系和西班牙系猶太祭司們與非祭司的猶太人相比,有較近的親緣關(guān)系,也就是說,祭司們可跨越3300年追溯到一個共同的父系祖先。Y染色體的分析與《圣經(jīng)》故事的完美契合著實讓人吃驚。這項研究開創(chuàng)了通過 Y 染色體標(biāo)記進(jìn)行基因家譜研究的先河。
1998 年,兩篇文章的問世為基因家譜學(xué)的建立添磚加瓦。這兩篇文章都與歷史名人有關(guān),因此引發(fā)了極大的關(guān)注。第一項研究與美國第三任總統(tǒng)托馬斯·杰斐遜和他的黑人女仆莎麗·海明斯有無私生子的鑒定有關(guān)。Foster比較了杰斐遜的叔叔、 莎麗的大兒子和最小的兒子的男性后代Y染色體,認(rèn)為杰斐遜是莎麗的最小兒子的生父。這項研究理清了莎麗·海明斯后代錯綜復(fù)雜的親緣關(guān)系,為隨后通過Y染色體標(biāo)記重塑父系譜系關(guān)系提供了范例。
同年,Decorte發(fā)表了一項疑似法國國王路易十六和瑪麗·安托瓦內(nèi)特的兒子的線粒體DNA鑒定。作者們對Karl Wilhelm Naundorf( 聲稱是這對皇室夫婦的后代) 、瑪麗·安托瓦內(nèi)特和她的兩個姐妹,以及現(xiàn)存的母系親屬的線粒體DNA進(jìn)行了分型。結(jié)果表明,雖然Naundorf被冠以路易十七的名號,但他的線粒體DNA遺傳類型與其他母系親屬測試者的完全不同,因此他是個偽冒者。這項研究是最早通過線粒體 DNA 進(jìn)行基因家譜學(xué)研究的工作,為通過母系遺傳研究基因家譜學(xué)提供了參考。
近 20 年,受公眾對名人家族歷史的濃厚興趣的驅(qū)動,基因家譜學(xué)中探索歷史名人的父系類型一直是最為活躍的研究方向,例如前面提到的美國總統(tǒng)托馬斯·杰斐遜,法國皇帝拿破侖和波旁家族,俄羅斯的羅曼諾夫家族,以及中國的愛新覺羅家族、成吉思汗和曹操。
其中,成吉思汗和愛新覺羅·覺昌安的父系類型最早是通過特殊的 Y 染色體單倍型,即所謂的星簇( Star Cluster) 和滿族簇(Manchu cluster) 推測而來的,它們分別高頻出現(xiàn)于蒙古語和滿通古斯語人群。這種通過分析Y染色體單倍型數(shù)據(jù)尋找晚近人群擴張信號的方法還運用在其他課題中。例如,2015年Balaresque分析了歐亞大陸上127個人群的5321個Y染色體數(shù)據(jù),發(fā)現(xiàn)了11個星簇狀的擴張信號,其擴張年代為公元前2100年至公元1100年。排除所用位點過少、可能存在的遺傳類型錯判等問題,這項研究還是有些有趣的結(jié)論,比如揭示了晚近擴張人群與生活方式的關(guān)系———阿爾泰語游牧人群Y染色體的大范圍傳播可能與馬的使用有關(guān)。
基因家譜研究受DNA檢測技術(shù)發(fā)展的推動。現(xiàn)如今,基于現(xiàn)代DNA和古代DNA高通量測序的手段也進(jìn)入到基因家譜學(xué)之中。最好的例子是2014年Olalde I等測試了一個疑似含法國國王路易十六血液的手帕上的全基因組,他們發(fā)現(xiàn),根據(jù)所獲得的數(shù)據(jù)來推斷的祖先和表型與歷史記載不符,否定了葫蘆內(nèi)所含血樣屬于路易十六,該研究為破解歷史懸案提供了有力的證據(jù)。
國內(nèi)基因家譜的研究要從曹操家族說起。這項研究通過對曹操后代家系的遺傳學(xué)梳理,確定了曹操的遺傳類型和身世,證實曹操的父親是家族內(nèi)過繼,而不是異姓( 夏侯家) 收養(yǎng),這解決了歷史學(xué)遺留了2000年的問題 。
曹操的祖父是東漢時期的大宦官曹騰,曹操的生父曹嵩是其養(yǎng)子,因此,曹操的身世是一大史學(xué)謎題。曹操在作《家傳》時自稱為周朝曹叔振鐸之后,后來再度改為出自帝舜。據(jù)《曹瞞傳》記載,曹操之父曹嵩出自夏侯氏。宋代以后,曹操出自夏侯氏的說法流傳甚廣。而后世制作的家譜幾乎都追溯到西漢開國功臣曹參。傳統(tǒng)譜牒學(xué)方法僅從文獻(xiàn)資料無法確定曹操的真實身世,使用最
新的科學(xué)技術(shù)成為解決這個問題的新思路。
復(fù)旦大學(xué)現(xiàn)代人類學(xué)教育部重點實驗室從2009年開始對曹操的遺傳類型歸屬展開了系統(tǒng)的調(diào)查,分別從曹操可能存在的后人家系和曹氏宗族墓群中曹操的叔祖父———曹鼎遺骸兩方面入手,論證曹操的父系Y染色體類型極有可能為O2* -M268。根據(jù)曹操后人家系的測試結(jié)果,反推單倍群O2*-M268為曹操所屬類型的可能性是92.71% ; 根據(jù)古代樣本Y染色體12個STR位點的測試結(jié)果,利用基于貝葉斯等位基因頻率法的數(shù)據(jù)庫,推測曹鼎屬于O2*-M268+,PK4-,M176- 的概率為60.18%,屬于單倍群C3*-M217的概率為13.97%,屬于其他單倍群的概率均低于11%。2016年,課題組又對該樣本進(jìn)行了Y染色體單核苷酸多態(tài)位點( SNP) 分型測試,明確其遺傳類型屬于O2-M268+,F(xiàn)1462+,PK4-,彌補了之前通過現(xiàn)代人家系推測曹操遺傳類型和Y-STR推測Y-SNP的缺陷。至此,曹操及其后人的遺傳類型為F1462+,PK4-的結(jié)論得以蓋棺定論。
如前文所述,一些研究者根據(jù)蒙古語和滿通古斯語人群中特有的高頻單倍型(星簇和滿族簇) ,以及對應(yīng)的共祖時間,推測其父系祖先分別為成吉思汗和愛新覺羅·覺昌安。但是,由于缺乏明確的家系樣本和古代遺骸的支持,這兩個推測結(jié)果的真實性一直飽受爭議。2015年,我們采集了7個愛新覺羅氏的家系(3個家系有完整譜牒)的男性樣本,進(jìn)行了Y染色體短串聯(lián)重復(fù)片段( STR)分型,結(jié)果顯示,其中3家(2家有完整家譜,其最近共祖為清太祖努爾哈赤) 的父系遺傳類型非常接近,且極為罕見,對這3個樣本的Y-SNP測試結(jié)果表明,此類型屬于C3b2b1*-M401單倍群,即愛新覺羅家族的父系遺傳類型。2016年,我們又對愛新覺羅家族的男性個體進(jìn)行了Y染色體測序,發(fā)現(xiàn)這些個體屬于更為精細(xì)的遺傳類型C3b1a3a2-F8951,與星簇為兄弟支系,與之前推測的C3b2a-M48滿族簇毫無關(guān)系。因此,之前推斷的成吉思汗與星簇之間的關(guān)系可能也不牢靠。
2017年,韋蘭海等探討了星簇的起源,以及它與成吉思汗和各個蒙古語人群的關(guān)系。通過對34個屬于星簇的Y染色體全序及與其較近支系的Y序列的研究,我們發(fā)現(xiàn)這些星簇樣本屬于單倍群C3b1a3a1-F3796,其分布于中國東北到北高加索的廣大區(qū)域。這些人群的源頭被追溯到古代尼倫蒙古部落或者普通的蒙古部落,比如烏茲別克人和諾蓋人中的曼格特部(Manghit tribe)、烏茲別克人中的柯訥格斯部(Keneges tribe)、阿富汗的哈扎拉人、中國的達(dá)斡爾人,以及哈薩克人群中的拉特部(Dulat tribe)、烏孫部(Uysun tribe)和克烈部(Kerey tribe)。而他們的晚近共祖時間為2576年前,與整個蒙古語人群擴張的時間一致,這顯然與成吉思汗或其他男性親屬無關(guān)。Zerjal等認(rèn)為哈扎拉人是成吉思汗的直系子孫,他們認(rèn)為這是支持成吉思汗與星簇之間關(guān)系的有力證據(jù)。
但事實上,哈扎拉人來源于成吉思汗派遣的蒙古大軍。而這兩萬戰(zhàn)士來自于不同的蒙古部落,并沒有直接證據(jù)表明哈扎拉人都是成吉思汗的后代。事實上,尋找成吉思汗的父系類型困難重重。一方面,由于蒙古人保持祖先神秘感的葬俗,導(dǎo)致蒙古貴族(特別是皇室)的墓地極少被發(fā)現(xiàn)。盡管如此,基于有限墓葬的古DNA研究給出了極為矛盾的結(jié)論。根據(jù)蒙古國東部塔班陶勒蓋的疑似黃金家族墓地遺骸的DNA鑒定結(jié)果,Lkhagvasuren等認(rèn)為成吉思汗和他的家族屬于遺傳類型R1b-M343,然而另一項來自中國河北的高等級貴族墓的遺傳調(diào)查表明,成吉思汗的遺傳類型為單倍群Q也不能完全排除。另一方面,疑似成吉思汗后代的現(xiàn)代人的 DNA 分型結(jié)果表明,不同家族分支的父系類型也不一致。比如說,3個現(xiàn)存的成吉思汗家族分支屬于遺傳類型C3下的3個早期分化的不同亞型,此外,成吉思汗親兄弟Khasar的后人屬于遺傳類型O3,成吉思汗父親的同父異母兄弟Belgutei的后人屬于遺傳類型R1a1a。
近年來,本課題組對西北地區(qū)永登縣的魯土司家族進(jìn)行了父系遺傳調(diào)查,根據(jù)魯氏家譜的記載,他們的祖先為脫歡( 成吉思汗的第六子闊列堅的后代) 。在元末明初,脫歡和他的部眾歸降于明廷。后因作戰(zhàn)勇猛,自第三代起賜漢姓魯。從此,魯土司家族駐守西北永登縣長達(dá)19代,歷時561年。Y染色體分型結(jié)果表明, 魯土司家族的遺傳類型為C3b1a1a1a-F1756(又稱C3b3a2a-448del),常見于蒙古語和突厥語人群。進(jìn)一步的遺傳網(wǎng)絡(luò)分析發(fā)現(xiàn),魯土司家族后人與哈薩克斯坦DNA計劃(The Kazakhstan DNA Project)中的Tore支系共享單倍型。Tore 支系為成吉思汗大兒子術(shù)赤的后代。至此,成吉思汗的遺傳類型又有了一個新的可能———C3b1a1a1a-F1756。
司馬光家族延續(xù)了上千年,家譜記載較為完整,為突變速率的估計提供了較好的材料。杜盼新等對11個聲稱為司馬光后代的家族進(jìn)行了Y-STR分型,結(jié)果表明,有5個家族的STR單倍型彼此之間十分接近,同屬下游單倍群O1a1a1a1a1a-F492,F(xiàn)656-。
關(guān)于東亞的父系人口歷史,2014 年,嚴(yán)實等應(yīng)用二代測序技術(shù)發(fā)現(xiàn)了Y染色體上約4000個新的遺傳標(biāo)記,并定義了大量新的分支,發(fā)現(xiàn)東亞3個父系星狀擴張發(fā)生在約5000~6000年前的新石器時代,現(xiàn)代約40%的中國人來自當(dāng)時這3個子嗣繁多的祖先。我們最近的研究進(jìn)一步觀察到這次新石器時代的強烈的瓶頸效應(yīng)和人口擴張。東亞特有的父系譜系中,有5個呈星狀結(jié)構(gòu)———O3a2c1a-F5(Oα) 、 O3a2c1-F46 (Oβ) 、O3a1c1-F11(Oγ)、C3a1-F2613(Cα)和Q1a1-M120(Qα) ,以及一個呈復(fù)雜分叉結(jié)構(gòu)———O1a1a1-F78( Oσ) 。值得注意的是,我們發(fā)現(xiàn)65%的現(xiàn)代中國人都是這6個超級祖父的后代,他們的擴張時間分別為5400年前(Oα)、6500年前(Oβ)、6800年前(Oγ)、6400年前(Cα)、5200年前(Qα)和5000年前(Oσ)。正如前文所述,我們揭示了漢族主體來自于新石器時代的少數(shù)幾個父系祖先,但他們是誰? 每個超級祖父與古史傳說中的傳奇領(lǐng)袖是否有關(guān)? 不久的將來,聯(lián)合古DNA和現(xiàn)代人DNA的研究將有助于解決這些問題,它對于理解中國人群的起源非常關(guān)鍵。
考古發(fā)掘往往面臨一個問題,漢之前的遺址極少有墓磚、 墓志等表明身份信息的出土物,再加上墓地被盜嚴(yán)重( 墓志等有經(jīng)濟價值),絕大部分遺骨缺少身份信息,但是對于墓地發(fā)掘來說,確定墓主人的身份是考古學(xué)的一個核心問題。
山東省臨沂市洗硯池晉墓位于洗硯池街北側(cè)、 王羲之故居公園東北部。此處共發(fā)現(xiàn)兩座墓葬,其中,M1為雙室墓葬,保存完整,同一墓葬埋葬 3 個未成年人,為考古發(fā)掘中極為罕見的現(xiàn)象; M2為夫妻合葬墓,墓室結(jié)構(gòu)完整,在一號墓之西,與一號墓相距不遠(yuǎn)。該遺址一經(jīng)發(fā)現(xiàn),便引起了社會和學(xué)術(shù)界的廣泛關(guān)注,被評為2003年度十大考古發(fā)現(xiàn)之一。但是,對于墓主人的身份一直存在兩種猜測: 一種認(rèn)為是瑯琊王氏的后代,另一種認(rèn)為是西晉司馬氏的后代。2016 年,杜盼新等人對該遺址進(jìn)行了基因家譜調(diào)查: (1)排除了M1西室6歲女童與M2夫婦間的親緣關(guān)系; (2)鑒定了M2墓葬中男性遺骨的父系遺傳類型為C3南支-F948+,F(xiàn)3880+,該遺傳類型在北方漢族中最為常見。該研究為后續(xù)瑯琊王氏和司馬家族的父系遺傳類型研究奠定了基礎(chǔ)。
還有一個案例是復(fù)旦大學(xué)和吉林大學(xué)古DNA課題組的一次合作。兩個課題組對內(nèi)蒙古阿魯科爾沁旗遼代耶律羽之墓地的兩個男性人骨進(jìn)行了古DNA鑒定。一個遺骸為M6:3(耶律道清,耶律羽之的三代子孫),一個為M10(無墓志)。實驗結(jié)果表明,兩個個體的遺傳類型分屬N南支和N北支,這兩個支系的分化時間已有上萬年。通過父系親緣關(guān)系鑒定,排除了M10是耶律羽之家族男性后代的可能,其具體身份有待進(jìn)一步比較驗證。
基于上述兩個案例,我們可以看到,對于大量已經(jīng)發(fā)掘的身份未定的墓地,DNA鑒定并將其結(jié)果納入一個可以相互比對的古DNA數(shù)據(jù)庫的重要性。依據(jù)這個數(shù)據(jù)庫,我們可以基于親緣關(guān)系,推測未知遺骸的可能身份。另外,進(jìn)一步結(jié)合碳十四測年技術(shù)和文獻(xiàn)材料,多重證據(jù)鎖定未知墓主的身份,真正發(fā)揮科技考古的威力。
甘肅白銀市連環(huán)殺人案的破獲是法醫(yī)學(xué)運用基因家譜學(xué)原理的一個成功案例 。白銀連環(huán)殺人案是中華人民共和國成立以來發(fā)生的重大惡性案件之一。從1988年到2002年,11位女性(包括一名8歲的女童)遭到強奸和殺害。嫌疑犯逍遙法外長達(dá)30年,警方做出了各種努力,如指紋比對、DNA比對、按口述畫像、重金懸賞等,但均無功而返。但是前期的積累是有意義的,尤其是Y染色體數(shù)據(jù)庫的建立,成為后續(xù)破案的關(guān)鍵。當(dāng)嫌疑人的遠(yuǎn)方堂叔犯案,警方發(fā)現(xiàn)其Y染色體單倍型與當(dāng)年疑犯的DNA 類型一致時,整個高氏家族男性都被納入了排查范圍,最終,白銀市連環(huán)殺人案得以快速破獲。該案件的破獲是Y染色體基因家譜學(xué)的成功運用,這意味著法醫(yī)數(shù)據(jù)庫不僅只能做同一認(rèn)定,每個男性數(shù)據(jù)背后代表著一個大的同姓家族。Y染色體DNA分型和基因家譜學(xué)原理正在成為法醫(yī)遺傳學(xué)的常規(guī)手段。
近年來,本課題組開發(fā)了一個專門用于群體遺傳學(xué)和法醫(yī)學(xué)應(yīng)用的Y染色體數(shù)據(jù)庫,通過該數(shù)據(jù)庫,我們推測了入緬遠(yuǎn)征軍、淮海戰(zhàn)役士兵,以及一些刑事案件中的疑犯和失蹤人口的可能地理來源和父系親屬。
操姓主要有鄱陽郡操姓和重慶長壽操姓兩大分支。據(jù)傳,鄱陽郡操姓源自逃難的曹操后人。2012年,王傳超等的Y染色體調(diào)查顯示,鄱陽郡操姓與曹操家族,乃至其他曹姓均無關(guān)系。2014年,王傳超等又依據(jù)譜牒材料,對賽典赤及鄭和的后裔———云南的納姓和馬姓進(jìn)行父系Y染色體分型,發(fā)現(xiàn)他們屬于南亞西部常見的單倍群L1a-M76,揭示了賽典赤與鄭和的波斯祖源。
展望
姓氏最早出現(xiàn)于中國,其歷史可追溯到5000年前。在其他國家中,西歐人姓氏最早的記錄不足千年(愛爾蘭人約900年),日本人的姓氏也才150余年。我國現(xiàn)有姓氏4100個,但大多數(shù)姓氏的起源并不單一。周朝的姓氏大多是以封國為氏,后改為姓,封國內(nèi)的百姓來源本來就是多種多樣的。所以中國的姓氏總體上內(nèi)部父系血緣并不完全一致。根據(jù)我們對超過10000例帶有姓氏信息的Y-SNP/STR數(shù)據(jù)的分析,在同一個姓氏中,幾乎可以觀察到中國人中常見的所有父系類型,同時,在同一個父系類型中,也幾乎可以看到中國人群中所有常見的姓氏。這意味著姓氏和Y染色體不是簡單地一一對應(yīng)關(guān)系,基于較小樣本量的推測,Y染色體類型與姓氏之間的關(guān)聯(lián)沒有意義。
但是,修著家譜一直是中國人的傳統(tǒng),一些家譜甚至跨越3000年。這些譜牒材料和深度家系都是我國的人文資源。研究族群/姓氏內(nèi)部和深度家系的遺傳動態(tài),可能是厘清族群/姓氏來源和演化的一個事半功倍的方案。