最近一段時(shí)間,關(guān)于人類(lèi)起源問(wèn)題最引人關(guān)注的一則新聞,便是在中國(guó)東北地區(qū)發(fā)現(xiàn)了新的人類(lèi)物種化石——“龍人”。不過(guò),關(guān)于它在人類(lèi)家譜中的確切位置,學(xué)界還存有爭(zhēng)議,因?yàn)檠芯繄F(tuán)隊(duì)并未從該化石中獲取到生物遺傳信息(古DNA)。
自從古DNA技術(shù)橫空出世,它解決了古人類(lèi)學(xué)、考古學(xué)中許多爭(zhēng)執(zhí)不下的難題,為這些學(xué)科的研究打開(kāi)了一個(gè)全新的局面。進(jìn)入21世紀(jì),古DNA研究成為關(guān)注熱點(diǎn),在國(guó)內(nèi)外團(tuán)隊(duì)爭(zhēng)分奪秒展開(kāi)科研競(jìng)爭(zhēng)的背后,還關(guān)乎一場(chǎng)算力的角逐。
古DNA研究的力量
古DNA是指從古人類(lèi)和動(dòng)植物遺骸以及古生物化石中提取的古生物分子。如果能從古老的化石和考古樣本中獲取到最原始的古DNA信息,與現(xiàn)代人類(lèi)和動(dòng)植物的遺傳信息進(jìn)行比較,就可以為人類(lèi)及動(dòng)植物起源與遷徙、文明傳播與碰撞、歷史爭(zhēng)議問(wèn)題給出直接答案。
20世紀(jì)80年代,考古學(xué)家和分子生物學(xué)家把古DNA研究引入到傳統(tǒng)考古學(xué),形成了國(guó)際考古研究中的前沿領(lǐng)域——分子考古學(xué)。作為科技考古的重要手段,古DNA研究在解決人類(lèi)的起源與遷徙、動(dòng)植物的家養(yǎng)和馴化過(guò)程以及農(nóng)業(yè)的起源和早期發(fā)展等重大考古學(xué)問(wèn)題上起到了重要作用。
進(jìn)入21世紀(jì),隨著二代測(cè)序技術(shù)的普及,古DNA研究迎來(lái)了一個(gè)黃金發(fā)展期。中國(guó)科學(xué)家們也在分子考古的浪潮里大放異彩。
早在1998年,吉林大學(xué)考古學(xué)系就與生命科學(xué)學(xué)院合作,成立了國(guó)內(nèi)首個(gè)考古DNA實(shí)驗(yàn)室,開(kāi)展有關(guān)古DNA方面的研究工作。如今,考古DNA實(shí)驗(yàn)室已初步建立了我國(guó)邊疆地區(qū)的古代DNA基因庫(kù),有超過(guò)萬(wàn)例的古人類(lèi)、古動(dòng)植物樣本,數(shù)量位居全國(guó)第一。
據(jù)吉林大學(xué)邊疆考古研究中心副主任蔡大偉介紹,正是有了這些強(qiáng)有力的資源支持,近年來(lái),吉林大學(xué)考古學(xué)院運(yùn)用古DNA優(yōu)勢(shì)不斷創(chuàng)新和突破,在考古領(lǐng)域驅(qū)動(dòng)了許多重要進(jìn)展。
例如,對(duì)“絲路”沿線不同時(shí)期的動(dòng)物樣本開(kāi)展全基因組分析,重構(gòu)了家養(yǎng)動(dòng)物群體交流的時(shí)空框架,展現(xiàn)了“絲路”大通道在東西方文化交流中的更多歷史細(xì)節(jié);測(cè)定和分析了首例距今約3800年古小麥全基因組序列,探究現(xiàn)存小麥地方品種的栽培起源、擴(kuò)散和遺傳改良;報(bào)道了中國(guó)北方55個(gè)古代個(gè)體的全基因組數(shù)據(jù),探討了新石器時(shí)代農(nóng)業(yè)革命以來(lái)中國(guó)北方地區(qū)的人群互動(dòng),為探討中華文明的起源、形成和發(fā)展提供了重要證據(jù)。
制約古DNA研究的難題
盡管古DNA研究進(jìn)展飛速,但困難依舊不小。
蔡大偉解釋?zhuān)臘NA研究主要分為兩大部分。第一部分是通過(guò)實(shí)驗(yàn)手段,從古代生物遺骸中把DNA提取出來(lái),并完成擴(kuò)增過(guò)程。在有機(jī)體死亡后,其細(xì)胞中的遺傳物質(zhì)即刻開(kāi)始降解,給DNA提取和擴(kuò)增帶來(lái)了極大的阻力。而且,研究還不可避免地會(huì)遇到現(xiàn)代基因的“污染”問(wèn)題。
第二部分則是測(cè)序及數(shù)據(jù)分析。由于古DNA基因序列片段比現(xiàn)代DNA更短,導(dǎo)致古DNA測(cè)序比現(xiàn)代DNA更復(fù)雜。以人類(lèi)為例,人類(lèi)基因組是由30億個(gè)堿基對(duì)構(gòu)成的,在得到古人類(lèi)DNA碎片的序列信息后,考古學(xué)家需要借助生物信息學(xué)的手段將這些片段進(jìn)行比對(duì)、組裝,還原成和現(xiàn)代人DNA 一樣完整的、高質(zhì)量的全基因組。
“這個(gè)過(guò)程就像完成一幅巨型拼圖,沒(méi)有強(qiáng)大的計(jì)算機(jī)軟件和硬件支撐,是不可能完成的。”吉林大學(xué)生命科學(xué)學(xué)院副院長(zhǎng)、邊疆考古研究中心教授崔銀秋直言。
蔡大偉指出,早期科研人員通過(guò)通用的計(jì)算設(shè)備,比如通過(guò)中央處理器(CPU)去做基因組裝,結(jié)果發(fā)現(xiàn)這一過(guò)程非常漫長(zhǎng),“一般完成一次古人類(lèi)的全基因組樣本分析需要耗時(shí)至少兩周”。
“我們希望把盡可能多的時(shí)間放在科學(xué)問(wèn)題的分析和對(duì)成果的解釋上,而不是消耗在對(duì)基礎(chǔ)數(shù)據(jù)的處理和計(jì)算上。”崔銀秋表示。這就亟需高性能計(jì)算和人工智能(AI)等新一代技術(shù)幫助科學(xué)家來(lái)加速這一分子考古的過(guò)程。
AI計(jì)算為分子考古提速
那么,算力究竟如何才能幫助加速整個(gè)基因拼圖的重構(gòu)過(guò)程?
浪潮人工智能和高性能產(chǎn)品線總經(jīng)理劉軍以和吉林大學(xué)考古DNA實(shí)驗(yàn)室的合作為例介紹道,浪潮采用了一套定制化芯片加速方案,能加速古生物基因序列的比對(duì)和拼裝,再用AI的方法和手段,幫助科學(xué)家找到感興趣的突變的基因。這套方案可以幫助考古學(xué)家在9.64 小時(shí)內(nèi)完成全基因組分析,48分鐘完成全外顯子組分析,相比基于CPU的方案,基因數(shù)據(jù)處理速度提升了39倍。
“這就意味著我們的科學(xué)家可以用原來(lái)四十分之一的時(shí)間完成古人類(lèi)全基因組的比對(duì)和拼接工作。”劉軍強(qiáng)調(diào)。
由于DNA可以被復(fù)制,特別是當(dāng)它從父母遺傳到子女的時(shí)候,只要突變不會(huì)致命,那么這些突變也會(huì)被復(fù)制然后傳遞給下一代。因此,突變通過(guò)時(shí)間而不斷積累,這就使得科學(xué)家能夠找到遺傳進(jìn)化的特定鏈條,并且還可以通過(guò)積累的突變估算時(shí)間。
“問(wèn)題是,這些重要的突變基因在哪里?它們?cè)谡麄(gè)歷史長(zhǎng)河中發(fā)生了什么樣的演化?”劉軍坦言,從這樣的追尋過(guò)程中,我們才能真正清晰地回溯人類(lèi)是如何走過(guò)這上百萬(wàn)年的演化歷史的。
“然而,完成拼接的基因組序列非常長(zhǎng),利用傳統(tǒng)方法在上面尋找特定基因的變異過(guò)程,是一件極為困難的事,就如同大海撈針。”劉軍表示,只有在AI的計(jì)算方法和手段的加持下,才能幫助科學(xué)家在基因的海洋里,找出他們最感興趣的基因、重要的突變基因。
劉軍認(rèn)為,“從這個(gè)角度來(lái)說(shuō),我們是在為這門(mén)古老學(xué)科創(chuàng)造一個(gè)實(shí)用工具,就像科學(xué)史上的顯微鏡、望遠(yuǎn)鏡一樣”。通過(guò)AI計(jì)算,服務(wù)科學(xué)家細(xì)致入微地獲取過(guò)去得不到的客觀證據(jù),從而實(shí)現(xiàn)洞察歷史的真相。
劉軍還特別提到,在AI計(jì)算與考古學(xué)研究結(jié)合的過(guò)程中,也反過(guò)來(lái)打開(kāi)了計(jì)算研究的視野。“我們要向遠(yuǎn)處看、向深處看,科學(xué)的未來(lái)需要依靠怎樣的計(jì)算技術(shù)去迎接挑戰(zhàn)。”■