作者: 記者 胡珉琦 來源: 發(fā)布時(shí)間:2021-9-4 8:16:46
一門古老學(xué)科里的算力角逐

   最近一段時(shí)間,關(guān)于人類起源問題最引人關(guān)注的一則新聞,便是在中國(guó)東北地區(qū)發(fā)現(xiàn)了新的人類物種化石——“龍人”。不過,關(guān)于它在人類家譜中的確切位置,學(xué)界還存有爭(zhēng)議,因?yàn)檠芯繄F(tuán)隊(duì)并未從該化石中獲取到生物遺傳信息(古DNA)。

   自從古DNA技術(shù)橫空出世,它解決了古人類學(xué)、考古學(xué)中許多爭(zhēng)執(zhí)不下的難題,為這些學(xué)科的研究打開了一個(gè)全新的局面。進(jìn)入21世紀(jì),古DNA研究成為關(guān)注熱點(diǎn),在國(guó)內(nèi)外團(tuán)隊(duì)爭(zhēng)分奪秒展開科研競(jìng)爭(zhēng)的背后,還關(guān)乎一場(chǎng)算力的角逐。

 

古DNA研究的力量

 

   古DNA是指從古人類和動(dòng)植物遺骸以及古生物化石中提取的古生物分子。如果能從古老的化石和考古樣本中獲取到最原始的古DNA信息,與現(xiàn)代人類和動(dòng)植物的遺傳信息進(jìn)行比較,就可以為人類及動(dòng)植物起源與遷徙、文明傳播與碰撞、歷史爭(zhēng)議問題給出直接答案。

   20世紀(jì)80年代,考古學(xué)家和分子生物學(xué)家把古DNA研究引入到傳統(tǒng)考古學(xué),形成了國(guó)際考古研究中的前沿領(lǐng)域——分子考古學(xué)。作為科技考古的重要手段,古DNA研究在解決人類的起源與遷徙、動(dòng)植物的家養(yǎng)和馴化過程以及農(nóng)業(yè)的起源和早期發(fā)展等重大考古學(xué)問題上起到了重要作用。

   進(jìn)入21世紀(jì),隨著二代測(cè)序技術(shù)的普及,古DNA研究迎來了一個(gè)黃金發(fā)展期。中國(guó)科學(xué)家們也在分子考古的浪潮里大放異彩。

   早在1998年,吉林大學(xué)考古學(xué)系就與生命科學(xué)學(xué)院合作,成立了國(guó)內(nèi)首個(gè)考古DNA實(shí)驗(yàn)室,開展有關(guān)古DNA方面的研究工作。如今,考古DNA實(shí)驗(yàn)室已初步建立了我國(guó)邊疆地區(qū)的古代DNA基因庫(kù),有超過萬例的古人類、古動(dòng)植物樣本,數(shù)量位居全國(guó)第一。

   據(jù)吉林大學(xué)邊疆考古研究中心副主任蔡大偉介紹,正是有了這些強(qiáng)有力的資源支持,近年來,吉林大學(xué)考古學(xué)院運(yùn)用古DNA優(yōu)勢(shì)不斷創(chuàng)新和突破,在考古領(lǐng)域驅(qū)動(dòng)了許多重要進(jìn)展。

   例如,對(duì)“絲路”沿線不同時(shí)期的動(dòng)物樣本開展全基因組分析,重構(gòu)了家養(yǎng)動(dòng)物群體交流的時(shí)空框架,展現(xiàn)了“絲路”大通道在東西方文化交流中的更多歷史細(xì)節(jié);測(cè)定和分析了首例距今約3800年古小麥全基因組序列,探究現(xiàn)存小麥地方品種的栽培起源、擴(kuò)散和遺傳改良;報(bào)道了中國(guó)北方55個(gè)古代個(gè)體的全基因組數(shù)據(jù),探討了新石器時(shí)代農(nóng)業(yè)革命以來中國(guó)北方地區(qū)的人群互動(dòng),為探討中華文明的起源、形成和發(fā)展提供了重要證據(jù)。

 

制約古DNA研究的難題

    

   盡管古DNA研究進(jìn)展飛速,但困難依舊不小。

   蔡大偉解釋,古DNA研究主要分為兩大部分。第一部分是通過實(shí)驗(yàn)手段,從古代生物遺骸中把DNA提取出來,并完成擴(kuò)增過程。在有機(jī)體死亡后,其細(xì)胞中的遺傳物質(zhì)即刻開始降解,給DNA提取和擴(kuò)增帶來了極大的阻力。而且,研究還不可避免地會(huì)遇到現(xiàn)代基因的“污染”問題。

   第二部分則是測(cè)序及數(shù)據(jù)分析。由于古DNA基因序列片段比現(xiàn)代DNA更短,導(dǎo)致古DNA測(cè)序比現(xiàn)代DNA更復(fù)雜。以人類為例,人類基因組是由30億個(gè)堿基對(duì)構(gòu)成的,在得到古人類DNA碎片的序列信息后,考古學(xué)家需要借助生物信息學(xué)的手段將這些片段進(jìn)行比對(duì)、組裝,還原成和現(xiàn)代人DNA 一樣完整的、高質(zhì)量的全基因組。

   “這個(gè)過程就像完成一幅巨型拼圖,沒有強(qiáng)大的計(jì)算機(jī)軟件和硬件支撐,是不可能完成的。”吉林大學(xué)生命科學(xué)學(xué)院副院長(zhǎng)、邊疆考古研究中心教授崔銀秋直言。

   蔡大偉指出,早期科研人員通過通用的計(jì)算設(shè)備,比如通過中央處理器(CPU)去做基因組裝,結(jié)果發(fā)現(xiàn)這一過程非常漫長(zhǎng),“一般完成一次古人類的全基因組樣本分析需要耗時(shí)至少兩周”。

   “我們希望把盡可能多的時(shí)間放在科學(xué)問題的分析和對(duì)成果的解釋上,而不是消耗在對(duì)基礎(chǔ)數(shù)據(jù)的處理和計(jì)算上。”崔銀秋表示。這就亟需高性能計(jì)算和人工智能(AI)等新一代技術(shù)幫助科學(xué)家來加速這一分子考古的過程。

 

AI計(jì)算為分子考古提速

 

   那么,算力究竟如何才能幫助加速整個(gè)基因拼圖的重構(gòu)過程?

   浪潮人工智能和高性能產(chǎn)品線總經(jīng)理劉軍以和吉林大學(xué)考古DNA實(shí)驗(yàn)室的合作為例介紹道,浪潮采用了一套定制化芯片加速方案,能加速古生物基因序列的比對(duì)和拼裝,再用AI的方法和手段,幫助科學(xué)家找到感興趣的突變的基因。這套方案可以幫助考古學(xué)家在9.64 小時(shí)內(nèi)完成全基因組分析,48分鐘完成全外顯子組分析,相比基于CPU的方案,基因數(shù)據(jù)處理速度提升了39倍。

   “這就意味著我們的科學(xué)家可以用原來四十分之一的時(shí)間完成古人類全基因組的比對(duì)和拼接工作。”劉軍強(qiáng)調(diào)。

   由于DNA可以被復(fù)制,特別是當(dāng)它從父母遺傳到子女的時(shí)候,只要突變不會(huì)致命,那么這些突變也會(huì)被復(fù)制然后傳遞給下一代。因此,突變通過時(shí)間而不斷積累,這就使得科學(xué)家能夠找到遺傳進(jìn)化的特定鏈條,并且還可以通過積累的突變估算時(shí)間。

   “問題是,這些重要的突變基因在哪里?它們?cè)谡麄(gè)歷史長(zhǎng)河中發(fā)生了什么樣的演化?”劉軍坦言,從這樣的追尋過程中,我們才能真正清晰地回溯人類是如何走過這上百萬年的演化歷史的。

   “然而,完成拼接的基因組序列非常長(zhǎng),利用傳統(tǒng)方法在上面尋找特定基因的變異過程,是一件極為困難的事,就如同大海撈針。”劉軍表示,只有在AI的計(jì)算方法和手段的加持下,才能幫助科學(xué)家在基因的海洋里,找出他們最感興趣的基因、重要的突變基因。

   劉軍認(rèn)為,“從這個(gè)角度來說,我們是在為這門古老學(xué)科創(chuàng)造一個(gè)實(shí)用工具,就像科學(xué)史上的顯微鏡、望遠(yuǎn)鏡一樣”。通過AI計(jì)算,服務(wù)科學(xué)家細(xì)致入微地獲取過去得不到的客觀證據(jù),從而實(shí)現(xiàn)洞察歷史的真相。

   劉軍還特別提到,在AI計(jì)算與考古學(xué)研究結(jié)合的過程中,也反過來打開了計(jì)算研究的視野。“我們要向遠(yuǎn)處看、向深處看,科學(xué)的未來需要依靠怎樣的計(jì)算技術(shù)去迎接挑戰(zhàn)。”■

 

《科學(xué)新聞》 (科學(xué)新聞2021年8月刊 進(jìn)展)
發(fā)E-mail給:      
| 打印 | 評(píng)論 |