婷婷亚洲综合五月天麻豆,激情偷乱人伦小说视频在线

作者：Mike May / 文李楠 / 譯來源：發(fā)布時(shí)間：2019-9-5 14:52:22

大數(shù)據(jù)轉(zhuǎn)化：蛋白質(zhì)組學(xué)的挑戰(zhàn)

人體中有大約20000個(gè)蛋白質(zhì)編碼基因，能翻譯相應(yīng)數(shù)量的蛋白質(zhì)。然而，通過翻譯后修飾會(huì)產(chǎn)生更多形態(tài)的蛋白質(zhì)。截至2018年4月4日，人類蛋白質(zhì)組圖譜包含30057種蛋白質(zhì)。將眾多的分子與質(zhì)譜（MS）這樣的分析技術(shù)相結(jié)合，探索其微妙的聯(lián)系，會(huì)產(chǎn)生海量的“大數(shù)據(jù)”。由于獲得的蛋白質(zhì)組復(fù)雜信息數(shù)據(jù)量過于龐大，通常需要很多科研人員協(xié)作才能解讀某一個(gè)數(shù)據(jù)集的信息。

雖然這些數(shù)據(jù)集無論從體量還是復(fù)雜度看都是驚人的，但共享在將來仍是可預(yù)期的。位于威斯康星大學(xué)麥迪遜分校的國(guó)立衛(wèi)生研究院（NIH）國(guó)家復(fù)雜系統(tǒng)定量生物學(xué)中心主任Joshua Coon說：“作者通常主動(dòng)的或者是根據(jù)要求將蛋白質(zhì)組學(xué)研究的原始數(shù)據(jù)發(fā)送到相應(yīng)數(shù)據(jù)庫(kù)中。但在10年前，情況并非如此，人們的態(tài)度已經(jīng)在改變了。”蛋白質(zhì)組學(xué)界甚至整個(gè)學(xué)術(shù)界都意識(shí)到數(shù)據(jù)透明度提高了研究人員之間的信任程度，即使身處不同領(lǐng)域的人也是如此。

數(shù)據(jù)共享的困難

在馬薩諸塞州比勒利卡的布魯克公司蛋白質(zhì)組學(xué)業(yè)務(wù)開發(fā)副總裁Gary Kruppa表示，現(xiàn)在產(chǎn)生蛋白質(zhì)相關(guān)的大數(shù)據(jù)比以往任何時(shí)候都容易，但以最有效的方式分享數(shù)據(jù)卻很難。研究人員可以在幾天內(nèi)獲取數(shù)以TB計(jì)的數(shù)據(jù)，但數(shù)據(jù)的轉(zhuǎn)移和可視化卻很難。甚至儲(chǔ)存一個(gè)月積累的數(shù)據(jù)都很困難。

海量數(shù)據(jù)共享的難點(diǎn)依然在于缺乏有效的方法，而且很難提供足夠的實(shí)驗(yàn)和生物學(xué)相關(guān)信息。如果研究人員只想分享蛋白質(zhì)組學(xué)實(shí)驗(yàn)的原始數(shù)據(jù)，以及與數(shù)據(jù)相關(guān)的一些背景和結(jié)果，那是非常簡(jiǎn)單的，位于英國(guó)劍橋的歐洲分子生物學(xué)實(shí)驗(yàn)室——歐洲生物信息學(xué)研究所（EMBL—EBI）蛋白質(zhì)組學(xué)團(tuán)隊(duì)負(fù)責(zé)人Juan Antonio Vizcaíno解釋說。

越來越多的科研人員參與到數(shù)據(jù)共享中，隨之而來的挑戰(zhàn)也在不斷增加。例如，僅將信息轉(zhuǎn)儲(chǔ)到數(shù)據(jù)庫(kù)是不夠的。“必須確保上傳的數(shù)據(jù)質(zhì)量足夠高，以便其他同行能夠使用這些數(shù)據(jù)，”加利福尼亞州圣何塞市賽默飛世爾科技公司蛋白質(zhì)組學(xué)解決方案全球營(yíng)銷總監(jiān)Andreas Huhmer說。此外，除非數(shù)據(jù)采用某種標(biāo)準(zhǔn)格式，否則數(shù)據(jù)上傳到數(shù)據(jù)庫(kù)以后無法方便地進(jìn)行檢索。

分析數(shù)據(jù)的方法也會(huì)影響從中得出的結(jié)論。“目前有太多種分析蛋白質(zhì)組學(xué)數(shù)據(jù)的方法，因此對(duì)數(shù)據(jù)的解釋存在主觀性，”澳大利亞帕克瓦拉的沃爾特和愛麗莎霍爾醫(yī)學(xué)研究所的系統(tǒng)生物學(xué)和個(gè)性化醫(yī)學(xué)部門負(fù)責(zé)人Andrew Webb解釋說。

其他專家也贊同數(shù)據(jù)分析仍然是蛋白質(zhì)組學(xué)研究人員面臨的挑戰(zhàn)之一。“我們?nèi)绾斡行У貙⒃紨?shù)據(jù)轉(zhuǎn)化為有意義的東西，仍然是要克服的第一個(gè)難題，就算是在同一個(gè)實(shí)驗(yàn)室里也一樣。”英國(guó)曼徹斯特沃特世公司健康科學(xué)主任James Langridge指出。

即使科研人員們就數(shù)據(jù)的標(biāo)準(zhǔn)化格式和分析方法達(dá)成一致，還是存在很多需要解決的問題。首先，必須根據(jù)需要更新數(shù)據(jù)標(biāo)準(zhǔn)；其次，即使是共享最大的蛋白質(zhì)組數(shù)據(jù)集也會(huì)出現(xiàn)不足。“為了盡量多的從蛋白質(zhì)組學(xué)數(shù)據(jù)集中獲得科學(xué)知識(shí)，而且這些知識(shí)應(yīng)該與其基因組和轉(zhuǎn)錄組信息進(jìn)行系統(tǒng)化的整合，”位于馬里蘭州羅克維爾市的美國(guó)國(guó)家癌癥研究所癌癥臨床蛋白質(zhì)組學(xué)研究辦公室主任Henry Rodriguez說，“通過將蛋白質(zhì)組學(xué)與基因組學(xué)、蛋白質(zhì)基因組學(xué)等信息進(jìn)行整合，這種多組學(xué)方法可以獲得更多新的生物學(xué)知識(shí)，這是單一組學(xué)數(shù)據(jù)分析所不能比擬的。”

科學(xué)研究的尺度

蛋白質(zhì)組學(xué)大數(shù)據(jù)集共享的價(jià)值在于它們可能帶來衛(wèi)生保健等方面的改善。例如，Rodriguez說：“制藥公司將獲益于更深入地了解疾病，從而開發(fā)出更有效的藥物。”

同樣，蛋白質(zhì)組學(xué)可以與其他工具結(jié)合使用，例如CRISPR等基因編輯技術(shù)。“編輯生物系統(tǒng)并觀察其表型確實(shí)非常驚人，”Langridge說。用基因編輯工具調(diào)整系統(tǒng)，并分析其結(jié)果將有助于科研人員揭示特定蛋白質(zhì)的功能。

就目前來說，像EMBL-EBI的PRoteomics IDEntifications（PRIDE）這種專門為數(shù)據(jù)共享所開發(fā)的數(shù)據(jù)庫(kù)可能是最有幫助的。它收錄了來自50多個(gè)國(guó)家的超過8400個(gè)蛋白質(zhì)組學(xué)數(shù)據(jù)集，代表了近80000個(gè)獲取蛋白質(zhì)組學(xué)數(shù)據(jù)的測(cè)試，所有數(shù)據(jù)總量大約為400TB。

洛桑的瑞士生物信息學(xué)研究所開發(fā)了neXtProt，這是另一個(gè)蛋白質(zhì)知識(shí)庫(kù)，它記錄了超過20000種蛋白質(zhì)和近20萬種翻譯后修飾數(shù)據(jù)。

“最著名的蛋白質(zhì)知識(shí)庫(kù)是UniProt，當(dāng)然它不僅僅關(guān)注人類蛋白質(zhì)，”Vizcaíno說。像這樣的數(shù)據(jù)庫(kù)可以收錄各種新的科學(xué)知識(shí)。“你可以試著找出結(jié)合不同實(shí)驗(yàn)室數(shù)據(jù)集的方法，或?qū)ふ腋邉?chuàng)新性的方法來分析這些數(shù)據(jù)，”Vizcaíno說。“通常，對(duì)蛋白質(zhì)組學(xué)數(shù)據(jù)的分析是為了回答一組科學(xué)問題，當(dāng)然也可以用其他方法分析這些數(shù)據(jù)。”因此，如果有人提出一種探索現(xiàn)有數(shù)據(jù)的新方法，那么其結(jié)果可能會(huì)揭示新的生物學(xué)知識(shí)。

除此之外，還有更多關(guān)于蛋白質(zhì)的數(shù)據(jù)信息有待確定。正如Huhmer所指出的那樣，“大約有15000個(gè)已知的蛋白質(zhì)家族。”同一個(gè)家族中的蛋白質(zhì)都存在結(jié)構(gòu)相似性。根據(jù)Huhmer的說法，研究人員已經(jīng)研究了一些家族蛋白的結(jié)構(gòu)，并用X射線晶體學(xué)等技術(shù)直接測(cè)量了大約4500個(gè)家族；通過計(jì)算機(jī)模擬了另外4500個(gè)（其中只有大約1000個(gè)具有高可信度）；他們還不知道其余6000多個(gè)家族蛋白的結(jié)構(gòu)。

技術(shù)的進(jìn)步不斷給研究人員提供更多的蛋白質(zhì)組學(xué)數(shù)據(jù)。例如，Huhmer提到多種無標(biāo)定量的MS方法可用于每天產(chǎn)生100萬個(gè)數(shù)據(jù)點(diǎn)。此外，結(jié)合MS與冷凍電鏡之類的結(jié)構(gòu)生物學(xué)技術(shù)，可以確定蛋白質(zhì)的三維形狀，從而用來分析一些現(xiàn)在未被描述的結(jié)構(gòu)。“因此，技術(shù)的演化揭示了更多蛋白質(zhì)結(jié)構(gòu)的信息，并推動(dòng)了這個(gè)領(lǐng)域的更多研究。”

值得高興的是，一旦蛋白質(zhì)家族中某一個(gè)成員的結(jié)構(gòu)被解析，隨后就可以通過計(jì)算生物學(xué)模擬該家族中的其他成員結(jié)構(gòu)。“這樣，蛋白質(zhì)數(shù)據(jù)分析結(jié)果會(huì)呈指數(shù)增長(zhǎng)，”Huhmer解釋道。事實(shí)上，計(jì)算生物學(xué)在推動(dòng)蛋白質(zhì)組學(xué)數(shù)據(jù)分析和共享方面發(fā)揮著廣泛的作用。

技術(shù)開發(fā)團(tuán)隊(duì)和科研課題組的密切協(xié)作能夠使科研人員更容易共享蛋白質(zhì)組學(xué)數(shù)據(jù)，并促進(jìn)項(xiàng)目合作。例如，德國(guó)慕尼黑工業(yè)大學(xué)（TUM）、柏林的JPT Peptide Technologies公司（JPT）、瓦爾多夫的SAP公司和賽默飛世爾科技公司創(chuàng)建了一個(gè)聯(lián)盟，幫助科學(xué)家將蛋白質(zhì)組學(xué)數(shù)據(jù)進(jìn)行轉(zhuǎn)化，并應(yīng)用到基礎(chǔ)和醫(yī)學(xué)研究。用戶在這個(gè)叫做ProteomeTools的在線數(shù)據(jù)庫(kù)中可免費(fèi)獲得該聯(lián)盟提交的研究數(shù)據(jù)。

找出數(shù)據(jù)間的聯(lián)結(jié)

ProteomeTools聯(lián)盟的例子清楚地表明，科研人員和機(jī)構(gòu)需要開展新形式的合作，并共享大型蛋白質(zhì)組學(xué)數(shù)據(jù)集。當(dāng)然，當(dāng)科研人員們收集了如此多的數(shù)據(jù)，而實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果之間存在多種可能的聯(lián)結(jié)，于是他們比以往更加專注于新的計(jì)算工具的開發(fā)。

“我認(rèn)為人工智能，機(jī)器學(xué)習(xí)和深度學(xué)習(xí)是能夠激勵(lì)研究者們共享大數(shù)據(jù)的技術(shù)領(lǐng)域。這些技術(shù)需要大量數(shù)據(jù)，因此，一定程度上會(huì)推動(dòng)研究界分享大數(shù)據(jù)，以確保他們的持續(xù)發(fā)展。”Rodriguez指出。

雖然Rodriguez欣喜于這些工具將輔助科研人員發(fā)現(xiàn)那些隱藏的聯(lián)結(jié)，并可能進(jìn)一步催生出新的科學(xué)假設(shè)與研究，但他補(bǔ)充說，“我們必須謹(jǐn)記它不僅僅是關(guān)于技術(shù)本身，也是人們對(duì)數(shù)據(jù)分析方法的進(jìn)一步解釋，審查，挑戰(zhàn)與質(zhì)疑的過程。”

正如Rodriguez解釋的那樣，“這些計(jì)算系統(tǒng)需要更多的合作和開放性科學(xué)數(shù)據(jù)，并以新的方式創(chuàng)造價(jià)值。”他列舉了三個(gè)這種持續(xù)和廣泛合作的例子：國(guó)家癌癥研究所（NCI）的臨床蛋白質(zhì)組學(xué)腫瘤分析聯(lián)盟（CPTAC）計(jì)劃；NCI、國(guó)防部和退伍軍人事務(wù)部合作的應(yīng)用蛋白基因組學(xué)學(xué)習(xí)和成果共享組織網(wǎng)絡(luò)（APOLLO）；國(guó)際癌癥蛋白質(zhì)組聯(lián)盟（ICPC），它們都“鼓勵(lì)通過數(shù)據(jù)共享向公眾提供數(shù)據(jù)”。

為了進(jìn)一步發(fā)揮合作的效力，分析平臺(tái)應(yīng)該具備簡(jiǎn)化數(shù)據(jù)采集和共享的技術(shù)。在這些方面，沃特世公司開發(fā)了一種獨(dú)立于數(shù)據(jù)的串聯(lián)MS數(shù)據(jù)采集方法——SONAR。Langridge說：“整個(gè)思路的核心是能夠以穩(wěn)定一致的方式獲取蛋白質(zhì)組學(xué)數(shù)據(jù)”。對(duì)于每個(gè)測(cè)試樣品，該系統(tǒng)都將獲取肽段和蛋白質(zhì)的定量信息。Langridge解釋到，“不僅僅是鑒定這些蛋白質(zhì)，而是在不同的樣品中收集它們的豐度值。”此外，用戶無需在測(cè)試開始之前決定是否要采集數(shù)據(jù)，因?yàn)镾ONAR會(huì)采集所有數(shù)據(jù)。“靶向?qū)嶒?yàn)的挑戰(zhàn)在于，你需要預(yù)先確定你所關(guān)注的東西。但是你也不清楚是否存在脫靶效應(yīng)，或者是否有其他的生化途徑參與其中，”Langridge說。

收集如此多的數(shù)據(jù)，并以研究人員們可共享、可重新訪問的方式存儲(chǔ)，將會(huì)提高數(shù)據(jù)集的可持續(xù)價(jià)值。“許多已經(jīng)發(fā)表的研究果可能再也沒有被關(guān)注過，”Kruppa指出，“如果數(shù)據(jù)無法輕易共享，則無法驗(yàn)證數(shù)據(jù)。”因此，創(chuàng)建數(shù)據(jù)共享工具可以使得新舊結(jié)果互相得到印證。“另外，這些工具讓你可以分析來自其他科研人員的數(shù)據(jù)，并對(duì)你的研究進(jìn)行更有效更廣泛的比較。”

以前獲得的數(shù)據(jù)集還可以幫助科學(xué)家們開發(fā)工具。例如，可以在現(xiàn)有數(shù)據(jù)集上測(cè)試新的分析工具，并在需要時(shí)進(jìn)行調(diào)整。Kruppa指出，“許多研究人員正致力于開發(fā)包含人工智能分析技術(shù)的新工具。只要既有的數(shù)據(jù)可以輕松共享，這些工具就可以在以前的數(shù)據(jù)集上進(jìn)行驗(yàn)證。”

數(shù)據(jù)是否易于共享取決于其格式。為此，布魯克開發(fā)了捕獲型離子淌度——飛行時(shí)間質(zhì)譜（timsTOF Pro MS/MS）平臺(tái)，以獲得格式通用的數(shù)據(jù)。Kruppa說：“該儀器將采集大量數(shù)據(jù)，我們需要使其易于使用。如果沒有這種數(shù)據(jù)兼容性，即使是最先進(jìn)的計(jì)算工具也會(huì)在嘗試數(shù)據(jù)集比較時(shí)遇到障礙。”

查看共享內(nèi)容

這一點(diǎn)已經(jīng)很清晰了：蛋白質(zhì)組學(xué)專家們并不缺乏數(shù)據(jù)。相反，他們中的大多數(shù)人可能會(huì)同意Coon的觀點(diǎn)：“我們被數(shù)據(jù)淹沒了。”

Coon指出，最好是從同一個(gè)實(shí)驗(yàn)中收集所有原始MS數(shù)據(jù)并對(duì)其進(jìn)行批量化處理。“大家都希望以同樣的方式收集和分析所有的樣本，”他說。

完成這項(xiàng)工作，特別是分析部分，往往需要科研人員們開發(fā)自己的工具。例如，Coon聘請(qǐng)了一名數(shù)據(jù)分析專家，用兩年時(shí)間構(gòu)建了一個(gè)可視化工具。他們的研究團(tuán)隊(duì)需要一種方法來分析、組織并結(jié)合項(xiàng)目產(chǎn)生的所有蛋白質(zhì)組學(xué)、脂質(zhì)組學(xué)和代謝組學(xué)數(shù)據(jù)集。因此，Coon和他的同事將他們的數(shù)據(jù)查看器集成到了一個(gè)網(wǎng)站中。

“我們首先將一個(gè)酵母研究項(xiàng)目的相關(guān)數(shù)據(jù)進(jìn)行了這樣的展示，以方便人們使用這些數(shù)據(jù)�，F(xiàn)在我們?yōu)槊總€(gè)項(xiàng)目創(chuàng)建一個(gè)這樣的網(wǎng)站。”有了Coon的查看器，他們不再需要給訪問者提供一個(gè)8000列的Excel電子表格，其他研究人員也可以快速地對(duì)不同樣本來源的數(shù)據(jù)就行比較。“他們可以非常快速地對(duì)數(shù)據(jù)進(jìn)行查詢。”Coon解釋。

雖然Coon說他還沒有發(fā)現(xiàn)很多與他的辦法類似的例子，但他發(fā)現(xiàn)這有助于他的團(tuán)隊(duì)和其他同行從數(shù)據(jù)集中提取有用的生物信息，因?yàn)樗麄兛梢酝ㄟ^查詢它，而非常快速地比較樣本和數(shù)據(jù)點(diǎn)。

“大多數(shù)實(shí)驗(yàn)室需要弄清楚當(dāng)他們獲得如此多的數(shù)據(jù)之后，如何從原始MS文件中獲得有用的信息。他們也許有自己的工具去解決這個(gè)問題，”Coon指出。“但目前還沒有那么多脫穎而出的選項(xiàng)供大家使用。人們也不像重視硬件那樣重視軟件。”

然而，為了共享大型蛋白質(zhì)組學(xué)數(shù)據(jù)集，必須持續(xù)優(yōu)化硬件和軟件。此外，科研人員必須保持?jǐn)?shù)據(jù)質(zhì)量。Rodriguez表示，雖然“一提起大數(shù)據(jù)，數(shù)據(jù)的大小就會(huì)跳出來。但從獲取知識(shí)的機(jī)會(huì)來看，從大數(shù)據(jù)中汲取的信息內(nèi)容和質(zhì)量是我理解的大之所在。”■

（譯者李楠是中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院的副研究員。）

Mike May 是佛羅里達(dá)州的自由撰稿人和編輯。
鳴謝：“原文由美國(guó)科學(xué)促進(jìn)會(huì)（www.aaas.org）發(fā)布在2018 年6 月14 日《科學(xué)》雜志”。官方英文版請(qǐng)見https://www.sciencemag.org/features/2018/06/
translating-big-data-proteomics-challenge。

《科學(xué)新聞》 (科學(xué)新聞2019年8月刊科學(xué)·生命)

發(fā)E-mail給：

| 打印 | 評(píng)論 |