過去幾年,大模型發(fā)展非常迅猛,可謂風(fēng)起云涌。最近開源社區(qū)活力十足,展現(xiàn)了強大的生命力。毫無疑問,開源模型非常重要,如Meta公司發(fā)布的開源大模型LLaMA,促進(jìn)了大模型的繁榮發(fā)展。國內(nèi)要抓住機遇,讓整個開源生態(tài)越做越好。
就“大模型時代的機遇和挑戰(zhàn)”這個主題,我分享一些自己在人工智能開發(fā)和技術(shù)等方面的心得體會。
大模型令人震撼的三件事
近期關(guān)于大模型,有三件令人震撼的事情。
第一件事是文生圖。正所謂“一圖勝千言”。最近,一張由人工智能創(chuàng)作的圖片登上了美國知名時尚雜志Cosmopolitan。這張圖是在給出簡單提示語——“在浩瀚的星空下,一位女宇航員昂首闊步地走向這個廣角鏡頭”后,由人工智能系統(tǒng)生成的。我很喜歡這張圖片,非常有視覺沖擊力。據(jù)我所知,這是第一張登上美國知名雜志的人工智能圖片。
沒過多久,一位德國攝影師用人工智能技術(shù)生成了一張以兩位女性為主體的照片,并投稿給一個攝影展,沒想到居然獲獎了。許多攝影師覺得這張照片看起來和真的攝影作品一樣,是一個非常棒的作品。但這位德國攝影師拒絕領(lǐng)獎,因為覺得這是人工智能的作品,不是他的。這件事帶給人們很多啟發(fā),了不起的技術(shù)發(fā)展為我們帶來很多社會層面的思考。
第二件事是ChatGPT的效果提升。在文生文中,提示語可以產(chǎn)生“一句頂一萬句”的效果,即問一句話可以給出很多好的答案。我在作演講前會問它我應(yīng)該講些什么,它能給出非常好的框架。
第三件事是Sora的誕生。給人工智能視頻生成大模型Sora一段提示詞,如“一輛車行駛在懸崖上的土路上,塵土飛揚”,其生成的視頻效果非常震撼。不僅視頻質(zhì)量很高,而且是長視頻。Sora類似的演示視頻還有很多。目前,Sora還沒有對公眾正式開放,相信國內(nèi)已經(jīng)有很多單位在做同樣的事情,預(yù)計下半年會看到一些類似的系統(tǒng)面世。
這幾件事發(fā)生后,國內(nèi)已經(jīng)有非常多的公司和開發(fā)者開展了相關(guān)工作。據(jù)說,現(xiàn)在全國大概有超過200家做大模型的公司,可以稱之為“百模大戰(zhàn)”。我覺得現(xiàn)在還沒有到“戰(zhàn)”的程度,更像是“群模亂舞”。
對開發(fā)者和科研工作者而言,大模型之所以令人振奮,是因為它帶來了機會。
但是,要把科研做好,創(chuàng)新必不可少。在當(dāng)前已有如此多令人震撼的突破面前,開發(fā)者接下來應(yīng)該朝什么方向思考?未來最大的技術(shù)機會在哪里?我覺得,一個潛在的方向是多模態(tài)。
當(dāng)前,以O(shè)penAI為代表的機構(gòu),技術(shù)上是把不同模態(tài)分開來做。比如,OpenAI內(nèi)部恐怕有兩套體系,文生文走的是Transformer路線;文生視頻整體走的是Diffusion路線,即從DALL-E文生圖延展到現(xiàn)在的Sora。迄今為止,這兩條線路還沒有完全統(tǒng)一,相信接下來在這個領(lǐng)域,來自全球的開發(fā)者很快會有一些突破。
大模型對人工智能發(fā)展局勢的改變,除了技術(shù)突破之外,產(chǎn)品設(shè)計也很重要。此前,我們在粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院做了一款產(chǎn)品叫做“ReadPaper”,初衷是幫助研讀科學(xué)論文,理念是“讓天下沒有難讀的論文”。當(dāng)時我們自認(rèn)做得不錯,但在大模型出現(xiàn)之后,我們看到了更好的機會,做了相對垂類的大模型。接入之后,ReadPaper的體驗更好了。
對于人工智能發(fā)展的幾點思考
在這樣一個智能時代,機會到底在哪里?許多人一直討論同一個詞——通用人工智能(AGI)。對此,我分享幾點思考。
首先,要重新思考人機關(guān)系。我認(rèn)為,大模型的問世“強迫”我們重新思考人機關(guān)系。ChatGPT給我們帶來的沖擊里,到底有多少是機器智能的發(fā)展帶來的?又有多少是對于人機交互的震撼?
科技學(xué)者、普利策獎得主約翰•馬爾科夫有一本書叫做Machines of Loving Grace。他在書中提到,計算機幾十年的發(fā)展歷程中,真正的贏家是那些做人機交互的人。他的觀點是,無論是什么技術(shù),最終目的都是幫助人類更好地使用機器。這種理念對應(yīng)一個專業(yè)術(shù)語,即“智能增強”。我認(rèn)可他的觀點,這也啟發(fā)我們要時刻想清楚做智能研究的初心和目標(biāo)。
其次,大模型將橫掃所有垂直行業(yè)。簡單來說,以A100為參考,未來的模型如果達(dá)到通用模型的性能,會達(dá)到萬卡、萬億參數(shù)規(guī)模;有行業(yè)級的,千卡、千億參數(shù)規(guī)模;有企業(yè)級的——這種少一些,差不多是百卡、百億參數(shù)規(guī)模。我個人覺得最有意思的是個人大模型,云、端的設(shè)備可以結(jié)合起來,這在未來將非常有意義。
再次,算力是門檻。做大模型需要非常強大的算力。英偉達(dá)首席執(zhí)行官黃仁勛當(dāng)年曾經(jīng)送給聯(lián)合創(chuàng)辦OpenAI的埃隆•馬斯克世界上第一臺英偉達(dá) DGX-1。這是標(biāo)志性的一幕。最近,OpenAI首席執(zhí)行官Sam Altman要籌7萬億美元繼續(xù)發(fā)展基于大模型的通用人工智能。7萬億美元是什么概念?以前人們常說“貧窮限制了想象”,現(xiàn)在可能是貧窮“扭曲”了我們的想象力。因為沒有資金、沒有計算卡,你能想象的、可以做的項目跟頂級選手就不太一樣。
這其實在講大家已經(jīng)談?wù)摵芏嗟?ldquo;規(guī)模效應(yīng)”。在規(guī)模效應(yīng)背后,算力、數(shù)據(jù)量都在增加,尤其參數(shù)規(guī)模的增加對算力的需求幾乎是平方關(guān)系。GPT-3.5可能需要1萬張計算卡,GPT-4可能需要2.5萬張,GPT-5可能需要10萬張。
第四,要對人工智能帶來的社會沖擊保持關(guān)注。人工智能帶來的沖擊是多方面的,包括對民眾的沖擊、對公司的沖擊、對政府監(jiān)管的沖擊和對社會發(fā)展的沖擊。國際上對此非常關(guān)注,尤其是在ChatGPT問世后。為什么?如果把搜索引擎類比為一個責(zé)任有限公司,則ChatGPT是責(zé)任無限公司——每句話都是它自己生成出來的。
ChatGPT有一個很大的問題,就是“一本正經(jīng)地胡說八道”。它連貫且一致,但是它在胡說八道,這就會產(chǎn)生很多問題。還有一些“深度偽造”的問題,就連美國總統(tǒng)的臉都可以偽造。基于這樣的情況,很多國家開始立法。我國政府也一直高度關(guān)注這些問題,整個國際社會都在努力減小人工智能帶來的沖擊。
最后,雖然人工智能蓬勃發(fā)展,但目前大家對智能的本質(zhì)尚未形成非常清晰的認(rèn)知,深度學(xué)習(xí)理論仍然欠缺。大家都希望有一套大一統(tǒng)的理論,將智能的本質(zhì)統(tǒng)一起來。遺憾的是,現(xiàn)在深度學(xué)習(xí)領(lǐng)域還沒有這樣的理論。
紐約大學(xué)教授Gary Marcus 一直致力于推動這個方向的發(fā)展。他堅信無論ChatGPT怎么發(fā)展,現(xiàn)在的技術(shù)路線無法帶來真正的智能。我認(rèn)為這是學(xué)術(shù)上很好的不同觀點,應(yīng)該以開放的心態(tài)看待整件事情。類似的,開發(fā)出Transformer的7位作者曾在與黃仁勛對談時說過,他們相信世界上會出現(xiàn)比Transformer更好的架構(gòu)。
另外,許多人認(rèn)為,大模型只要規(guī)模大到一定程度,就會出現(xiàn)“涌現(xiàn)”。去年,我與一些國際專家在香港科技大學(xué)的一個學(xué)術(shù)活動上探討“涌現(xiàn)”背后的數(shù)學(xué)原理等問題。大家談到,是不是(會有)“涌現(xiàn)”尚不可知,如果確實存在“涌現(xiàn)”,背后的機制是什么?規(guī)模在多大的時候才會出現(xiàn)“涌現(xiàn)”?是否存在類似水到冰的相變的臨界點?這些問題現(xiàn)在還沒有人能給出回答,值得人們在數(shù)學(xué)方面更進(jìn)一步地研究!
(作者系美國國家工程院外籍院士,記者趙廣立根據(jù)其在2024全球開發(fā)者先鋒大會上的演講整理)
《科學(xué)新聞》 (科學(xué)新聞2024年4月刊 封面)