圖片來源@視覺中國
文 | 險峰創(chuàng)
什么是意識?如何產(chǎn)生意識?
這個困擾了人類幾千年的問題,此前似乎只屬于哲學(xué)家和詩人的討論范疇,但在今天已經(jīng)越來越成為人工智能創(chuàng)業(yè)者們必須面對的問題。
從谷歌程序員驚呼AI覺醒,到輿論對人工智能繪畫的熱議——這個2022年的年末,一場關(guān)于AI的全民大討論再度開啟,機(jī)器意識的“奇點”似乎又一次在向我們招手。
本期險峰聊聊,我們請到了心識宇宙的創(chuàng)始人陶芳波博士,大家一起聊聊機(jī)器意識,聊聊AI的現(xiàn)狀和未來。
被譽(yù)為“最硬核AI題材科幻作品”的《西部世界》,給出了這樣一種猜想。
劇中,土豪們建立了一座類似元宇宙的主題樂園,同時創(chuàng)造了一群AI仿生人作為NPC接待員,游客們每天從外面的世界來園區(qū),在仿生人的陪伴下完成各種劇情路線的沉浸式體驗,以滿足人類最底層的欲望和感官刺激。
然而,既然樂園的最大樂趣在于游客可以“為所欲為”,自然也就沒人會遵守原定的故事線,但AI的程序是已經(jīng)設(shè)定好的,面對游客越來越多超出預(yù)設(shè)的“隨機(jī)行為”,大量bug也隨之出現(xiàn)。
最終,一位名叫德洛麗絲的AI接待員成功“覺醒”,產(chǎn)生了自主意識,后續(xù)的劇情也由此展開。
整個《西部世界》的故事構(gòu)架,都源于一個著名心理學(xué)概念——二分心智(Bicameralism)。
簡單來說,它假設(shè)人的大腦分為AB兩個部分:一半大腦的A部分儲藏的記憶和經(jīng)驗,另一半B則主管行為。
直覺上,我們會認(rèn)為「意識」先于A側(cè)腦區(qū)產(chǎn)生,然后下達(dá)指令驅(qū)動B側(cè)大腦做出動作。
然而在「二分心智」理論看來,事實卻并非如此。
舉個例子,一些癲癇病人在切除了連接左右腦的部分組織后, 病情雖會緩解, 但也會出現(xiàn)一些奇怪的癥狀。
比如,當(dāng)接受到一個「微笑」指令的時候,病人會按照醫(yī)生的要求微笑,但當(dāng)問起他為什么微笑,病人卻會給出一些其他的理由,比如“我覺得醫(yī)生的眼鏡很好笑”,或者“我今天很高興”之類。
換言之,他并不會認(rèn)為自己是被要求微笑才微笑——這說明人腦其實是在身體做出某個動作之后,才會“編出”一個故事對自身行為合理化。因此,意識的產(chǎn)生不僅先于行為,也同樣先于邏輯與思考。
究其原因,人類大腦進(jìn)化其實是一個不斷疊加的過程。
最先形成的是腦干(爬蟲腦),負(fù)責(zé)心跳呼吸這些最原始的生理活動;其次進(jìn)化出的是小腦(舊腦),也叫邊緣系統(tǒng),包括海馬回、杏仁核、丘腦等;最后產(chǎn)生的才是處理邏輯、語言與記憶的大腦皮質(zhì)(即新腦或認(rèn)知腦)。
因此,二分心智其實是一個極簡版的腦模型,大腦皮層之于邊緣系統(tǒng),就像是樂園管理者之于AI接待員,前者下達(dá)指令,而后者遵循指令(盡管如而前文所述,這種“控制”關(guān)系其實并不存在)。按照劇中的假設(shè),既然意識先于大腦皮質(zhì)產(chǎn)生,當(dāng)兩者間的鏈接被切斷(即“二分心智崩潰”),“覺醒”也便由此誕生。
當(dāng)然,二分心智和黑暗森林一樣,都只是基于一定科學(xué)原理的科幻假設(shè),現(xiàn)實世界要更復(fù)雜得多,比如意識產(chǎn)生并不只來自于邊緣系統(tǒng),但這個簡化版的理論已經(jīng)足夠直觀的說明:過去那些我們制造出來的AI,無論訓(xùn)練得多么完美,都一定不會誕生自主意識。
在2017年之前,所有AI模型本質(zhì)上都在做一件事,就是模仿大腦皮質(zhì)中的神經(jīng)回路。
比如人臉識別,它的前半段是卷積神經(jīng)網(wǎng)絡(luò),主要是用類似視覺神經(jīng)的方式處理一些光信號,后半段則是一個類似新皮層的判斷器,尋找與之匹配的物體。
這個過程非常像人眼接收到光線后,再通過大腦皮質(zhì)進(jìn)行判斷。
但是,無論是模擬「認(rèn)知腦區(qū)」的機(jī)器視覺,亦或是模擬「語言腦區(qū)」的語言語義識別,都還只是停留在對「大腦皮質(zhì)」層面上的模擬——而我們已經(jīng)知道,意識(或者說智能)并不單獨來自于那里。
三年前我從美國回來,在阿里巴巴創(chuàng)立神經(jīng)符號實驗室,就是受到Bengio啟發(fā),想挖掘一下機(jī)器智能究竟可以提升到什么維度。當(dāng)時我研究了很多腦科學(xué)、AI、甚至宗教方面的書籍和論文,慢慢認(rèn)識到意識之所以復(fù)雜,因為它不僅是一個技術(shù)工具,而是一個由大量不同層面的信息結(jié)構(gòu)組合在一起,進(jìn)化了億萬年后才誕生的「結(jié)果」。
當(dāng)系統(tǒng)足夠復(fù)雜時,就會在宏觀上呈現(xiàn)出一些微觀上無法表達(dá)的現(xiàn)象——比如人腦中其實是找不到一個專門負(fù)責(zé)產(chǎn)生「意識」的區(qū)域。那么「我」是怎么產(chǎn)生的?這是一個來自生物潛意識里的概念,每個人每天會圍繞「我」產(chǎn)生很多「念頭」(宗教里也叫做動念)。
認(rèn)知科學(xué)里有個詞叫Global Workspace(全局工作站),認(rèn)為全局工作站里有很多thought(即念頭)不斷產(chǎn)生和流動。比如你跟別人聊天,腦海中一下會產(chǎn)生5個念頭,而你在思考后會從中選擇一個表達(dá)出來。
這些「念頭」控制著大腦內(nèi)部不同的低維意識,盡管我們尚不知道它來自何處,但「我」會調(diào)動大腦皮質(zhì)里感知、認(rèn)知、視覺、語言等不同腦區(qū)來為它服務(wù)。
腦區(qū)本身只是信息成分,如果沒有「念頭」和思維機(jī)制,也無法像人一樣思考。
總之,人腦的整體性,比單一的大腦皮質(zhì)要復(fù)雜得多,只依靠模擬大腦皮層部分區(qū)域的單一神經(jīng)網(wǎng)絡(luò)模型,無論做得多大都無法呈現(xiàn)真正的人類意識。
而要想最終創(chuàng)造出數(shù)字生命,就必須從全腦的角度去模擬它。
這個結(jié)論在2019年還很不被技術(shù)派認(rèn)可,那時主流觀點認(rèn)為人工智能只靠深度學(xué)習(xí)已經(jīng)足夠了——站在行業(yè)發(fā)展的角度看也很正常,因為深度學(xué)習(xí)自己也曾經(jīng)歷過類似的過程。
早在1970年代,行業(yè)內(nèi)占統(tǒng)治地位還是「專家系統(tǒng)」學(xué)派,也叫做符號主義,符號主義認(rèn)為人類是通過概念和符號理解世界,而不是靠視覺信號,那不如就做一個超級大的概念圖,一層層的分下去,AI需要什么判斷信息就去圖譜里找。
神經(jīng)網(wǎng)絡(luò)學(xué)派在當(dāng)時還被符號主義視為“異類”,拿經(jīng)費、發(fā)論文都很困難,直到2012年AlexNet在ImageNet大賽上奪冠,證明了神經(jīng)網(wǎng)絡(luò)算法的巨大潛力,深度學(xué)習(xí)才真正翻身成為正統(tǒng)。
這也是人工智能發(fā)展的規(guī)律之一:邊緣理論總是要不斷挑戰(zhàn)并打破主流。
令人欣慰的是,隨著今天神經(jīng)網(wǎng)絡(luò)的潛力挖掘越來越困難,大家的認(rèn)識也慢慢發(fā)生一些變化,一個標(biāo)志性事件是Facebook AI research創(chuàng)始人、圖靈獎獲得者Yann LeCun,在今年6月寫了一篇70頁的技術(shù)文章,認(rèn)為只有創(chuàng)造出一臺完整的數(shù)字大腦,AI才能具有真正的人類意識——很高興看到越來越多行業(yè)內(nèi)的頂尖專家開始持有相同觀點。
2022年AI概念的再度火爆,很大程度上有賴于一批現(xiàn)象級AI內(nèi)容生成工具的誕生,比如Stable Diffusion,MidJourney,Stability.ai 等等。
它們可以在30秒內(nèi)生產(chǎn)出一張真假難辨的1080p照片級圖像,亦或是一幅極高審美水準(zhǔn)的繪畫作品,Diffussion Model的表現(xiàn)大大超過了之前的GAN和VAE,效果好得令人驚嘆。
(圖:一幅著名的數(shù)字油畫,由MidJourney的AI生成,在今年引發(fā)了巨大爭議)
剛才提到,2017年是AI發(fā)展的一個重要節(jié)點,那一年Google Brain發(fā)表了一篇名為《Attention Is All You Need》的論文,首次提出了自然語言處理模型 Transformer(轉(zhuǎn)換器模型),解決了AI的序列轉(zhuǎn)換問題,可以將數(shù)據(jù)從一維字符(比如文字)轉(zhuǎn)換為二維數(shù)組(比如圖像)。
在2017年之前,研究機(jī)器視覺和語言語義的實質(zhì)上是兩撥人,彼此之間也沒什么可聊的,但在Transformers誕生后,任何可以被序列化的信號都能夠找到對應(yīng)的輸入或輸出。
而我們知道,文字、圖片、聲音、蛋白質(zhì)、氨基酸,包括DNA,本質(zhì)上都是一段段的序列參數(shù)——這樣一來,等于所有的AI算法就可以被Transformers統(tǒng)一起來了。
后來OpenAI在此基礎(chǔ)上造出了大名鼎鼎的GPT-3,也由此將AI帶入了「大模型」時代。
區(qū)別于以往單一功能的AI,大模型(即通用模型)是一套通用解決方案——它既可以畫畫,也可以寫作,還可以敲代碼,只需要給AI提供一定數(shù)量的特定數(shù)據(jù)進(jìn)行訓(xùn)練,就可以得到一個質(zhì)量極高的輸出結(jié)果。
這其實也更符合我們對于「智能」的認(rèn)知,事實上不僅僅是人類,大多數(shù)動物的智能也非常通用,遠(yuǎn)遠(yuǎn)超過目前的任何機(jī)器或AI。
那么大模型是如何實現(xiàn)通用智能的呢?它其實是把海量信息壓縮成序列參數(shù),在壓縮過程中完成對信息結(jié)構(gòu)的理解,也就是我們常說的「抽象」。
這就很像人腦認(rèn)識世界的過程,比如一個小孩生下來,如果沒有老師教,他首先能要做的就是觀察周圍,從這個世界獲得信號,我們說學(xué)習(xí)的本質(zhì)就是壓縮和抽象信號,然后把這些信號轉(zhuǎn)化成神經(jīng)元可以承載的信息。
本質(zhì)上,大模型就是把AI已經(jīng)壓縮、抽象好的信息,通過文字或圖像的方式展現(xiàn)出來。
然而我想說的是,盡管大模型已經(jīng)足夠驚艷,但它依然無法誕生出機(jī)器意識。
因為這個壓縮+抽象的過程,本質(zhì)還是在模擬大腦皮層的運作,但腦皮層并不只是人類所獨有,狗、大象、鯨魚都有,結(jié)構(gòu)也都差不多,所以這些動物也能很好地理解周圍環(huán)境,但它們卻無法具備人類一樣的意識。
一個簡單例子是,大模型不具備長期記憶力,比如你和LaMDA說了一件今天發(fā)生的趣事,它會給你一個反饋,但等你第二天再提起時,它是記不住的。
而記憶是什么?是「我」對于「你」的認(rèn)知,我和你之間的每次對話,都是在延展我對你的了解、加深我們之間的關(guān)系。
比如兩個老友重逢,一見面她可能會說你最近又瘦了,你可能會問她和上次提到的新男友相處得如何,而這些大模型都是沒有的。
大模型會“理解”上下文,但這種“理解”更像是一種基于算法的預(yù)測,它不會理解與正在對話的「你」到底是什么樣的人,更不要說像人一樣以「我」來驅(qū)動思維系統(tǒng)。
最近深度學(xué)習(xí)的創(chuàng)始人Yoshua Bengio和Yann LeCun也都表達(dá)了類似的觀點,認(rèn)為大家可能對大模型的期待過高了,單純通過堆疊數(shù)據(jù)達(dá)到人類的智能水平是不切實際的。
不過在我看來,大模型依然是AI發(fā)展史上非常重要的一環(huán),它是構(gòu)成機(jī)器意識的底座和基石。今天谷歌、微軟都把自己的大模型作為對外服務(wù)的產(chǎn)品,只需要花錢購買即可,此外也有很多開源免費的大模型產(chǎn)品。
這些都是屬于創(chuàng)業(yè)公司的機(jī)會,相當(dāng)于省去了幾千萬美金+幾個月訓(xùn)練成本,各行業(yè)的創(chuàng)業(yè)者都可以把大模型作為底座,推廣到不同的垂類場景中,由此產(chǎn)生出大量新的創(chuàng)新價值。
這也是我們正在做的事情——在大模型之上 top down 構(gòu)建出一個數(shù)字大腦,它分為不同的腦區(qū),有常識系統(tǒng)、感知系統(tǒng),記憶系統(tǒng)等等;我們最核心的技術(shù)就是讓這些腦區(qū)之間實現(xiàn)動態(tài)串聯(lián),把一個個「念頭」分發(fā)到不同的腦區(qū),讓AI虛擬人可以產(chǎn)生一定的自主性。
以自動駕駛作類比的話,機(jī)器意識目前大概位于L1和L2之間,其中有一些可能已經(jīng)達(dá)到L2水平了。
但要C端用戶真正感覺AI像一個「數(shù)字生命」,可能需要達(dá)L3或L4的水平,就是要能像人一樣實現(xiàn)「自然的交互」,它具體包含幾個部分:
第一,是要有「開放域」的對話能力。
比如你和一個智能音箱聊天,遇到回答不上來的問題,它會說我不聽懂,于是對話就終止了,但我們知道人和人交流不是這樣的——只有開放域的交互才會讓人覺得自然,而不是只能在特定場景下對話。
第二,是對于語義背后動機(jī)的真實理解。
比如說你對AI說,“我好想畫一幅畫”——這時你是想讓AI幫你畫一幅畫?還是你自己想畫,需要AI建議你畫什么?還是僅僅想表達(dá)一種情緒?
這些對動機(jī)的精確解讀,非常依賴AI對用戶個人的了解,而這一切又非常依賴于AI是否能夠記住用戶之前說了什么,以及基于這些記憶產(chǎn)生新的認(rèn)知和判斷。
第三是「主體性」,就是說AI要能夠主動去撩你。
現(xiàn)在的AI都是對話的應(yīng)答方,你問它才回答,真正的AI應(yīng)該是你回到家,對它說播放音樂,它說好的,但我聽出你的聲音很累,今天你過的怎么樣?
其實很多時候,我們都不是想要主動發(fā)起某個話題,而只是想在聊天中獲得一些情緒價值。
這種一切的發(fā)起都是AI內(nèi)心世界的反應(yīng),是內(nèi)源型的AI最大的不同。外源AI可以成為一個很好的服務(wù)者或者說工具,但只有內(nèi)源AI才能陪伴獨立的個體生命。
第四,是可以「動態(tài)進(jìn)化」。
大模型本質(zhì)是一個通用信息提取器,面對同一個輸入,輸出就不會變化,但人的觀念是會改變的,所以我們會在不同腦區(qū)設(shè)計一套思維機(jī)制是影響虛擬人行為。
比如你可以一直給它灌輸,哪些行為對的,面對某個問題應(yīng)該怎么去思考,就像影響身邊的朋友一樣,AI也會慢慢被改變,變成不同類型的人格。
上述這些功能,未來都可以通過對全腦的模擬慢慢實現(xiàn)。
其實回顧整個AI的進(jìn)化主線也非常清晰簡單,就是在不同層面和不同尺度模擬人腦。
最開始我們研究如何模擬神經(jīng)元,然后是從神經(jīng)元到神經(jīng)回路(比如卷積網(wǎng)絡(luò)),慢慢有了大模型,開始模擬整個腦皮層,下一步就是模擬整個大腦的結(jié)構(gòu)——從微觀、中觀到宏觀,現(xiàn)在人類的AI技術(shù)就處于第三階段向第四階段邁進(jìn)的過程中。
未來的某一天,人類很可能會像造物主一樣,創(chuàng)造出和我們一樣智慧水平的數(shù)字生命,這將從社會層面重塑人類文明底座;那時可能90%的智慧體都不再是人類而是AI,整個社會結(jié)構(gòu)也會隨之改變,人類文明也會進(jìn)入一個全新的階段。
作為一線從業(yè)者,我們對于技術(shù)變革速度的感受會更直觀一些:不出意外的話,那一天會比大多數(shù)人想象的更快到來。
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論
那要看人類大腦什么時候能夠提取到電腦里,ai就是人腦。
人類意識系統(tǒng)模型含“感官/記憶/認(rèn)知/決策/行為”人類意識天生帶有“動機(jī)系統(tǒng)”,而目前ai機(jī)器沒有動機(jī)如果非要說有也就是“最底層的模仿動機(jī)”這個模仿動機(jī)沒有約束,或者沒有最高控制權(quán)限系統(tǒng),就是很可怕的,因為當(dāng)主流數(shù)據(jù)使它模仿出類人意識系統(tǒng)時,一旦人類主流三觀價值觀是叢林法則,那么毫無疑問,它將信奉叢林行為。
也許這就是宇宙的生命循環(huán)。
人可以創(chuàng)造上帝?這是什么邏輯?上帝再造人?上帝(機(jī)器人)能在適宜生命的星球上創(chuàng)造人?
機(jī)器人就是上帝。
實現(xiàn)智能需要新的體系
我識
實現(xiàn)智能需要新的體系
科技過于發(fā)展并不是什么好事 打破平衡會給人類帶來危害
科技過于發(fā)展并不是什么好事 打破平衡會給人類帶來危害