人工智能現(xiàn)在有多“像人”?
新華社北京5月29日電 新聞分析|人工智能現(xiàn)在有多“像人”?
新華社記者彭茜 張漫子
隨著人工智能大語言模型的不斷迭代,其在類人智能方面取得了不少亮眼進展——會解讀心理、察言觀色,進行多輪實時語音對話,甚至還掌握了人類的欺騙、奉承等手段……這是否意味著我們距離實現(xiàn)通用人工智能已不再遙遠?當人工智能“進化”得“更像人”,又會給人類社會帶來哪些潛在風(fēng)險?
2023年11月,首屆人工智能安全峰會在英國布萊奇利園舉行,峰會發(fā)布《布萊奇利宣言》。新華社記者李穎攝
察言觀色,接近真人
對他人心理狀態(tài)進行解讀的能力是人類社交的關(guān)鍵。近日發(fā)表在英國《自然·人類行為》雜志上的新研究發(fā)現(xiàn),有的大語言模型在評估解讀他人心理狀態(tài)能力的測試中與真人表現(xiàn)相當,甚至在識別諷刺和暗示等測試項目中的表現(xiàn)勝過一些人。
解讀和推斷他人心理狀態(tài)的能力被稱為“心智理論”,是人類社交互動的核心能力,涉及溝通、共情和社會決策等。德國漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心等機構(gòu)研究人員測試了美國開放人工智能研究中心(OpenAI)發(fā)布的GPT系列大語言模型以及美國“元”公司發(fā)布的LLaMA2大語言模型在解讀他人心理狀態(tài)方面的表現(xiàn),并與人類比較。
研究人員為大語言模型設(shè)置了通常用于評估“心智理論”涉及能力的5項測試:分別為識別錯誤信念、諷刺、失言、暗示和含有誤導(dǎo)信息的奇怪故事,并將大語言模型的識別水平與1907名人類參與者相比較。研究發(fā)現(xiàn),在所有5項測試中,GPT-4有3項測試(識別諷刺、暗示、奇怪故事)的表現(xiàn)優(yōu)于人類,一項測試(識別錯誤信念)表現(xiàn)與人類相當,僅在識別失言的測試中遜于人類;而LLaMA2僅在識別失言的測試中勝于人類,其他測試項目表現(xiàn)均不及人類。
而OpenAI本月新發(fā)布的模型GPT-4o,則在與人的自然交互方面達到新高度,它可進行文本、音頻和圖像多模態(tài)的識別與回應(yīng),且更具“人情味”。它與使用者的語音對話基本無延遲,會傾聽,能嘮嗑,可變換各種語調(diào)。它還能識別人的面部表情、感知發(fā)言者的語氣和情緒,并給出相應(yīng)回應(yīng),讓人驚呼“更像人”了。
欺騙人類,警惕風(fēng)險
人工智能在擬人方面的進步不僅體現(xiàn)在“善解人意”上,甚至還學(xué)會了人類的欺騙、奉承等手段。此前,美國麻省理工學(xué)院等機構(gòu)的研究團隊在美國細胞出版社旗下《模式》雜志發(fā)表綜述文章稱,通過習(xí)得性欺騙,一些人工智能系統(tǒng)地學(xué)會了“操縱”他人。
研究發(fā)現(xiàn)最引人注目的欺騙案例是“元”公司的“西塞羅”人工智能系統(tǒng),它被設(shè)計在一個虛擬外交戰(zhàn)略游戲中作為人類玩家的對手。盡管“元”公司聲稱,該系統(tǒng)“在很大程度上是誠實和樂于助人的”,但研究人員發(fā)現(xiàn),該系統(tǒng)在玩游戲時為達成比賽目標,背叛了盟友。
其他人工智能系統(tǒng)則具有在撲克游戲中虛張聲勢的能力,或在戰(zhàn)略游戲“星際爭霸2”中為擊敗對手而假裝攻擊,以及為了在談判游戲中占上風(fēng)而采取欺騙手段。
當人工智能掌握了欺騙技能,是否會給人類社會帶來安全隱患?研究人員在文章中詳述了人工智能欺騙帶來的風(fēng)險,如欺詐、制造假新聞、操縱選舉等。
4月23日,在德國漢諾威工博會上,參觀者與一款智能機器人進行“石頭剪子布”游戲。新華社記者任鵬飛攝
研究人員認為,“目前不可能訓(xùn)練出一個在所有可能的情況下,都不能實施欺騙的人工智能模型”,進而警示如果人工智能繼續(xù)完善這套技能,人類可能會失去對它們的控制。因此建議盡可能用更多時間為未來人工智能產(chǎn)品和開源模型的更高級欺騙做好準備。
通用智能,尚未實現(xiàn)
盡管人工智能已在一些方面“進化”得十分像人,但相關(guān)專家指出,對大模型的“類人智能”需要有更清醒認知。目前距離實現(xiàn)完全類人、具備泛化能力的通用人工智能還有一定距離。
中國科學(xué)技術(shù)大學(xué)機器人實驗室主任陳小平接受新華社記者采訪時指出,要警惕人類對大模型產(chǎn)生“幻覺”。大模型學(xué)習(xí)大量歷史數(shù)據(jù),輸出的表達方式符合許多人的語言習(xí)慣,讓許多人誤以為大模型會“說人話”或“理解人”,繼而以為它具有某種“社會屬性”,但實際上它沒有心智。
“人工智能的內(nèi)部工作原理與人類智能不同,但在某些局部是類似的。如果認為人工智能和人類智能相同,差別只在硬件載體的不同,就會做出很多不切實際的判斷!彼f,目前對大模型測評的方法,基本上仍是傳統(tǒng)軟件的測評方法,因此需對這種方法得出的測評結(jié)果保持適度的審視態(tài)度。
漢堡-埃彭多夫大學(xué)醫(yī)學(xué)中心的研究人員認為,大語言模型在“心智理論”涉及能力的測試中表現(xiàn)與人類相當,并非表明它們具有等同于人類的能力,也不意味著它們擁有人類“心智”。他們建議,未來研究可關(guān)注大語言模型在心理推理中的表現(xiàn)將如何影響人類個體在人機交互中的認知。
這是2023年7月在上海舉行世界人工智能大會的開幕式現(xiàn)場。新華社記者方喆攝
美國斯坦福大學(xué)計算機科學(xué)系教授李飛飛日前也在美國《時代》周刊刊文稱,在通往通用智能的道路上,“感覺”是至關(guān)重要的一步,即擁有主觀體驗的能力。目前大模型并沒有像人類一樣的“感覺”,它可以說“自己腳趾痛”,盡管它根本就沒有腳趾,它只是一個編碼在硅芯片上的數(shù)學(xué)模型。
“我們還沒有實現(xiàn)有感覺的人工智能,而更大的語言模型也無法實現(xiàn)這一目標。如果想在人工智能系統(tǒng)中重現(xiàn)這一現(xiàn)象,就需要更好理解感覺是如何在擁有實體的生物系統(tǒng)中產(chǎn)生的。”她說。
(責(zé)任編輯:歐云海)