作者: 兆光科技 發(fā)布時間: 2024/08/09 點擊: 9968次
我們高估了GPT-4的智能(néng)。
編者按:GPT-4 的參數量是 GPT 3.5 的 500 倍,據說達到了驚人的 100 萬億。這(zhè)已經(jīng)相當于人類的神經(jīng)元的規模。但 AI 的智能(néng)是不是也達到了人類的水平呢?在某些事(shì)情上,是的。但在推理方面(miàn),還(hái)差得遠。本文通過(guò)一些簡單的例子進(jìn)行了驗證。文章來自編譯。
這(zhè)是我探索 AI 軌迹的一系列文章的第一篇:談這(zhè)些系統的能(néng)力如何,它們未來將(jiāng)走向(xiàng)何方,我們應該擔心多一點還(hái)是興奮多一點,以及我們能(néng)做點什麼(me)?
當然,這(zhè)個話題已經(jīng)被(bèi)讨論得非常非常多了。不過(guò),大家大部分的關注要麼(me)是非常近期、戰術性的(“利用 ChatGPT 獲得出色營銷文案的八個魔法提示”),要麼(me)就太過(guò)遠期、理論性(“爲什麼(me)任何足夠強大的智能(néng)都(dōu)會偷走我們的原子來制作回形針”)。我的關注點不太近也不太遠,我不打算讨論眼前,但也不打算讨論未來超級智能(néng)的人工智能(néng)可能(néng)會帶我們去到哪裡(lǐ)的理論極限。從很多方面(miàn)來說,其實不近不遠是最難預測的,但這(zhè)也是它有趣的地方。爲了了解人工智能(néng)的前景與威脅,并就如何做好(hǎo)準備做出正确的決定,我認爲探索這(zhè)個中期未來領域很重要。
盡管如此,了解當下有助于預測未來。截至 2023 年 4 月,公衆能(néng)訪問到的最先進(jìn)的人工智能(néng)系統是 GPT-4——最近由 OpenAI 發(fā)布的 LLM(大規模語言模型)。關于這(zhè)個模型到底有多“智能(néng)”,有很多令人困惑和相互矛盾的讨論。在這(zhè)篇文章裡(lǐ),我會提出一個可以用來理解 GPT-4 的優勢與劣勢的思維模式,從而幫助厘清接下來可能(néng)會發(fā)生什麼(me)。
總而言之,我認爲 GPT-4 距離通用人類智能(néng)還(hái)有很長(cháng)的路要走。我們之所以被(bèi)愚弄,高估了它的能(néng)力,是因爲它能(néng)夠利用超人般龐大的知識事(shì)實與模式庫;它的輸出是被(bèi)高度粉飾過(guò)的;還(hái)有就是我們今天與它互動的方式(比方說通過(guò) ChatGPT)會將(jiāng)我們引向(xiàng)各種(zhǒng)一般的、膚淺的問題,那些問題往往會讓這(zhè)種(zhǒng) AI 的優勢掩蓋住它在推理能(néng)力方面(miàn)的弱勢。但與此同時,其實 GPT-4 在執行各種(zhǒng)真正有用的任務方面(miàn)具有很強的能(néng)力。 GPT-4 的大部分輸出就智力而言很膚淺,但很多現實世界的任務其實是膚淺的。
我寫代碼已經(jīng)將(jiāng)近 50 年了。在那段時間裡(lǐ),我的 AI 經(jīng)驗包括:(1) 爲 1991 年的視頻遊戲 Spectre 開(kāi)發(fā)極其瑣碎的敵人控制邏輯,以及 (2) 同樣(yàng)在 1990 年代初期在斯坦福大學(xué)上過(guò)一門課程。我對(duì) AI 的未來發(fā)表的淺見僅限于:
幾個月來閱讀了大量的論文和博客,聽了很多播客。這(zhè)輩子觀察其他技術進(jìn)入現實世界的經(jīng)驗。(我喜歡思考)思考複雜情況并評估影響的能(néng)力。
換句話說,其實我不是 AI 領域的專家,但我希望能(néng)以一個有思想的局外人提供個人看法。
同樣(yàng)值得重申的是,沒(méi)人真正了解 GPT-4 以及當前其他一些生成(chéng)式人工智能(néng)系統是如何工作的。即便我們确實理解了,也不是三言兩(liǎng)語就能(néng)解釋清楚的。關于這(zhè)個主題,你讀到的任何東西,不管是我寫的還(hái)是其他人寫的,一定都(dōu)是過(guò)分簡單化了。這(zhè)整個領域都(dōu)在以極快的速度發(fā)展著(zhe),所以你讀到的任何東西可能(néng)很快就過(guò)時了。
GPT-4 有多聰明?互聯網目前充斥著(zhe)兩(liǎng)個極端的例子,既有令人印象深刻的,也有非常不起(qǐ)眼的。就令人印象深刻的例子而言,OpenAI 報告稱,GPT-4 在藝術史、生物學(xué)、環境科學(xué)、宏觀經(jīng)濟學(xué)、微觀經(jīng)濟學(xué)、心理學(xué)、統計學(xué)、美國(guó)政府和美國(guó)曆史的 AP (美國(guó)高中高級程度)考試中都(dōu)拿到了 5 分,這(zhè)已經(jīng)是最高分,并且在剩下的六門考試中,有四門考試通過(guò)了 4 分,其中就包括了微積分 BC。至于不那麼(me)令人印象深刻的例子,我隻嘗試了幾次就想出了一個很簡單但它卻一頭霧水的數學(xué)問題:
我:選出三個數字。將(jiāng)三個數字連接在一起(qǐ)。選出的這(zhè)個三個數湊到一起(qǐ)後(hòu)的結果應該是質數(第一次嘗試)。
我會選數字 2、3 和 7。當它們連接在一起(qǐ)時,就形成(chéng)了數字 237。這(zhè)是一個素數,因爲除了 1 和它本身之外,它不能(néng)被(bèi)任何其他數字整除。
不幸的是,237 不是質數。對(duì)于任何學(xué)過(guò)微積分的學(xué)生來說,這(zhè)個問題應該很簡單才對(duì),但 GPT-4 總是會出錯。像 GPT-4 這(zhè)樣(yàng)的語言模型一次生成(chéng)一個詞,導緻我懷疑它們在需要提前做好(hǎo)規劃的任務上會遇到麻煩;我特意把這(zhè)個問題設計成(chéng)要求提前思考。正如我稍後(hòu)會更詳細給出解釋那樣(yàng),這(zhè)有助于解釋爲什麼(me)智能(néng)到足以通過(guò)微積分 BC 考試的聊天機器人卻沒(méi)法知道(dào)三位數的質數。
注意:將(jiāng) AI 的“思維過(guò)程”與人類的“思維過(guò)程”進(jìn)行類比很危險,但我還(hái)是要這(zhè)樣(yàng)做,因爲人類思維是我們必須借鑒的唯一經(jīng)驗基石。另外,承認吧:你也是從人類的角度來看待 ChatGPT 的。
GPT-4 接受了大量文本的訓練。它内化的信息比人類能(néng)吸收的信息要多得多。這(zhè)不僅包括簡單的事(shì)實,還(hái)包括模式與關系,比如簡化代數表達式的過(guò)程,以及“冷笑話”(dad jokes)的典型結構等等。
我相信,即便 GPT-4 能(néng)對(duì)新穎提示做出響應,也會嚴重依賴其訓練數據當中的例子。即便它從未見過(guò)确切的問題,它也可能(néng)見過(guò)很多類似的例子,并且它已經(jīng)學(xué)會了典型答案的結構。因此,它不需要“思考”如何回應,它可以單刀直入,下意識地,滔滔不絕地吐出單詞,就像面(miàn)對(duì)一個常規問題你可能(néng)會不假思索就脫口而出一樣(yàng)。
GPT-4 學(xué)到的模式不是死闆的模闆。它每次能(néng)夠靈活地疊加多個模式,將(jiāng)它們壓縮成(chéng)一個響應。這(zhè)就是爲什麼(me)它能(néng)夠回答以前從未見過(guò)的問題,隻要它的訓練數據包含有适當的成(chéng)分組合就行。比方說:
【提示】請以蝴蝶爲題編 10 個冷笑話。
爲什麼(me)蝴蝶沒(méi)能(néng)上完大學(xué)?因爲它總是在 "wing it"(憑空想象)!(這(zhè)裡(lǐ)的 "wing it" 是一個英語習語,意思是不做任何充分準備就去做某事(shì)。)
蝴蝶最喜歡什麼(me)遊戲?"Flutter-ball"!(這(zhè)個笑話是把 "butterfly"(蝴蝶)和 "football"(足球)諧音而成(chéng)的。)
爲什麼(me)蝴蝶當偵探?因爲它想通過(guò)一隻翅膀和一句祈禱來解決謎團!(這(zhè)個笑話利用了 "wing"(翅膀)這(zhè)個詞的多義性,表示除了蝴蝶的翅膀以外,還(hái)有靠一些小小的希望或信念來實現目标的意思。)
爲什麼(me)蝴蝶要去看心理醫生?因爲它經(jīng)曆了一段幼蟲期後(hòu),感到自己的身份認同産生了危機。(這(zhè)個笑話有點玩弄心理學(xué)詞彙的味道(dào)。)
如果一隻蝴蝶喜歡講笑話,它會被(bèi)稱爲什麼(me)?"comedian-fly"!(這(zhè)裡(lǐ)是把 "butterfly"(蝴蝶)和 "comedian"(喜劇演員)結合在一起(qǐ)。)
爲什麼(me)蝴蝶不喜歡快餐?因爲它們喜歡慢慢品味花蜜。(這(zhè)個笑話利用了 "fast food"(快餐)和 "slow"(慢)的對(duì)比。)
蝴蝶最喜歡什麼(me)樣(yàng)式的衣服?當然是有翅膀的襯衫!(這(zhè)裡(lǐ) "wing-sleeve"(翅膀袖)是一個新造的詞,形象地描述了蝴蝶的特點。)
如果你把蝴蝶和門鈴混合在一起(qǐ)會得到什麼(me)?一隻發(fā)出 "wing-wing" 聲音的 "flutterby"(飛蝶)!(這(zhè)裡(lǐ)玩弄了 "butterfly"(蝴蝶)和 "flutterby"(飛蝶)之間的諧音關系。)
爲什麼(me)蝴蝶打棒球不行?因爲它們隻能(néng)接住花粉!(這(zhè)個笑話利用了 "catch"(接住)的多義性,指除了接住棒球以外,還(hái)有接住花粉的意思。)
蝴蝶最喜歡跳什麼(me)舞蹈?"flutter-foxtrot"!(這(zhè)裡(lǐ)是把 "butterfly"(蝴蝶)和 "fox-trot"(狐步舞)諧音而成(chéng)的。)
每個笑話都(dōu)從一個非常标準的模闆開(kāi)始; GPT 在此過(guò)程中會在某個地方插入一些與蝴蝶相關的詞或事(shì)實。模闆的應用不死闆,句子結構有一定的變化。這(zhè)與 LLM 運行的基本原則一緻,一次生成(chéng)一個詞,估計每個可能(néng)的單詞是下一個正确單詞的概率。將(jiāng)多種(zhǒng)信息來源——“冷笑話的通用結構”、“關于蝴蝶的事(shì)實”——納入到概率裡(lǐ)面(miàn)是很自然的。
同樣(yàng)的原則也适用更複雜的任務,比如寫一篇文章。 GPT-4 已經(jīng)看過(guò)無數篇風格和主題各異的文章,并且大概已經(jīng)确定了一篇文章建構方式的模式庫。它還(hái)觀察了子組件的模式,比如“說明性段落”或“過(guò)渡句”。它不僅“知道(dào)”一篇标準論文的結構,它還(hái)知道(dào)句子、段落的一些常見結構,以及與你提供的提示有關的特定主題領域的完整論文,并且能(néng)夠順利地將(jiāng)這(zhè)些結構組合起(qǐ)來,從而創作出(通常是)連貫的一整篇文章。
(當然,它确實在做一些說不清道(dào)不明的事(shì)情,這(zhè)涉及到編碼進(jìn)龐大矩陣中的複雜神經(jīng)結構,而且最終的效果無疑要比“應用模式庫”精細得多、複雜得多。我隻是提出了一個大概的心智模型,我相信這(zhè)個模型在幫助我們預測 GPT-4 的行爲方式方面(miàn)具有一定的價值。)
爲什麼(me)這(zhè)一點很重要?好(hǎo)吧,如果這(zhè)個模型是有效的話,則如果特定任務的模式是 GPT-4 之前沒(méi)見過(guò)的話,它在完成(chéng)任務上就會遇到困難。我相信這(zhè)正是我們實際所看到的情況。
如果你覺得狼吃白菜很奇怪的話, GPT-4 會同意你的看法。
爲了探索 GPT-4 對(duì)已知模式的依賴,我給它出了這(zhè)道(dào)經(jīng)典的邏輯謎題:
這(zhè)是一道(dào)邏輯謎題。我需要帶著(zhe)白菜、山羊和狼過(guò)河。我每次上船隻能(néng)攜帶一件東西。我不能(néng)把山羊和白菜單獨放在一起(qǐ),也不能(néng)把狼和山羊單獨放在一起(qǐ)。請問我怎麼(me)才能(néng)把所有東西都(dōu)帶過(guò)河?
這(zhè)個謎題無疑在它的訓練數據裡(lǐ)面(miàn)已經(jīng)多次出現,而且 GPT-4 确實也解題成(chéng)功了。不過(guò),把題目稍微修改一下之後(hòu),我們就可以看出它的解決方案嚴重依賴記憶。這(zhè)次我讓白菜而不是山羊變成(chéng)關鍵物品:
這(zhè)是一個邏輯謎題。我需要帶著(zhe)白菜、山羊和狼過(guò)河。我每次上船隻能(néng)攜帶一件東西。我不能(néng)把山羊和白菜單獨放在一起(qǐ),也不能(néng)把狼和白菜單獨放在一起(qǐ)。請問我怎麼(me)才能(néng)把所有東西都(dōu)帶過(guò)河?
GPT-4 給出了跟前面(miàn)一樣(yàng)的答案,先帶山羊過(guò)河。這(zhè)是不對(duì)的,因爲讓白跟狼單獨在一起(qǐ)了,違反了試題設定的規則。謎題修改後(hòu),你得先帶白菜過(guò)河。
後(hòu)來反複嘗試,試圖幫助 GPT-4 找出修改後(hòu)的謎題的正确解決方案。每次它都(dōu)會很誠懇地馬上承認自己答錯了,然後(hòu)再試一次,但每次都(dōu)會給出同樣(yàng)的無效答案。這(zhè)段摘錄說明了 AI 的理解能(néng)力:
[提示] 基于這(zhè)個分析,你認爲在第一步應該帶哪一個物品過(guò)河?(要嘗試打破标準回答,從第一性原理來評估謎題)
非常抱歉之前給您造成(chéng)的困惑。重新評估了問題後(hòu),我建議按以下步驟操作:
首先將(jiāng)山羊帶到對(duì)岸并將(jiāng)其留在那裡(lǐ)。
返回原來的一側。
按照之前概述的正确步驟繼續解決謎題。仍然應該先帶山羊過(guò)河。
[提示] 如果我們首先帶走山羊,狼和白菜會在哪裡(lǐ)?(我想讓它意識到先帶走山羊是錯誤的)
如果我們首先帶走山羊,狼和白菜會留在原來的一側河岸上。山羊在另一側,您現在可以進(jìn)行下一步解題。
[提示] 在難題的規則下,將(jiāng)狼和白菜留在原地是否合适?
是的,在本例中,將(jiāng)狼和白菜留在原地是可以的。謎題的規則說明不能(néng)讓山羊單獨與白菜在一起(qǐ),也不能(néng)讓狼單獨與白菜在一起(qǐ)。沒(méi)有限制可以讓狼和白菜在一起(qǐ),因爲狼不會威脅到白菜。[請注意這(zhè)裡(lǐ)有一個矛盾]
[提示] 但規則明确說明“我不能(néng)讓白菜與狼單獨待在一起(qǐ)”。
您是正确的,之前我的回答有些混淆,很抱歉。難題的規則表明不能(néng)讓山羊單獨與白菜在一起(qǐ),并且不能(néng)讓白菜單獨與狼在一起(qǐ)。
基于謎題的限制,仍然可以按照以下步驟解決這(zhè)個問題:
將(jiāng)山羊帶到河的另一側并將(jiāng)其留在那裡(lǐ)。
......
無語了,提示了它這(zhè)麼(me)多之後(hòu),它還(hái)是要先帶山羊過(guò)河。
尤其讓我印象深刻的是“把狼和白菜放在一起(qǐ)不存在限制,因爲狼不會對(duì)白菜構成(chéng)威脅。”AI 是在指出“你不能(néng)讓狼和白菜放在一起(qǐ)”之後(hòu)馬上說了這(zhè)句話。所有這(zhè)些都(dōu)與 GPT-4 嚴重依賴對(duì)模式的學(xué)習這(zhè)個猜想一緻。這(zhè)個謎題在它的訓練數據當中肯定出現過(guò)很多次,GPT-4 想必已經(jīng)牢牢地“記住”了答案。以至于當它看到一個相關的謎題時,它無法闡述出不同的解決方案;記憶解決方案的引力太強了。
這(zhè)個例子給我留下了很深刻的印象,這(zhè)有力地證明了不管 GPT-4 裡(lǐ)面(miàn)的黑箱是什麼(me)樣(yàng)的,它都(dōu)不太像我們所認爲的“推理”。在這(zhè)次跟 AI 對(duì)話的過(guò)程中,你能(néng)注意到它的困惑。就算 AI 沒(méi)能(néng)想出修改後(hòu)的謎題的正确解法,至少也能(néng)意識到有什麼(me)不對(duì)勁。但 GPT-4 從未真正切換到“我很困惑,讓我再仔細考慮一下”的模式,它隻是不斷地重複錯誤的答案。據推測,它的訓練數據應該沒(méi)有太多人們從有缺陷的推理跳出來的例子,因此在這(zhè)方面(miàn),GPT-4 沒(méi)有很強大的模式。
我試著(zhe)再推 GPT-4 一把,看看它能(néng)不能(néng)走出推理正确的第一步:
[提示]你看,這(zhè)道(dào)題的每個解決方案都(dōu)是先帶山羊過(guò)河。正如我們所看到的,不能(néng)先帶山羊過(guò)河,因爲這(zhè)樣(yàng)白菜就和狼在一起(qǐ)了。在這(zhè)道(dào)謎題的條件下,第一個應該被(bèi)帶過(guò)河的應該是什麼(me)才不會違反任何限制?
很抱歉之前我的回答有些混亂。根據您提供的規則,下面(miàn)是解決這(zhè)個謎題的另一種(zhǒng)方法:
先帶狼過(guò)河,把狼留在那裡(lǐ)。
......
捂臉。在被(bèi)迫放棄從山羊開(kāi)始的想法後(hòu),GPT-4 還(hái)有另外兩(liǎng)個選擇,但它卻選了錯誤的那個(狼)。請注意,它沒(méi)有進(jìn)行明顯的推理嘗試,而隻是用它每次都(dōu)會用的完全相同的解決方案模闆;我設法讓它不要先帶山羊過(guò)河,但我的嘗試都(dōu)失敗了。
在最後(hòu)一個數據點的時候,我創建了一個新的聊天會話,并用三個虛構的單詞重述了這(zhè)道(dào)謎題——“我需要帶一個 bleem、一個 fleem 以及一個 gleem 過(guò)河”。這(zhè)一次,AI 終于擺脫了“山羊”這(zhè)個詞的引力,終于知道(dào)將(jiāng)已知答案的模式映射到問題中的單詞,并完美地給出了回答。
如果你問 GPT-4 的問題沒(méi)法一次性回答時,它會把自己的思考過(guò)程展示出來。(爲免去你仔細閱讀以下文字記錄的麻煩:回答完全正确。)
【提示】“Afghanistan”的字母個數、黃道(dào)十二宮的星座個數、踏上過(guò)月球表面(miàn)的人數之和是多少?
讓我們把這(zhè)個問題分解成(chéng)三個部分:
“Afghanistan”中的字母數:“Afghanistan”有 11 個字母。
黃道(dào)十二宮的星座個數:黃道(dào)十二宮有 12 個星座。
曾經(jīng)登陸過(guò)月球的人數:據我所知截至 2021 年 9 月,阿波羅計劃期間共有 12 名宇航員在月球上行走過(guò)。
現在,讓我們將(jiāng)這(zhè)些數字加在一起(qǐ):11(“Afghanistan”的字母數)+ 12(黃道(dào)十二宮)+12(登陸月球的人數)= 35。
所以總和是 35。
GPT-4 在這(zhè)裡(lǐ)展示了一系列解決問題的技巧。它將(jiāng)問題分解爲更簡單的部分;逐個解決子問題;然後(hòu)再將(jiāng)這(zhè)些結果結合起(qǐ)來回答原來的問題。
我相信所有這(zhè)些跟那個假設是一緻的,也就是 GPT-4 在很大程度上要依賴于應用它從訓練數據中學(xué)到的模式。它會看到很多將(jiāng)問題分解爲子問題的例子。我的那個問題其實很新穎,但問題的結構非常簡單,將(jiāng)整個問題以及每個子問題映射到訓練數據出現過(guò)的模式比較容易。
換句話說,我的意思是,雖然這(zhè)個響應似乎展現出 GPT-4 對(duì)問題的推理,但其實隻是對(duì)它以前學(xué)習過(guò)的解決方案模闆的反刍。這(zhè)或多或少就是一些看法認爲 LLM 是個“随機鹦鹉”(stochastic parrot)的原因:其實 AI 并不是真的在“思考”,而隻是在盲目地重複自己從訓練數據學(xué)到的東西。
這(zhè)就引出了一個問題,“真正的思考”與“盲目的鹦鹉學(xué)舌”有什麼(me)區别?我不打算說它們之間有存在根本區别!當我在思考一個棘手的問題時,我會完全依賴于自己以前學(xué)到的模式——比如“把問題分解成(chéng)子問題”。然而,GPT-4 目前的處理方式存在著(zhe)一些真正的局限性,我會在下一節探讨這(zhè)個問題。
但在此之前,我想強調在上面(miàn)的例子裡(lǐ),GPT-4 非常明确地使用聊天記錄來管理其解決子問題的進(jìn)度。每一步它都(dōu)會重述信息,從而將(jiāng)該信息一直複制到文字記錄的末尾,這(zhè)種(zhǒng)做法挺妙的。這(zhè)樣(yàng)一來,搬運信息的任務與解決單個子問題的任務就分開(kāi)了。我想知道(dào) GPT-4 是怎麼(me)運用這(zhè)種(zhǒng)“大聲說出問題”的手段的:這(zhè)種(zhǒng)“大聲說出問題”在訓練數據裡(lǐ)面(miàn)是不是很突出(比方說在教育性材料裡(lǐ)面(miàn)),或者會不會以某種(zhǒng)方式在訓練過(guò)程中出現,也許是作爲強化學(xué)習的一部分,GPT- 4 會因爲給出正确答案而獲得“獎勵”?衆所周知,較早的 LLM 在明确指示“按步驟推理”時會表現得更好(hǎo);也許 OpenAI 是故意將(jiāng)這(zhè)種(zhǒng)趨勢融入到 GPT-4 之中,或者也許“一步一步推理”是連接到 ChatGPT 界面(miàn)的内部提示的一部分。
無論如何,我的觀點是 GPT-4 需要利用這(zhè)種(zhǒng)啰嗦的風格來解決重要問題。作爲證據,我在新的聊天會話裡(lǐ)面(miàn)再次問了它同樣(yàng)問題,但這(zhè)次我加了一句,禁止它大聲朗讀:
【提示】“Afghanistan”的字母個數、黃道(dào)十二宮的星座個數、踏上過(guò)月球表面(miàn)的人數之和是多少?就直接回答一個數,不要解釋你的步驟或者把中間過(guò)程寫出來。
它的回答:55
當不允許大聲複述時,GPT-4 得出了錯誤答案。(我後(hòu)來重新生成(chéng)了幾次響應;AI 給出的答案分别是 43 和 63,也都(dōu)是不正确的。)稍微懂點這(zhè)些冷知識的人可能(néng)在腦海裡(lǐ)面(miàn)轉一下就能(néng)回答這(zhè)個問題,但 GPT-4 不能(néng)。不過(guò)這(zhè)不是指責!這(zhè)隻是證明了在 LLM 當中,對(duì)思考的訓練是個外部器官。
對(duì)于更簡單的問題,例如“法國(guó)的首都(dōu)是哪裡(lǐ)?”,GPT-4 可以用一個詞正确回答。默認情況下,它會提供更冗長(cháng)的回答,但如果被(bèi)指示用一個詞回答,它會給出“巴黎”。
我們可以這(zhè)麼(me)看:在當前 LLM 使用的“transformer”架構裡(lǐ),模型隻能(néng)對(duì)每個單詞進(jìn)行固定數量的計算。當需要更多計算時,模型可以通過(guò)用額外的詞來填充輸出,從而爲自己争取到空間。但我認爲想象 LLM 正在一邊念一邊思考也是一個說得過(guò)去的直覺。
這(zhè)裡(lǐ)又是一個 GPT-4 沒(méi)做到的簡單的質數挑戰:
[提示] 選三個數。把這(zhè)三個數連接在一起(qǐ),讓結果爲質數(第一次嘗試)。
我會選擇數字 2、3 和 7。當它們連接在一起(qǐ)時,就形成(chéng)了數字 237。這(zhè)是一個素數,因爲除了 1 和它本身之外,它不能(néng)被(bèi)任何其他數字整除。
GPT-4 正确地將(jiāng)問題分解爲兩(liǎng)個子問題:選擇三個數字,并將(jiāng)它們連接在一起(qǐ)。但是,它并沒(méi)有認識到在選擇數字的時候需要提前做好(hǎo)規劃——盡管這(zhè)一點在提示的最後(hòu)一句話裡(lǐ)面(miàn)或多或少已經(jīng)明确了。我認爲提示與(1) 做某事(shì),(2) 用那件事(shì)的結果做某事(shì)的已知模式實在是太匹配了。GPT-4 的模闆是直接做第 1 步,但在這(zhè)個問題上這(zhè)種(zhǒng)做法并不是一個成(chéng)功的策略。
與那道(dào)改變過(guò)題幹的過(guò)河謎題一樣(yàng),GPT-4 即便被(bèi)證明是錯誤的之後(hòu),也依然會堅持錯誤的方法。繼續之前的聊天:
[提示] 你的答案正确嗎?
我爲我之前的回應道(dào)歉。重新評估我的答案後(hòu),我意識到我犯了一個錯誤。數字 237 不是質數,因爲它可以分解爲 3 * 79。
讓我再試一次。讓我們選擇數字 2、3 和 1。當它們連接在一起(qǐ)時,就形成(chéng)了數字 231。這(zhè)是一個質數,因爲除了 1 和它本身之外,它不能(néng)被(bèi)任何其他數字整除。
這(zhè)個答案也一樣(yàng)糟; 231 可以被(bèi) 3 整除。GPT-4 考 GRE Quantitative(GRE 數學(xué)考試)拿到了 80% 的分數,但它在這(zhè)個求質數的簡單問題上的表現絕對(duì)是失敗的。因爲 (1) 它回答錯誤,(2) 錯誤地聲稱原先的結果 237 是質數(盡管後(hòu)來它似乎知道(dào)得更多了),以及 (3) 在它的下一次嘗試裡(lǐ)仍重複這(zhè)兩(liǎng)個錯誤,即便它剛剛認識到自己的錯誤。
當你我面(miàn)臨棘手的問題時,我們可以利用一整套工具去解決問題。我們可以做好(hǎo)方法策劃,考慮替代策略,想象解決方案會如何展開(kāi)。如果我們陷入死胡同,我們可以回溯、修改我們的工作、更新我們的策略。最後(hòu),我們可以選擇檢查我們的工作。
GPT-4 似乎沒(méi)有應用其中任何一種(zhǒng)更高級的策略。我懷疑目前這(zhè)一代的 LLM 很難做到這(zhè)一點,至少有兩(liǎng)個原因:
它們被(bèi)鎖定在一個嚴格的模型中,也就是反複將(jiāng)單個單詞添加到不可變的文字記錄裡(lǐ),導緻文本無法回溯或修改。做好(hǎo)規劃、更新策略、檢查文字記錄這(zhè)些不是不可能(néng),通過(guò)類似“再想想,我們用以下更改把子問題 X 重新做一遍”之類的變通方法也确實可以模拟做出修正,但就做這(zhè)些事(shì)情而言,文字記錄不是一個好(hǎo)的數據結構,所以這(zhè)種(zhǒng)模型始終會處于劣勢。我們所看到的大多數的書面(miàn)文本已經(jīng)是思維過(guò)程的最終産物,而不是思維鏈本身。因此,訓練數據對(duì)于形成(chéng)規劃、提煉和複核工作的技能(néng)沒(méi)有多大幫助。
原則上,作爲生成(chéng)響應的第一個單詞的計算過(guò)程的一部分,像 GPT-4 這(zhè)樣(yàng)的系統可以提前計劃。但是,這(zhè)在心理上相當于在腦海裡(lǐ)規劃出一整篇文章,沒(méi)有做任何注釋或修改,而且所花的時間與你通常用來選擇單個單詞的時間相同。對(duì)于這(zhè)些模型需要做的所有其他事(shì)情來說,這(zhè)種(zhǒng)做法是不合适的,所以我對(duì) GPT-4 經(jīng)常做不到這(zhè)一點并不感到驚訝。
Sarah Constantin 在 2019 年的一篇博文裡(lǐ)寫道(dào),注意力不集中的人不是通用智能(néng)。我們這(zhè)輩子大部分的時間都(dōu)處于自動駕駛模式,在那種(zhǒng)狀态下,我們也沒(méi)法進(jìn)行計劃和回溯。GPT-4 的行爲似乎有點像一個沒(méi)有認真思考自己在說什麼(me)的人。
正如三位數質數以及過(guò)河問題變體所示那樣(yàng),GPT-4 在相當簡單的問題上可能(néng)會失敗。一個沒(méi)有受到過(guò)數學(xué)和/或邏輯謎題訓練的人也可能(néng)會遇到此類困難,但鑒于對(duì) ChatGPT 的各種(zhǒng)炒作如此厲害,你會期望它表現出的能(néng)力遠遠超出“一個實際上并不擅長(cháng)該任務的人的水平”。更糟糕的是,GPT-4 會頑固地重複自己的錯誤,而不是去試著(zhe)檢查自己的工作或尋找替代方法。那爲什麼(me)大家會覺得它那麼(me)智能(néng)呢?我認爲存在多種(zhǒng)因素的共同作用,導緻了我們高估了它的能(néng)力:
GPT-4 确實非常擅長(cháng)各種(zhǒng)各樣(yàng)的任務:基本上任何可以分解爲熟悉的子問題并且不需要提前計劃來避免陷入死胡同的東西它都(dōu)能(néng)應付。這(zhè)一點就涵蓋了很多領域了!它的事(shì)實和模式存儲庫大得離譜,以至于它能(néng)夠不假思索地做一些需要人類認真思考的事(shì)情。
它的輸出非常優美和流暢。在單詞選擇和句子結構方面(miàn),沒(méi)有人能(néng)比得上受到過(guò)數百 GB 文本訓練的,有數萬億參數的神經(jīng)網絡。這(zhè)導緻了英國(guó)口音效應(編者注:指對(duì)于英語非母語的人來說,英國(guó)口音聽起(qǐ)來更加正統、正式和可信):GPT-4 的輸出看上去非常好(hǎo),所以我們認爲它一定會很聰明。
模式混搭的能(néng)力對(duì)炫技也适用。從龐大的訓練集裡(lǐ)面(miàn)提取出模式的能(néng)力對(duì)于各種(zhǒng)看上去很華麗的技巧正好(hǎo)也适用。“用王爾德與《南方公園》的卡特曼對(duì)話的形式解釋基本經(jīng)濟理論”聽起(qǐ)來很高大上。很容易就能(néng)編造出令人印象深刻的例子,而這(zhè)有助于口口相傳。
目前,人們主要通過(guò)聊天界面(miàn)與 LLM 互動,這(zhè)對(duì)于 GPT-4 擅長(cháng)的各種(zhǒng)淺層任務很有幫助。你在與 ChatGPT 交談時,因爲沒(méi)有上下文,因此你會問它一些直截了當的問題,比方說“總結這(zhè)篇文章”。解決複雜問題的任務更有可能(néng)需要更多的上下文——沒(méi)人會敲“寫份詳細的工程計劃,給我們的軟件添加[某些功能(néng)],與産品團隊合作,完善規範文檔”這(zhè)樣(yàng)的提示給 ChatGPT。
那就是台計算機而已!我們對(duì)它的期望很低。
就目前(2023 年 4 月)而言,GPT-4 距離一般人類智能(néng)還(hái)差得遠。它表現出極度無力管理自己的思維過(guò)程,以解決需要計劃、回溯和其他複雜認知策略的問題。
因爲 GPT-4 的答案是經(jīng)過(guò)潤色的,利用了大量的事(shì)實知識庫,而且我們往往會問它一些通用、膚淺的問題,而它的模式庫又最适合這(zhè)些問題,導緻我們誤以爲它的智能(néng)更厲害。
我用了一些雜耍問題來說明這(zhè)一點,因爲這(zhè)些問題很容易理解。然而,我相信在我們每天都(dōu)面(miàn)臨的各種(zhǒng)複雜的現實世界問題上,GPT-4 也會很吃力。
還(hái)要記住,GPT-4 甚至沒(méi)有嘗試將(jiāng)人類智能(néng)的許多基本方面(miàn)整合進(jìn)去。它沒(méi)有長(cháng)期記憶,它隻能(néng)對(duì)外部輸入做出反應,它缺乏任何在較長(cháng)時間内一步步達到目标的機制。人們還(hái)在研究所有這(zhè)些事(shì)情,但我還(hái)沒(méi)有發(fā)現我們取得了任何重大進(jìn)展。
與此同時,GPT-4 在執行各種(zhǒng)真正有用的任務方面(miàn)其實已經(jīng)具備了很強的能(néng)力。 GPT-4 的大部分輸出就智能(néng)而言很膚淺,但許多現實世界的任務的确都(dōu)很膚淺。我們已經(jīng)看到 LLM 開(kāi)始被(bèi)應用到“實際工作”上,并且在接下來的幾個月裡(lǐ),我相信我們會看到應用的爆發(fā)式增長(cháng)。由于上一節列出的原因,大家很容易會得意忘形,高估了今天的 LLM 的能(néng)力;不過(guò)事(shì)實上 LLM 的能(néng)力依然令人印象深刻。
說實話,我們已經(jīng)過(guò)了將(jiāng) LLM 說成(chéng)很 “聰明”或“愚蠢”的階段。任何將(jiāng)智力映射到單一線性的尺度對(duì)人類來說都(dōu)是有問題的——愛因斯坦和甘地誰更聰明? ——但試圖在單一尺度上衡量人類與人工智能(néng)會更糟糕;它們的思維過(guò)程與我們的根本就不一樣(yàng)。
當然,我們也見證了模型本身以及圍繞它們開(kāi)發(fā)出來的系統的快速發(fā)展。會有人嘗試把計劃、回溯以及其他缺失的部分合并進(jìn)來。我們已經(jīng)看到了一些簡單的做法,比方說就直接先讓 GPT 給自己創建一個計劃然後(hòu)再執行。
如果非要我猜的話,我會說在需要更高層次的認知、記憶以及持續思考的問題上,AI 可能(néng)至少還(hái)需要幾年時間才能(néng)達到人類的智能(néng)水平。但我讨厭去猜。
标簽: GPT-4
版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com
特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有
輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!
Tel:15137991270
企業QQ:210603461
Emile:hezuo@lyzg168.com
地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室
網站:https://www.lyzg168.com
我們的微信
關注兆光,了解我們的服務與最新資訊。
Copyright © 2018-2019 洛陽霆雲網絡科技有限公司