作者: 兆光科技 發(fā)布時間: 2024/08/08 點擊: 4765次
我們不應把 GPT 2030 看作是“高速版人類”,而應將(jiāng)其看作是“高速版員工”。
神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國(guó)外的新技術、新觀點、新風向(xiàng)。
編者按:現在生成(chéng)式人工智能(néng)已經(jīng)表現出很高的潛力,從 GPT-3.5 到 GPT-4,在短短半年間人工智能(néng)的能(néng)力仿佛又上了一個台階。那麼(me),到了 2030 年時,人工智能(néng)又會是什麼(me)表現呢?用零階預測去分析是不行,你得用一階預測,對(duì)發(fā)展的曆史速度做出量化,然後(hòu)進(jìn)行推算。那麼(me),屆時的人工智能(néng)會在哪些方面(miàn)表現出超能(néng)力呢?又存在哪些被(bèi)濫用的風險呢?文章來自編譯。
GPT-4 以其在編碼、創意頭腦風暴、寫信等方面(miàn)的能(néng)力讓許多人感到驚訝。機器學(xué)習帶來的驚喜不僅限于 GPT-4:之前 Minerva 的數學(xué)能(néng)力就讓我大吃一驚,也讓許多同行預測員感到同樣(yàng)的驚訝。
我們怎麼(me)才能(néng)對(duì)機器學(xué)習的發(fā)展不那麼(me)驚訝?我們的大腦通常會暗自做出零階預測:看看當前的技術水平,并加入“感覺合理”的改進(jìn)。但是,“看似合理”的東西容易産生認知偏差,并且會低估像機器學(xué)習這(zhè)樣(yàng)發(fā)展得那麼(me)快的領域的進(jìn)步。一種(zhǒng)更有效的方法是進(jìn)行一階預測:對(duì)發(fā)展的曆史速度做出量化,并前推算,同時考慮可能(néng)會放緩或加速的原因。
在這(zhè)篇文章裡(lǐ),我將(jiāng)使用這(zhè)種(zhǒng)方法來預測 2030 年時經(jīng)過(guò)大型預訓練的機器學(xué)習系統的特性。全文通篇會采用“GPT 2030”的說法,這(zhè)是一個假設的系統,具備了預測中 2030 年時大語言模型的那種(zhǒng)能(néng)力、計算資源與推理速度(但也可能(néng)接受了其他模态,比方說圖像的訓練)。爲了預測 GPT 2030 的屬性,我查閱了各種(zhǒng)來源,包括經(jīng)驗比例定律、未來計算與數據可用性的預測、特定基準的改進(jìn)速度、當前系統的推理速度經(jīng)驗值,以及未來可能(néng)的并行性改進(jìn)。
GPT 2030 的能(néng)力令人驚訝(至少對(duì)我來說是這(zhè)樣(yàng)的)。尤其是,GPT 2030 與當前系統相比,將(jiāng)具備若幹顯著優勢,甚至與人類員工相比也是如此以及(至少在某些重要方面(miàn)是這(zhè)樣(yàng)):
GPT 2030 有可能(néng)在各種(zhǒng)特定任務上表現出超人的水平,包括編碼、黑客攻擊和數學(xué),以及潛在的蛋白質設計(第 1 節)。
GPT 2030 可以快速“工作”和“思考”: 按照每分鍾處理的單詞數計算 [範圍:0.5x-20x],我估計它的速度會是人類的 5 倍,并且如果 FLOP(每秒浮點運算次數)多付 5 倍價錢的話,還(hái)可以提高到 125 倍(第 2 節)。
GPT 2030 可以任意複制,并行運行。訓練 GPT 2030 的組織會有足夠的計算能(néng)力來并行跑多個副本:我估計在調整到人類的工作速度後(hòu),一年足以執行 180 萬年的工作 [範圍:40萬-100萬 年](第 3 節)。
考慮到前一點的 5 倍加速,這(zhè)項工作可以在 2.4 個月内完成(chéng)。由于具有相同的模型權重,GPT 2030 的副本可以共享知識,從而讓快速并行學(xué)習成(chéng)爲可能(néng):我估計它 1 天的學(xué)習量可相當于人類學(xué)習 2500 年(第 4 節)。
GPT 2030 將(jiāng)接受文本和圖像以外的其他模态的訓練,這(zhè)可能(néng)包括違反直覺的模态,比方說分子結構、網絡流量、低級機器代碼、天文圖像以及腦部掃描。因此,它可能(néng)對(duì)我們經(jīng)驗有限的領域有很強的直覺理解,包括能(néng)形成(chéng)我們沒(méi)有的概念(第 5 節)。
這(zhè)些能(néng)力至少會加速許多研究領域的發(fā)展,同時也會造成(chéng)嚴重的濫用(第 6 節)。在濫用方面(miàn),GPT 2030 的編程能(néng)力、并行化與速度將(jiāng)讓它成(chéng)爲強大的網絡攻擊威脅。此外,它的快速并行學(xué)習能(néng)力可以用來研究人類行爲,進(jìn)而利用數千“年”的實踐來操縱和誤導。
在加速方面(miàn),主要瓶頸之一會是自主性。在像數學(xué)研究這(zhè)樣(yàng)可以自動檢查工作的領域,我預測 GPT 2030 的表現將(jiāng)勝過(guò)大多數專業數學(xué)家。在機器學(xué)習方面(miàn),我預測 GPT 2030 可獨立執行實驗并生成(chéng)圖表和文章,但研究生和研究科學(xué)家將(jiāng)提供指導并評估結果。在這(zhè)兩(liǎng)種(zhǒng)情況下,GPT 2030 都(dōu)將(jiāng)成(chéng)爲研究過(guò)程不可或缺的一部分。
如果用今天的系統作爲參照,我對(duì) GPT 2030 具備哪些屬性的預測沒(méi)那麼(me)直觀,而且也可能(néng)是錯誤的,因爲機器學(xué)習到 2030 年會發(fā)展成(chéng)什麼(me)樣(yàng)子仍存在很大的不确定性。但是,上面(miàn)的特性 (第 1 點到第 5 點) 是我的預測中值,不管 GPT 2030 會發(fā)展成(chéng)什麼(me)樣(yàng),我都(dōu)不會相信它“隻是比 GPT-4 好(hǎo)一點而已”。
如果我是對(duì)的,那麼(me)無論人工智能(néng)會産生什麼(me)樣(yàng)的影響,影響都(dōu)不會小。我們現在應該爲這(zhè)些影響做好(hǎo)準備,問問在最大範圍内會發(fā)生什麼(me)(大約在價值 1 萬億美元、影響 1000 萬人的生命,或對(duì)社會進(jìn)程造成(chéng)重大破壞的程度上)。最好(hǎo)是現在就被(bèi)吓到,而不是在系統已經(jīng)推出的 7 年後(hòu)才感到驚訝。
我預計 GPT 2030 會具備超人的編碼、黑客攻擊與數學(xué)能(néng)力。我還(hái)預期,在閱讀和處理大型語料庫,找到模式和洞察,以及回憶事(shì)實方面(miàn),它將(jiāng)具備超人的能(néng)力。最後(hòu),由于 AlphaFold 和 AlphaZero 在蛋白質結構預測與玩遊戲方面(miàn)具有超人的能(néng)力,GPT 2030 也可以做到這(zhè)些,比方說,如果它用的是跟訓練 AlphaFold/AlphaZero 模型相似的數據上進(jìn)行多模态訓練的話。
編程。在訓練中斷後(hòu) GPT-4 在 LeetCode 問題上的表現優于人類基線,它還(hái)通過(guò)了幾家主要科技公司的模拟面(miàn)試(圖 1.5)。改進(jìn)的速度仍然很快,從 GPT-3 到 4 一下子就到提升了 19%。在更具挑戰性的 CodeForces 競賽上,GPT-4 表現不佳,但 AlphaCode 與 CodeForces 競争對(duì)手的中位數持平。在更具挑戰性的 APPS 數據集上,Parsel 又比 AlphaCode 更勝一籌 (7.8%->25.5%)。展望未來,預測平台 Metaculus 給出了到中位數年份 2027 年時人工智能(néng)在 80% APPS 上都(dōu)將(jiāng)勝出,也就是說,除最優秀的人類以外,人工智能(néng)已經(jīng)超過(guò)人類了。
黑客攻擊。我預期在一般編碼能(néng)力加持下黑客攻擊能(néng)力也會得到改善,而且機器學(xué)習模型用于搜索大型代碼庫漏洞,其擴展性和細緻程度都(dōu)要超過(guò)人類。事(shì)實上,ChatGPT 已經(jīng)被(bèi)用來幫助生成(chéng)漏洞。
數學(xué)。Minerva 在一項競賽數學(xué)基準測試 (MATH) 上已經(jīng)達到了 50% 的準确率,這(zhè)比大多數人類競争對(duì)手都(dōu)要好(hǎo)。進(jìn)展速度很快(1 年内 >30%),并且通過(guò)自動形式化、減少算術錯誤、改進(jìn)思維鏈與更好(hǎo)的數據,可以獲得唾手可得的顯著成(chéng)果。Metaculus 預測到 2025年,AI 對(duì) MATH 測試的準确率將(jiāng)達到 92%,并且到了 2028 年(中位數),人工智能(néng)將(jiāng)能(néng)赢得國(guó)際數學(xué)奧林匹克競賽金牌,與全球最好(hǎo)的高中生不相上下。我個人預計, GPT 2030 在證明“良定義定理”方面(miàn)會比大多數專業數學(xué)家都(dōu)要好(hǎo)。
信息處理。事(shì)實回憶和處理大型語料庫是語言模型的記憶能(néng)力以及大型上下文窗口的自然結果。根據經(jīng)驗,GPT-4 在 MMLU (MMLU 是一項範圍很廣的标準化考試,包括律師考試、MCAT 以及大學(xué)數學(xué)、物理、生物化學(xué)和哲學(xué))上達到了 86% 的準确率;即便考慮到可能(néng)會出現 train-test contamination(訓練集和測試集的交叉污染),這(zhè)大概也已經(jīng)超出任何活人的知識範疇。關于大型語料庫,Zhong 等人(2023) 曾用 GPT-3 開(kāi)發(fā)過(guò)一個系統,後(hòu)來這(zhè)個系統在大型文本數據集裡(lǐ)面(miàn)發(fā)現了幾個之前不知道(dào)的模式,并且描述了出來,後(hòu)來 Bills 等人的相關工作(2023)又擴展了這(zhè)種(zhǒng)趨勢,這(zhè)表明模型將(jiāng)很快成(chéng)具備超級智能(néng)。這(zhè)兩(liǎng)項工作都(dōu)利用了大型語言模型的大型上下文窗口,現在這(zhè)個規模已經(jīng)超過(guò) 100000 token 并且還(hái)在增長(cháng)。
更一般而言,機器學(xué)習模型的技能(néng)情況跟人類不一樣(yàng),因爲人類與機器學(xué)習适應的是非常不同的數據源(人類通過(guò)進(jìn)化,機器學(xué)習通過(guò)海量互聯網數據)。當模型在視頻識别等任務上達到人類水平時,它們很可能(néng)就能(néng)在許多其他任務(如數學(xué)、編程以及黑客攻擊)中表現出超人水平。此外,由于模型變得更大數據變得更好(hǎo),随著(zhe)時間的推移可能(néng)會出現其他的強大功能(néng),預期模型功能(néng)“維持”或低于人類水平沒(méi)有充分的理由。雖然當前的深度學(xué)習方法有可能(néng)在某些領域達不到人類水平,但它們也有可能(néng)會超越人類,甚至顯著超越人類水平也說不定,尤其是在人類在進(jìn)化上不擅長(cháng)的數學(xué)等領域。
(感謝 Lev McKinney 爲本節運行性能(néng)基準測試。)
爲了研究機器學(xué)習模型的速度,我們測量了機器學(xué)習模型生成(chéng)文本的速度,以每分鍾 380 個單詞的人類思維速度爲基準。使用 OpenAI 的chat completions API,我們估計 gpt-3.5-turbo 每分鍾可以生成(chéng) 1200 個單詞 (words per minute,wpm),而 gpt-4 是 370 wpm(截至 2023 年 4 月初)。規模較小的開(kāi)源模型,如 pythia-12b ,用 A100 GPU 跑用開(kāi)箱即用的工具,至少可達到 1350 wpm,通過(guò)進(jìn)一步優化似乎可以再翻一番。
因此,如果以截至 4 月份的 OpenAI 模型爲參照,人工智能(néng)的速度要麼(me)大約是人類速度的 3 倍,要麼(me)等于人類速度。我預測模型在未來的推理速度會更快,因爲在加速推理方面(miàn)存在很大的商業與實踐壓力。事(shì)實上,根據 Fabien Roger 的跟蹤數據,在這(zhè)篇文章發(fā)表之前的一周,GPT-4 的速度已經(jīng)增加到約 540wpm(12 個token/秒);這(zhè)表明存在持續的改進(jìn)空間與意願。
我的預測中值是模型的 wpm 將(jiāng)是人類的 5 倍(範圍:[0.5x, 20x]),因爲這(zhè)之後(hòu)會出現邊際收益遞減的情況,盡管有一些考慮會指向(xiàng)更高或較低的數字。
重要的是,機器學(xué)習模型的速度不是固定的。模型的串行推理速度可以以吞吐量減少 k 倍爲代價將(jiāng)速度提高 k 平方倍(換句話說,一個模型 k 立方倍的并行副本可以替換爲速度快 k 平方倍的一個模型)。這(zhè)可以通過(guò)并行平鋪法來實現,理論上甚至适用于比 k 平方還(hái)要大的情況,可能(néng)至少是 100 甚至更多。因此,通過(guò)把 k 設爲 5 的話,可以將(jiāng) 5 倍于人類速度的模型加速到 125 倍于人類速度。
重要提醒,速度與質量未必匹配:如第 1 節所述,GPT 2030 的技能(néng)組合跟人類不一樣(yàng),機器在某些我們認爲很容易的任務上會失敗,而在某些我們感覺困難的任務卻很精通。因此,我們不應把 GPT 2030 看作是“高速版人類”,而應將(jiāng)其看作是具有違反直覺的技能(néng)的,“高速版員工”。
盡管如此,把加速因素納入考慮仍然很有參考意義,尤其是當加速值很大時。如果語言模型獲得了 125 倍的加速,假設其處于 GPT 2030 的技能(néng)範圍内,需要我們一天時間的認知動作,GPT 就可以在幾分鍾内完成(chéng)。以前面(miàn)的黑客攻擊爲例,機器學(xué)習系統可以快速建立起(qǐ)對(duì)我們來說生成(chéng)速度較慢的漏洞利用或攻擊。
模型可以根據可用的計算和内存情況任意複制。這(zhè)樣(yàng)任何可以并行化的工作都(dōu)可以快速完成(chéng)。此外,一旦一個模型被(bèi)微調到特别有效,改變就可以立即傳播到其他實例。模型也可以針對(duì)專門的任務進(jìn)行提煉,從而跑得更快、成(chéng)本更低。
一旦模型經(jīng)過(guò)訓練,可能(néng)就會有足夠的資源來跑模型的多個副本。這(zhè)是因爲訓練一個模型需要運跑它的很多個并行副本,而訓練這(zhè)個模型的組織在部署的時候仍將(jiāng)擁有這(zhè)些資源。因此,我們可以通過(guò)估算訓練成(chéng)本來降低副本數量。
舉個例子說明一下這(zhè)種(zhǒng)邏輯,訓練 GPT-3 的成(chéng)本足以讓它執行 9 x 10^11 次前向(xiàng)傳播。換句話說,人類每分鍾的思考量是 380 個單詞,一個單詞平均爲 1.33 個 token,因此 9 x 10^11 次前向(xiàng)傳播相當于以人類速度工作約 3400 年。因此,用人類的工作速度該組織可以跑 3400 個模型的并行副本一整年,或者以 5 倍于人類的速度跑相數量的副本 2.4 個月。
我們接下來爲未來的模型設計同樣(yàng)的“訓練懸垂”(訓練與推理成(chéng)本的比率)。這(zhè)個比率應該會更大:主要原因是訓練懸垂與數據集大小大緻成(chéng)正比,而數據集會随著(zhe)時間的推移而增加。随著(zhe)自然産生的語言數據被(bèi)我們用完,這(zhè)種(zhǒng)趨勢將(jiāng)會放緩,但新的模式以及合成(chéng)或自生成(chéng)的數據仍將(jiāng)推動它向(xiàng)前發(fā)展。我預測 2030 年的模型可使用足夠的資源進(jìn)行訓練,去執行相當于人類速度 1800000 年的工作[範圍:400k-10M]。
請注意,Cotra (2020) 與 Davidson (2023) 估計的數量相似,得出的數字比我得預測更大;我想主要區别在于我對(duì)自然語言數據耗盡所産生影響得建模方式不一樣(yàng)。
上面(miàn)的預測有些保守,因爲如果組織購買額外的計算資源的話,模型可使用得資源可能(néng)會多于訓練時所用資源。粗略估計表明,GPT-4 使用了全球計算資源的約 0.01% 進(jìn)行訓練,不過(guò)我預計未來的訓練占用全球計算總量的份額會更大,因此在訓練後(hòu)進(jìn)一步擴展的空間會更小。盡管如此,如果組織有充分理由去擴展資源的話,仍然可以將(jiāng)所運行的副本數量提高到另一個數量級。
(感謝 Geoff Hinton 首先向(xiàng)我提出了這(zhè)個觀點。)
模型的不同副本可以共享參數更新。比方說,ChatGPT 可以部署到數百萬用戶那裡(lǐ),從每次交互中學(xué)到一些東西,然後(hòu)將(jiāng)梯度更新(gradient updates)傳播到中央服務器,在做過(guò)平均處理後(hòu)再應用到模型的所有副本上。通過(guò)這(zhè)種(zhǒng)方式,ChatGPT 在一個小時内觀察到的人性比人類一輩子(100 萬小時 = 114 年)看過(guò)的東西還(hái)要多。并行學(xué)習也許是模型最重要的優勢之一,因爲這(zhè)意味著(zhe)它們可以快速學(xué)習任何自己缺失的技能(néng)。
并行學(xué)習的速率取決于一次跑多少個模型副本,它們獲取數據的速度有多快,以及數據是否可以高效地并行利用。最後(hòu)這(zhè)一點,即使是極端的并行化也不會對(duì)學(xué)習效率造成(chéng)太大影響,因爲數百萬的批量大小在實踐中很常見,并且梯度噪聲尺度(McCandlish 等人,2018 年)預測學(xué)習性能(néng)在某個“臨界批量大小”以下劣化程度最小。因此,我們將(jiāng)聚焦在并行副本和數據采集上。
我會提供兩(liǎng)個估計,這(zhè)兩(liǎng)個估計都(dōu)表明以人類的速度并行學(xué)習至少約 100 萬份模型是可行的。也即是說,機器一天的學(xué)習量相當于人類學(xué) 2500 年,因爲 100 萬天 = 2500 年。
第一個估計用到了第 3 節中的數字,得出的結論是訓練模型的成(chéng)本足以模拟模型 180 萬年的工作(根據人類速度進(jìn)行調整)。假設訓練運行本身持續了不到 1.2 年(Sevilla 等人,2022 年),這(zhè)意味著(zhe)訓練模型的組織有足夠的 GPU 以人類速度運行 150 萬個副本。
第二個估計考慮了部署該模型的組織所占市場份額。比方說,如果一次有 100 萬用戶向(xiàng)模型發(fā)起(qǐ)查詢,則組織必然有資源來服務 100 萬個模型副本。大緻而言,截至 2023 年 5 月,ChatGPT 擁有 1 億用戶(并非同時全部活躍),截至 2023 年 1 月,其每天有 1300 萬活躍用戶。我假設典型用戶的請求量相當于模型幾分鍾的生成(chéng)文本,因此 1 月份的數字可能(néng)意味著(zhe)每天大概隻有 5 萬人日的文本。不過(guò),未來的 ChatGPT 式的模型似乎很可能(néng)會達到其 20 倍之多,日活用戶可以達到 2.5 億更多,因此每天將(jiāng)會有 100 萬人日的數據。相比之下,Facebook 的日活用戶數是 20 億。
從曆史上看,GPT 風格的模型主要是基于文本和代碼進(jìn)行訓練,除了通過(guò)聊天對(duì)話之外,與外界互動的能(néng)力有限。然而,這(zhè)種(zhǒng)情況正在迅速改變,因爲模型正在接受圖像等其他模态的訓練,正在接受使用工具的訓練,并開(kāi)始與物理執行器交互。此外,模型不會局限于文本、自然圖像、視頻和語音等以人類爲中心的模态——它們也可能(néng)會接受網絡流量、天文圖像或其他海量數據源等人類不熟悉的模态的訓練。
工具。最近發(fā)布的模型開(kāi)始利用了外部工具,如 ChatGPT 插件等。文本與工具使用相結合足以編寫出可執行的代碼,說服人類讓機器替他們采取行動,進(jìn)行 API 調用,交易,甚至執行網絡攻擊都(dōu)有可能(néng)。工具的使用具備經(jīng)濟用途,因此會有進(jìn)一步發(fā)展這(zhè)種(zhǒng)能(néng)力的強烈動機。
ChatGPT 是被(bèi)動的:用戶說 X,ChatGPT 回應 Y。風險存在但有限。很快就會有主動系統 - 一個助手會替你回複電子郵件,代表你采取行動等。這(zhè)樣(yàng)風險會更高。
- Percy Liang (@percyliang) 2023 年 2 月 27 日
新模态。現在有大型開(kāi)源視覺語言模型,如 OpenFlamingo,在商業方面(miàn),GPT-4 和 Flamingo 都(dōu)接受了視覺和文本數據的訓練。研究人員還(hái)在試驗更多奇異的模态對(duì),例如蛋白質和語言(Guo 等人,2023 年)。
我們應該期望大型預訓練模型的模式會繼續擴展,原因有二。首先,在經(jīng)濟上,將(jiāng)語言與不太熟悉的模态(如蛋白質)配對(duì)有它的用處,這(zhè)樣(yàng)用戶就可以從解釋并有效地進(jìn)行編輯中受益。預測會用蛋白質、生物醫學(xué)數據、CAD 模型以及與主要經(jīng)濟部門相關的任何其他模态進(jìn)行多模态訓練。
其次,我們將(jiāng)開(kāi)始用完語言數據,因此模型開(kāi)發(fā)人員得搜索新類型的數據,從而可以繼續受益于規模。除了傳統的文本和視頻之外,現有數據源當中天文數據(很快將(jiāng)達到每天艾字節得規模)和基因組數據(大約 0.1 艾字節/天)是規模最大之一。這(zhè)些以及其他得海量數據源可能(néng)會被(bèi)用于訓練 GPT 2030。
使用外來模态意味著(zhe) GPT 2030 可能(néng)會具備非直覺的能(néng)力。它可能(néng)比我們更了解恒星和基因,即盡管它現在處理基本的物理任務都(dōu)比較困難。這(zhè)可能(néng)會帶來驚喜,比方說設計出新的蛋白質,這(zhè)是我們基于 GPT 2030 那種(zhǒng)“一般”智能(néng)水平預料不到的。在思考 GPT 2030 的影響時,重要的是要思考由于這(zhè)些奇異的數據源而可能(néng)形成(chéng)的超人能(néng)力。
執行器。模型也開(kāi)始使用物理的執行器:ChatGPT 已經(jīng)用于機器人控制,OpenAI 正在投資一家人形機器人公司。不過(guò),在物理域收集數據要比在數字域收集數據昂貴得多,而且人類在進(jìn)化上也更适應物理域(因此機器學(xué)習模型與我們競争的門檻更高)。因此,與數字工具相比,我預計人工智能(néng)掌握物理執行器的速度會更慢,而且我不确定我們是否該在 2030 年之前做到這(zhè)一點。量化而言,我認爲在 2030 年實現自主組裝一輛按比例複制的法拉利的概率是 40%。
接下來我們將(jiāng)分析像 GPT 2030 這(zhè)樣(yàng)的系統對(duì)社會意味著(zhe)什麼(me)。具備 GPT 2030 特征的系統至少會顯著加速某些領域的研究,同時被(bèi)濫用的規模也大得很。
我會從分析 GPT 2030 的一些一般優勢和局限性開(kāi)始,然後(hòu)用來作爲分析加速和濫用的視角。
優勢。GPT 2030 代表的是一支龐大、适應性強、高産出的勞動力隊伍。回憶一下吧,多個 GPT 2030 副本并行工作,按照 5 倍于人類的運行速度,可以完成(chéng) 180 萬年的工作。這(zhè)意味著(zhe)我們可以(受到并行性的限制)模拟 180 萬個代理,每個代理在 2.4 個月内即可完成(chéng)一年的工作。如上所述,對(duì)于 FLOP (浮點運算),我們可以開(kāi)出 5 倍的費用,從而換取額外 25 倍的加速(這(zhè)將(jiāng)達到人類速度的 125 倍),因此我們還(hái)可以模拟出 14000 個代理,這(zhè)些代理每個都(dōu)能(néng)在 3 天内完成(chéng)一年的工作。
限制。利用這(zhè)種(zhǒng)數字勞動力存在三個障礙:技能(néng)情況、實驗成(chéng)本以及自主性。首先,GPT 2030 將(jiāng)擁有與人類不同的技能(néng)組合,導緻它在某些任務上表現更差(但在其他任務上表現更好(hǎo))。其次,模拟人工仍然需要與物理世界對(duì)接,以便收集數據,這(zhè)個本身需要時間和計算成(chéng)本。最後(hòu),在自主性方面(miàn),如今的模型在被(bèi)“卡住”之前隻能(néng)通過(guò)思維鏈生成(chéng)幾千個 token,進(jìn)入到沒(méi)法生成(chéng)高質量輸出的狀态。在將(jiāng)複雜任務委托給模型之前,我們需要顯著提高其可靠性。我預計可靠性會提高,但并非沒(méi)有限制:我(非常粗略)的猜測是 GPT 2030 可以穩定運行數天(與人類等效的時間),然後(hòu)就得重新設置或交給外部反饋控制。如果模型以 5 倍的速度運行的話,這(zhè)意味著(zhe)它們每隔幾個小時就需要人工監督的介入。
因此,GPT 2030 影響最大的任務應該具備以下特性:
利用了 GPT 2030 相對(duì)于人類具備優勢的技能(néng)。
隻需要外部經(jīng)驗數據(收集應該很輕松快速,與昂貴的物理實驗相反)的任務。
可以先驗分解爲可靠執行的子任務,或者具有清晰且可自動化的反饋指标來幫助引導模型的任務。
加速。有項任務這(zhè)三條标準都(dōu)很容易滿足,那就是數學(xué)研究。首先,GPT 2030 可能(néng)具備超人的數學(xué)能(néng)力(第 1 節)。這(zhè)第二條和第三條,數學(xué)可以純粹通過(guò)思考和寫作來完成(chéng),而且什麼(me)時候定理得到證明我們是知道(dào)。此外,全球的數學(xué)家總共也沒(méi)多少(比方說美國(guó)就隻有 3000 人左右),因此 GPT 2030 也許每隔幾天模拟一次産出就能(néng)超過(guò)所有數學(xué)家的年産。
機器學(xué)習研究的一些重要部分也符合上述标準。GPT 2030 在編程方面(miàn)能(néng)力超人,其中包括實施和運行實驗。鑒于 GPT-4 擅長(cháng)以通俗易懂的方式解釋複雜的主題(并且市場對(duì)此也有很大需求),我猜它也能(néng)很好(hǎo)地呈現和解釋實驗結果。因此,屆時機器學(xué)習研究可能(néng)會簡化成(chéng)構思出好(hǎo)的實驗來運行,并與高質量(但可能(néng)不可靠)的結果報告進(jìn)行交互。因此,到 2030 年時,研究生擁有的資源堪比今天帶領幾名優秀學(xué)生的教授手上的資源。
部分社會科學(xué)也可以得到顯著加速。很多論文大部分的工作是對(duì)具備科學(xué)有趣性的數據源進(jìn)行追查、分類和标記,并從中析取出重要模式。這(zhè)滿足了第 3 條要求,因爲分類和标記可以分解爲簡單的子任務,并且也滿足第 2 條要求,隻要數據在互聯網上能(néng)找到,或者可以通過(guò)在線調查收集到即可。
濫用。加速隻是一方面(miàn),另一方面(miàn)也會存在嚴重的濫用風險。最直接的案例是表現出網絡攻擊性的黑客能(néng)力。檢查特定目标是否存在特定類型的漏洞可能(néng)會得到可靠執行,并且很容易就能(néng)檢查漏洞利用是否成(chéng)功(前提是能(néng)夠與代碼交互),因此第 3 條要求是都(dōu)可以滿足的。在第 2 條要求上,GPT 2030 需要與目标系統交互去了解漏洞利用是否有效,這(zhè)會帶來一些成(chéng)本,但不足以構成(chéng)重大瓶頸。此外,該模型可以在本地設計好(hǎo),以開(kāi)源代碼作爲訓練數據源,去測試漏洞利用,因此它可以提前練好(hǎo)黑客攻擊技能(néng),然後(hòu)再與外部系統進(jìn)行交互。也就是說,GPT 2030 可以針對(duì)大量并行目标快速執行複雜的網絡攻擊。
濫用的第二個來源是操縱。如果 GPT 2030 同時與數百萬用戶進(jìn)行交互的話,那麼(me)它在一個小時内獲得的人機交互體驗比人一生(100 萬小時 = 114 年)獲得的交互體驗都(dōu)要多。如果它利用這(zhè)些交互來學(xué)習如何操縱,那麼(me)它就可以獲得遠超人類的操縱技能(néng)——打個比方,騙子擅長(cháng)欺騙受害者,因爲他們之前已經(jīng)在數百人身上練習過(guò),而 GPT 2030 可以將(jiāng)這(zhè)項技能(néng)提高幾個數量級。因此,它可能(néng)非常擅長(cháng)在一對(duì)一對(duì)話中操縱用戶,或者擅長(cháng)撰寫新聞文章來影響公衆輿論。
因此,總而言之,GPT 2030 可以將(jiāng)幾乎所有的數學(xué)研究以及其他研究領域的重要組成(chéng)部分自動化,并且可能(néng)成(chéng)爲網絡攻擊和說服/操縱等濫用行爲的強大載體。其大部分影響將(jiāng)受到“監督瓶頸”的限制,因此如果人工智能(néng)可以長(cháng)時間自主運行的話,那麼(me)它的影響可能(néng)會更大。
标簽: AI
版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com
特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有
輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!
Tel:15137991270
企業QQ:210603461
Emile:hezuo@lyzg168.com
地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室
網站:https://www.lyzg168.com
我們的微信
關注兆光,了解我們的服務與最新資訊。
Copyright © 2018-2019 洛陽霆雲網絡科技有限公司