作者: 兆光科技 發(fā)布時間: 2024/08/09 點擊: 636次
機器很聰明,但卻無法理解一個簡單的“不”。
編者按:“這(zhè)隻鳥兒不會飛。”對(duì)于人類來講,這(zhè)句話是很好(hǎo)理解的,但對(duì)于當前的大型語言模型來講,它們很可能(néng)會把這(zhè)句話簡單理解爲“這(zhè)隻鳥兒會飛。”這(zhè)是因爲,模型在理解“否定”的概念上存在很大的障礙。如今的語言模型比以往任何時候都(dōu)更加複雜,但它們仍然在與“否定”的概念作鬥争。而且,這(zhè)種(zhǒng)情況短期内不太可能(néng)改變。本文來自編譯,希望對(duì)您有所啓發(fā)。
諾拉·卡斯納(Nora Kassner)覺得她的電腦并不像人們想象的那麼(me)聰明。2018 年 10 月,谷歌發(fā)布了一種(zhǒng)名爲 BERT 的語言模型算法,同一領域的研究人員卡斯納迅速將(jiāng)其加載到了自己的筆記本電腦上。這(zhè)是谷歌的第一個基于大量在線數據的語言模型。像大多數同行一樣(yàng),卡斯納對(duì) BERT 補全句子和回答簡單問題的能(néng)力印象深刻。大型語言模型(LLM)似乎可以像人類一樣(yàng)閱讀文本(甚至做得更好(hǎo))。
但當時在慕尼黑路德維希·馬克西米利安大學(xué)(Ludwig Maximilian University of Munich)讀研究生的卡斯納還(hái)是對(duì)此持懷疑态度。她認爲,大型語言模型應該明白它們的答案意味著(zhe)什麼(me),以及不意味著(zhe)什麼(me)。“知道(dào)鳥會飛是一回事(shì)”,她說,“一個模型還(hái)應該自動知道(dào)‘鳥不會飛’這(zhè)種(zhǒng)否定的說法是錯誤的。”但當她和顧問辛裡(lǐ)希·施茲(Hinrich Schütze)在 2019 年對(duì) BERT 和其他兩(liǎng)個大型語言模型進(jìn)行測試時,發(fā)現這(zhè)些模型的表現就好(hǎo)像“不”這(zhè)樣(yàng)的否定詞彙是不存在的一樣(yàng)。
自那以後(hòu),大型語言模型的規模和能(néng)力都(dōu)在飙升。“算法本身仍然與我們以前的算法相似,但其規模和性能(néng)确實是令人驚訝的,”卡内基梅隆大學(xué)(Carnegie Mellon University)安全人工智能(néng)實驗室負責人趙鼎(音譯,Ding Zhao)說。
但是,雖然聊天機器人的表現有所提高,但它們在理解“否定”方面(miàn)仍然存在問題。他們知道(dào)說一隻鳥不能(néng)飛意味著(zhe)什麼(me),但當面(miàn)對(duì)更複雜的、人類可以輕松理解的邏輯時,他們則會崩潰。
香港科技大學(xué)(Hong Kong University of Science and Technology)的人工智能(néng)研究員帕斯卡爾·馮(Pascale Fung)表示:“大型語言模型比我們以前擁有的任何系統都(dōu)運行得更好(hǎo)。那麼(me),爲什麼(me)它們在看似簡單的事(shì)情上做不好(hǎo),卻在其他我們意想不到的事(shì)情上能(néng)表現出驚人的力量呢?”最近的研究終于開(kāi)始解釋這(zhè)些問題了。但研究人員仍然不明白機器是否會真正理解“不”這(zhè)個詞。
諾拉·卡斯納(Nora Kassner)對(duì)主流的聊天機器人進(jìn)行了測試,發(fā)現它們通常無法理解否定的概念。Courtesy of Nora Kassner
要讓電腦像人一樣(yàng)閱讀和寫作是很難的。機器擅長(cháng)存儲大量數據和進(jìn)行複雜的計算,因此開(kāi)發(fā)人員將(jiāng)大型語言模型構建爲神經(jīng)網絡:一種(zhǒng)評估對(duì)象(在語言模型中指的是單詞)如何相互關聯的統計模型。每一種(zhǒng)語言關系都(dōu)有一定的權重,而這(zhè)種(zhǒng)權重在訓練過(guò)程中會經(jīng)過(guò)微調。例如,“老鼠”與“齧齒動物”的關系比與“披薩”的關系更大,即使我們知道(dào)有些老鼠也喜歡吃披薩。
就像智能(néng)手機鍵盤知道(dào)你在“good”後(hòu)面(miàn)喜歡跟著(zhe)“morning”一樣(yàng),大型語言模型也會按順序預測文本段中的下一個單詞。用于訓練語言模型的數據集越大,模型的預測能(néng)力就越好(hǎo),而且随著(zhe)用于訓練模型的數據量大大增加,數十種(zhǒng)不同的大型語言模型如雨後(hòu)春筍般湧出。例如,聊天機器人已經(jīng)學(xué)會了使用自己的風格、語法和語氣來“說話”。“早期的一個問題是,語言模型完全無法察覺語言中的情緒,”卡内基梅隆大學(xué)(Carnegie Mellon)的計算機科學(xué)家凱瑟琳·卡利(Kathleen Carley)說。卡利研究的是使用大型語言模型進(jìn)行“情緒分析”,從大型數據集中提取情緒語言,用于挖掘社交媒體意見等。
因此,新模型應該能(néng)更可靠地得到正确的答案。“但我們并沒(méi)有應用推理,”卡利說,“我們隻是應用了一種(zhǒng)數學(xué)上的變化。”而且,不出所料,專家們正在尋找這(zhè)些模型與人類閱讀方式之間存在差異的地方。
與人類不同,大型語言模型是通過(guò)將(jiāng)語言轉化爲數學(xué)來處理語言的。這(zhè)些模型通過(guò)預測可能(néng)的文本組合,來改進(jìn)其在生成(chéng)文本方面(miàn)的能(néng)力。但是,這(zhè)是有代價的。
“問題在于,預測的任務并不等同于理解的任務,”芝加哥大學(xué)(University of Chicago)的計算語言學(xué)家艾莉森·艾丁格(allison Ettinger)說。和卡斯納一樣(yàng),艾丁格也在測試語言模型如何處理那些對(duì)人類來說似乎很容易的任務。例如,在 2019 年,艾丁格用測試人類語言能(néng)力的方法測試了 BERT:
他接住了傳球,又一次得分。沒(méi)有什麼(me)比踢____更讓他開(kāi)心的了。(BERT 正确地預測了“足球”。)
車道(dào)上的雪積得很高,他們無法把車開(kāi)出來。當艾伯特醒來時,父親遞給了他一個____。(BERT 錯誤地預測了“紙條”、“信”、“槍”。)
當涉及到否定的時候,BERT 做得始終不太好(hǎo)。
一隻知更鳥不是____。(BERT 預測的是“知更鳥”和“鳥”。)
一方面(miàn),對(duì)于模型來說,這(zhè)是一個合理的錯誤。艾丁格說:“在很多情況下,‘知更鳥’和‘鳥’會相互預測,因爲它們可能(néng)會非常頻繁地同時出現。”而另一方面(miàn),任何人都(dōu)能(néng)看出這(zhè)是錯的。
“預測的任務并不等同于理解的任務,”芝加哥大學(xué)(University of Chicago)的計算語言學(xué)家艾莉森·艾丁格說。
到 2023 年,OpenAI 的 ChatGPT 和谷歌的機器人 Bard 已經(jīng)有了長(cháng)足進(jìn)步,可以預測艾伯特的父親遞給他的是一把鏟子,而不是一把槍了。同樣(yàng),這(zhè)可能(néng)是數據量增加和改進(jìn)的結果,使得更好(hǎo)的數學(xué)預測成(chéng)爲了可能(néng)。
但“否定”的概念仍然會讓聊天機器人犯錯誤。當輸入提示“什麼(me)動物沒(méi)有爪子也不下蛋,但有翅膀?”時,Bard 回答說:“沒(méi)有這(zhè)樣(yàng)的動物。”而 ChatGPT 正确地回答了蝙蝠,但也回答了飛鼠和飛狐猴,而這(zhè)兩(liǎng)種(zhǒng)動物是沒(méi)有翅膀的。總的來說,“随著(zhe)模型變大,難以理解否定概念這(zhè)一點并沒(méi)有發(fā)生改變,”艾丁格說,“一般的世界知識并沒(méi)有什麼(me)幫助。”
一個顯而易見的問題是,在英文中,爲什麼(me)像“do not”和“is not”這(zhè)樣(yàng)的詞彙不直接提示機器忽略“do”和“is”呢?
這(zhè)種(zhǒng)情況并非偶然。像“not”(不)、“never”(從不)、和“none”這(zhè)樣(yàng)的否定詞被(bèi)稱爲停止詞,它們是功能(néng)性的詞彙,而不是描述性的詞彙。像“bird”(鳥)和“rat”(老鼠)等詞彙是具有明确含義的,相比之下,停止詞本身不會自己增加含義和内容。其他例子還(hái)包括“a”、“the”和“with”。譯者注:Stop Words(停止詞)是指在自然語言中出現頻率非常高,但是對(duì)文章的意義沒(méi)有實質影響的那類詞。
辛辛那提大學(xué)(University of Cincinnati)研究感知分析的博士生伊祖那·奧克帕拉(Izunna Okpala)說:“有些模型會過(guò)濾掉停止詞,以提高效率。”比如,省略每個“a”,可以讓模型更容易地分析文本的描述性内容。省略每個“the”,并不會讓句子失去原本的意思。但這(zhè)個過(guò)程也排除了否定詞,這(zhè)意味著(zhe)大多數大型語言模型都(dōu)會忽略否定詞。
那麼(me),大型語言模型爲什麼(me)不能(néng)學(xué)習一下停止詞的意思呢?歸根結底,是人類與模型理解“意思”的方式不同。是這(zhè)樣(yàng)的,否定詞對(duì)我們很重要,因爲人類有能(néng)力理解這(zhè)些詞的含義。但模型是從數學(xué)權重中學(xué)習“意義”的:“玫瑰”經(jīng)常與“花”/“紅色”/“香味“一起(qǐ)出現,而用這(zhè)種(zhǒng)方法是不可能(néng)知道(dào)什麼(me)是“不”的。
卡斯納說,訓練數據也有一定的漏洞,更多的訓練數據不一定能(néng)解決問題。模型主要被(bèi)訓練的是肯定句,因爲這(zhè)是人們最有效溝通的方式。卡斯納說:“如果我說自己出生在某一天,那就自動排除了其他所有日期。我不會說‘我不是在 XX 天出生的’。”
這(zhè)種(zhǒng)否定陳述的缺乏破壞了模型的訓練。“模型很難生成(chéng)事(shì)實正确的否定句,因爲它就沒(méi)有見過(guò)那麼(me)多的否定句,”卡斯納說。
如果更多的訓練數據不能(néng)解決問題,那還(hái)有什麼(me)解決方案嗎?今年 3 月發(fā)表在 arxiv.org 網站上的一篇分析文章提供了線索。牛津大學(xué)的計算機科學(xué)家張明俊(音譯,Myeongjun Jang)和托馬斯·盧卡謝維奇(Thomas Lukasiewicz)對(duì) ChatGPT 的否定技能(néng)進(jìn)行了測試。他們發(fā)現,盡管大型語言模型的學(xué)習方式沒(méi)有改變,但 ChatGPT 在否定技能(néng)方面(miàn)比早期的大型語言模型略勝一籌。“這(zhè)是一個相當令人驚訝的結果,”張說。他認爲 ChatGPT 的“秘密武器”是人類提供的反饋。
ChatGPT 算法已經(jīng)通過(guò)人類的反饋而進(jìn)行了微調,在這(zhè)個過(guò)程中,人們會驗證 ChatGPT 的回答并提出改進(jìn)建議。因此,當用戶注意到 ChatGPT 在簡單的否定句中表現不佳時,就會報告錯誤,從而使算法最終得到正确的結果。
ChatGPT 的開(kāi)發(fā)人員約翰·舒爾曼(John Schulman)在最近的一次演講中提到,人類反饋是另一項改進(jìn)的關鍵:讓 ChatGPT 在得到否定提示而對(duì)答案模棱兩(liǎng)可時,給出“我不知道(dào)”的回答。卡斯納說:“能(néng)夠避免回答問題非常重要。”有時候“我不知道(dào)”就是答案。
帕斯卡爾·馮(Pascale Fung)說,很難直接對(duì)許多大型語言模型進(jìn)行分析,因此盡管它們顯示出了有關否定的一些小迹象,但研究人員尚不能(néng)完全理解這(zhè)些改進(jìn)。
然而,即使這(zhè)種(zhǒng)方法也存在漏洞。當卡斯納在 ChatGPT 上輸入提示“愛麗絲并非出生在德國(guó),那麼(me)愛麗絲出生在漢堡(德國(guó)城市)嗎?”時,機器人仍然回答說它不知道(dào)。
盧卡謝維奇說:“這(zhè)不是一個能(néng)通過(guò)語言模型的學(xué)習方式自然解決的問題。所以重要的是找到真正解決這(zhè)個問題的方法。”
一種(zhǒng)選擇是在否定句中添加額外的語言處理層。奧克帕拉開(kāi)發(fā)了一種(zhǒng)用于情感分析的此類算法,其團隊 2 月份在 arxiv.org 上發(fā)表了一篇論文,提到可以使用一個名爲 WordHoard 的庫來捕捉像“not”這(zhè)樣(yàng)的否定詞。這(zhè)是一個簡單的算法,研究人員可以將(jiāng)其插入自己的工具和語言模型中。“事(shì)實證明,與單獨的情感分析相比,使用 WordHoard 時具有更高的準确性,”奧克帕拉說。當他將(jiāng)自己的代碼和 WordHoard 與三種(zhǒng)常見的情感分析工具結合在一起(qǐ)時,都(dōu)提高了提取觀點的準确性,最好(hǎo)的一種(zhǒng)情況提高了35%。
另一種(zhǒng)選擇是修改訓練數據。在測試 BERT 時,卡斯納使用了具有相同數量肯定和否定語句的文本。在反義詞(“bad”,“壞”)可以代替否定詞(“not good”,“不好(hǎo)”)的簡單情況下,這(zhè)種(zhǒng)方法有助于提高性能(néng)。但這(zhè)并不是一個完美的解決方案,因爲“不好(hǎo)”并不總是意味著(zhe)“壞”。對(duì)機器來說,“不”的含義範圍太大了。“這(zhè)是無法解釋的,”馮說,“你不是我,你不是鞋子,你不是很多東西。”
最後(hòu),由于大型語言模型之前的能(néng)力進(jìn)化就曾讓我們頗感意外,所以經(jīng)過(guò)更多訓練的更大模型最終可能(néng)會自己學(xué)會處理否定。張和盧卡謝維奇表示希望在文本詞彙之外的多樣(yàng)化訓練數據能(néng)有所幫助。盧卡謝維奇說:“語言不僅僅是通過(guò)文本來描述的,視頻和音頻也都(dōu)可以充當語言”。OpenAI 的新 GPT-4 集成(chéng)了文本、音頻和視覺,據報道(dào),它是迄今爲止最大的“多模态”大型語言模型。
但是,雖然以上這(zhè)些技術加上更強大的處理能(néng)力和數據量,可能(néng)會讓聊天機器人掌握“否定”的含義,但大多數研究人員仍對(duì)此持懷疑态度。艾丁格說:“我們實際上不能(néng)保證這(zhè)種(zhǒng)情況會發(fā)生。”她認爲這(zhè)需要一個根本性的轉變,讓語言模型從目前預測單詞的目标上轉移開(kāi)來。
畢竟,當孩子們學(xué)習語言時,他們并不是在試圖預測下一個單詞,而隻是在把單詞映射到概念上。艾丁格說,他們在“對(duì)世界做出‘這(zhè)是真的’或‘這(zhè)不是真的’這(zhè)樣(yàng)的判斷”。
如果大型語言模型能(néng)夠以這(zhè)種(zhǒng)方式區分真假,那麼(me)將(jiāng)極大地打開(kāi)“可能(néng)性”的大門。“當大型語言模型更接近人類時,有關否定的問題就可能(néng)會消失了。”奧克帕拉說。
當然,這(zhè)可能(néng)隻是將(jiāng)一個問題轉換爲了另一個問題。“我們需要更好(hǎo)的理論來研究‘人類如何識别意義’以及‘人們如何解讀文本’,”卡利說,“花在理解人類思維方式上的資金,比花在開(kāi)發(fā)更好(hǎo)算法上的資金要少得多。”
而且,剖析大型語言模型的錯誤也越來越困難。與最先進(jìn)的模型相關的信息不像以前那樣(yàng)透明了,因此研究人員隻能(néng)根據輸入和輸出來評估它們,而不知道(dào)中間發(fā)生的事(shì)情。
卡斯納認爲,未來的改進(jìn)速度將(jiāng)會放緩。她說:“我從來沒(méi)有想象過(guò),在這(zhè)麼(me)短的時間内能(néng)看到語言模型領域取得如今這(zhè)麼(me)大的進(jìn)展。我一直很懷疑,僅僅擴大模型并輸入越來越多的數據,是否足夠讓模型産生突破。并且我至今仍然認爲,這(zhè)是不夠的。”
标簽: AI
版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com
特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有
輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!
Tel:15137991270
企業QQ:210603461
Emile:hezuo@lyzg168.com
地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室
網站:https://www.lyzg168.com
我們的微信
關注兆光,了解我們的服務與最新資訊。
Copyright © 2018-2019 洛陽霆雲網絡科技有限公司