首頁 / 新聞 / 給波士頓動力機器狗裝上ChatGPT後(hòu)，會發(fā)生什麼(me)？

給波士頓動力機器狗裝上ChatGPT後(hòu)，會發(fā)生什麼(me)？

作者: 兆光科技發(fā)布時間: 2024/08/08 點擊: 7966次

波士頓動力的「大黃狗」Spot 可以說是網紅機器人的典範。

會巡邏、會搬磚、會跳舞 Spot 自誕生以來就吸引了全世界機器人愛好(hǎo)者的目光，誰能(néng)拒絕像這(zhè)樣(yàng)一條動作靈活、姿态憨厚，還(hái)會賣萌的機器狗呢。

經(jīng)過(guò)多年的發(fā)展，賣萌已經(jīng)不再是 Spot 的「主業」，根據波士頓動力的介紹，Spot 現在能(néng)幫助人類完成(chéng)一些特定場景下的工作，例如在跨洋輪船上檢測儀表、參與地勢複雜的勘測或救援工作等等。

如果給 Spot 這(zhè)麼(me)靈活的身軀，裝上一個像 ChatGPT 這(zhè)麼(me)聰明的大腦，會發(fā)生什麼(me)？

人工智能(néng)專家 Santiago Valdarrama 還(hái)真做出來了這(zhè)麼(me)一條擁有「最強大腦」的 Spot。

用 ChatGPT 大幅簡化人機交互

Santiago 在 Twitter 上分享了他與改造版 Spot 互動的視頻，這(zhè)可能(néng)是史上第一條會講話、會聊天的機器狗。

在演示視頻中可以看到，Spot 并不僅僅是裝了個「Siri」那麼(me)簡單，當它在回答人類問題時，它的身體也會随著(zhe)語句的内容和語調一起(qǐ)擺動，看上去就像是科幻片中的 Wall-E 走進(jìn)了現實。

當你問到一些「Yes Or No」的簡單問題時，它還(hái)會用「點頭」「搖頭」等身體語言代替語音來回答你，由此可見 Spot 遠不是内置了一個智能(néng)音箱那麼(me)簡單。

接入 ChatGPT 後(hòu)，Spot 最大的變化就是聽得懂人話，并且能(néng)夠和使用者用自然語言交流。

Santiago 演示了一個場景，他跟 Spot 說因爲它太礙事(shì)導緻房間太擁擠了，讓它往後(hòu)稍稍，話音剛落 Spot 就理解了 Santiago 的意思，往後(hòu)退了幾步。

怎麼(me)樣(yàng)，是不是已經(jīng)有科幻電影中呼喚機器人工作那味了。

過(guò)去操作 Spot 需要用類似無人機的大型遙控器或者用電腦輸入複雜的指令，而現在 ChatGPT 的加入賦予了 Spot 強大的自然語言理解能(néng)力，動動嘴就能(néng)與機器人交互。

在這(zhè)個過(guò)程中，ChatGPT 擔任了人類與機器人之間的翻譯，把人類輸入的「人話」變成(chéng)機器能(néng)看懂的指令，再把機器人的反饋用實際行爲或者「人話」表達出來。

Santiago 介紹，他們把 Spot 的文件輸進(jìn)了 ChatGPT，并向(xiàng)其解釋了文件的結構以及如何讀取這(zhè)個文件，從而實現了與 Spot 語音對(duì)話和操作。

操作員與 Spot 之間的交互被(bèi)大幅簡化，人們可以直接問它：「你的電量還(hái)有多少？」，然後(hòu) Spot 就會用語音的方式回答，這(zhè)其中用到了 Google 文字轉語音的技術，再把 ChatGPT 的答複經(jīng) Spot 的「口」講出來。

Spot（或者說内置的 ChatGPT）會根據實際情況來回答問題，例如當你問它接下來要完成(chéng)什麼(me)任務時，它會根據設定好(hǎo)的任務列表來作答，這(zhè)在很大程度上避免了 ChatGPT 編造事(shì)實的情況。

當操作者給 Spot 下達像轉向(xiàng) 90 度、前進(jìn) 1 米這(zhè)樣(yàng)的命令時，Spot 會聯動内部的傳感器和定位系統，精準地響應這(zhè)些命令，不會說因爲「大腦過(guò)于發(fā)達」而失去控制。

有趣的是，當你問它「你是誰？」的問題時，它會回答「我是 OpenAI。」，而不是機器狗 Spot。

Santiago 所在的公司 Levatas 是一家與波士頓動力合作的 AI 公司，爲企業提供專業解決方案，幫助企業探索如何利用機器人解決實際問題。

Santiago 認爲，給 Spot 裝上 ChatGPT 最大的實際意義，是把原本隻有技術人員才能(néng)處理的複雜數據變成(chéng)了任何人都(dōu)能(néng)看得懂、聽得懂的自然語言。

機器人每次在執行任務前，都(dōu)要輸入冗長(cháng)的指令集；在結束工作後(hòu)，還(hái)會産生大量的數據，隻有最專業的技術人員才能(néng)從這(zhè)些數據中分析出問題。

但現在通過(guò) ChatGPT，簡單的兩(liǎng)句話就能(néng)搞定。

當機器人的操作門檻變低之後(hòu)，機器人的使用場景就會随之變得豐富起(qǐ)來。

AI 大模型的潛力不容小觑

「最強大腦」版 Spot 并不是一蹴而就的，在一個月前，Santiago 曾發(fā)布一個視頻介紹了一條能(néng)「聽懂人話」的 Spot，其用到的是 OpenAI 另一個重要 AI 模型 Whisper。

在這(zhè)個「初版」智能(néng) Spot 中，Santiago 更詳細地介紹了其中的原理：

Whisper 可以高效地把語音實時轉換成(chéng)文字，轉換的正确率和速度都(dōu)非常可觀。通過(guò)把 Whisper 與 Spot 的 SDK 結合在一起(qǐ)，它可以從人類說的話中提取關鍵文字，然後(hòu)通過(guò) SDK 向(xiàng) Spot 發(fā)送命令。

隻需要向(xiàng)它說句話，就可以讓 Spot 離開(kāi)充電塢，起(qǐ)身去檢查儀表是否出現問題，大大降低了人類的操作成(chéng)本。

Santiago 的實踐從一個很好(hǎo)的角度回答了一個被(bèi)廣泛讨論的問題：ChatGPT 一類的大語言模型到底有什麼(me)意義？

一開(kāi)始，人們認爲 ChatGPT 就是一個單純文本生産式 AI，它有著(zhe)比較強的自然語言理解能(néng)力，可以寫文章、寫報表，雖然不那麼(me)靠譜，但也算驚豔。

後(hòu)來人們發(fā)現隻要給 ChatGPT 恰當的指令，它可以代替人類自動得完成(chéng)編程或者文字處理等工作，猶如一台基于自然語言運轉的計算機。

OpenAI 發(fā)布了插件集功能(néng)後(hòu)，ChatGPT 可以與許多互聯網的應用結合在一起(qǐ)，把很多跨平台的操作用對(duì)話整合在了一起(qǐ)，變成(chéng)了互聯網的新入口。

微軟發(fā)布的 Copilot 則啓發(fā)了人們對(duì)下一階段人機交互的想象：圖形操作界面(miàn)并不一定是永遠合理的範式，許多我們習以爲常的操作都(dōu)可以被(bèi)對(duì)話代替。

再回到 Spot 上時，我們就能(néng)比較清晰地看出大語言模型的意義：簡化人機交互，賦予機器人更高級的智能(néng)。

無論是把 ChatGPT 當作新的互聯網入口，還(hái)是當作控制具備學(xué)習能(néng)力、問題分析能(néng)力和執行高精度操作能(néng)力的工業機器人的遙控器，本質上都(dōu)是把複雜的指令集變成(chéng)自然語言，降低操作成(chéng)本。

這(zhè)種(zhǒng)賦能(néng)將(jiāng)使未來的工業機器人不僅僅成(chéng)爲指令執行的工具，更能(néng)具備與人類大腦相當的智能(néng)水平。

就像圖形界面(miàn)把複雜的命令行變成(chéng)了一個個直觀的圖标，現在點按不同圖标的複雜操作又變成(chéng)了一句簡單的話，人類正在從圖形用戶界面(miàn)走向(xiàng)一個新的階段：自然語言用戶界面(miàn)。

在這(zhè)個階段，大語言模型將(jiāng)成(chéng)爲工業機器人的關鍵技術，它將(jiāng)簡化人機交互，提高生産效率，進(jìn)一步推動人類社會的科技發(fā)展。

并且在某些情況下，語言模型在理解語言時甚至會比人類表現得更好(hǎo)。普林斯頓大學(xué)的教授 Arvind Narayanan 在他一篇博客中提到了他的一個親身案例。

Arvind Narayanan 爲 ChatGPT 接上了語音交互，給自己快要四歲的女兒使用。就和所有孩子一樣(yàng)，他的女兒也充滿好(hǎo)奇心，經(jīng)常問 ChatGPT 各種(zhǒng)問題。

讓他感到意外的是，當他告知 ChatGPT 它在和一位小朋友說話時，ChatGPT 變得很善于表達同理心。

女兒：「關燈後(hòu)會發(fā)生什麼(me)事(shì)？」

ChatGPT：「關了燈之後(hòu)，會變得很黑，也可能(néng)會有點讓人害怕。但不用擔心！有很多東西能(néng)幫助你在黑暗中感到安全和舒适。」

《彭博社》專欄作家 Parmy Olson 指出，微軟和 Google 都(dōu)忙著(zhe)把大模型用在搜索引擎上，但卻沒(méi)看到，和作爲一個事(shì)實提供者相比，ChatGPT 更合适做情感陪伴者。

Olson 還(hái)讓 ChatGPT 去做了情商測試，結果居然比她自己和同事(shì)都(dōu)好(hǎo)。正因爲 ChatGPT 是用網絡上文字素材訓練的，數據中會有大量錯誤信息，但這(zhè)也讓它更善于模仿共情。

這(zhè)些案例都(dōu)充分說明了，大語言模型對(duì)自然語言的理解能(néng)力其實有著(zhe)很大的應用潛力。

借助如此強大的理解能(néng)力，我們可以利用大語言模型真正實現又一次的人機交互革新，同時大語言模型的出現爲機器人的發(fā)展帶來了新的可能(néng)性。

大語言模型可以讓機器人可以更好(hǎo)地理解和處理指令，更快地學(xué)習和适應新的任務和環境。

《紐約客》在封面(miàn)文章《黑暗工廠》（Dark Factory）中提到，目前工業機器人一個共同的難點，就是設計一個像人手一樣(yàng)的「末端執行器（end effector）」，讓機器人能(néng)以不同的力度抓取大小形狀各異的物體。

如果這(zhè)個技術難題得到解決，機器人能(néng)完成(chéng)更多精細的工作，很多領域自動化的程度也會大大提高。比如各種(zhǒng)水果的采摘可以實現自動化，富士康的流水線也不再需要這(zhè)麼(me)多工人了。

未來的工業機器人不僅僅應該是指令執行的工具，更應具備與人類大腦相當的智能(néng)水平，具備學(xué)習能(néng)力、問題分析能(néng)力和執行高精度操作的能(néng)力。

在工業生産線上，「肌肉發(fā)達」的工業機器人更加靈活高效，能(néng)夠更好(hǎo)地應對(duì)各種(zhǒng)生産問題，提高生産效率和質量。例如，在汽車制造領域，大語言模型可以爲機器人賦予更強的智能(néng)和認知能(néng)力，使其能(néng)夠更好(hǎo)地完成(chéng)多樣(yàng)化的任務。

在醫療機器人領域，機器人可以通過(guò)自然語言處理技術與醫生和病人進(jìn)行交流，提供更好(hǎo)的醫療服務。

大語言模型爲機器人行業帶來了一顆強大的大腦，爲機器人創造了出更泛化的應用場景，這(zhè)很有可能(néng)會成(chéng)爲第四次工業革命的技術核心。而「語音版」Spot，便是這(zhè)場技術變革迸發(fā)出的第一縷火花。

标簽： ChatGPT

版權申明：本站文章部分自網絡，如有侵權，請聯系：hezuo@lyzg168.com

特别注意：本站所有轉載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設計作品，如需使用，請與原作者聯系，版權歸原作者所有