首頁 / 新聞 / 給波士頓動力機器狗裝上ChatGPT後(hòu),會發(fā)生什麼(me)?

給波士頓動力機器狗裝上ChatGPT後(hòu),會發(fā)生什麼(me)?

作者: 兆光科技 發(fā)布時間: 2024/08/08 點擊: 7966次

波士頓動力的「大黃狗」Spot 可以說是網紅機器人的典範。

會巡邏、會搬磚、會跳舞 Spot 自誕生以來就吸引了全世界機器人愛好(hǎo)者的目光,誰能(néng)拒絕像這(zhè)樣(yàng)一條動作靈活、姿态憨厚,還(hái)會賣萌的機器狗呢。

經(jīng)過(guò)多年的發(fā)展,賣萌已經(jīng)不再是 Spot 的「主業」,根據波士頓動力的介紹,Spot 現在能(néng)幫助人類完成(chéng)一些特定場景下的工作,例如在跨洋輪船上檢測儀表、參與地勢複雜的勘測或救援工作等等。

如果給 Spot 這(zhè)麼(me)靈活的身軀,裝上一個像 ChatGPT 這(zhè)麼(me)聰明的大腦,會發(fā)生什麼(me)?

人工智能(néng)專家 Santiago Valdarrama 還(hái)真做出來了這(zhè)麼(me)一條擁有「最強大腦」的 Spot。

用 ChatGPT 大幅簡化人機交互

Santiago 在 Twitter 上分享了他與改造版 Spot 互動的視頻,這(zhè)可能(néng)是史上第一條會講話、會聊天的機器狗。

在演示視頻中可以看到,Spot 并不僅僅是裝了個「Siri」那麼(me)簡單,當它在回答人類問題時,它的身體也會随著(zhe)語句的内容和語調一起(qǐ)擺動,看上去就像是科幻片中的 Wall-E 走進(jìn)了現實。

當你問到一些「Yes Or No」的簡單問題時,它還(hái)會用「點頭」「搖頭」等身體語言代替語音來回答你,由此可見 Spot 遠不是内置了一個智能(néng)音箱那麼(me)簡單。

接入 ChatGPT 後(hòu),Spot 最大的變化就是聽得懂人話,并且能(néng)夠和使用者用自然語言交流。

Santiago 演示了一個場景,他跟 Spot 說因爲它太礙事(shì)導緻房間太擁擠了,讓它往後(hòu)稍稍,話音剛落 Spot 就理解了 Santiago 的意思,往後(hòu)退了幾步。

怎麼(me)樣(yàng),是不是已經(jīng)有科幻電影中呼喚機器人工作那味了。

過(guò)去操作 Spot 需要用類似無人機的大型遙控器或者用電腦輸入複雜的指令,而現在 ChatGPT 的加入賦予了 Spot 強大的自然語言理解能(néng)力,動動嘴就能(néng)與機器人交互。

在這(zhè)個過(guò)程中,ChatGPT 擔任了人類與機器人之間的翻譯,把人類輸入的「人話」變成(chéng)機器能(néng)看懂的指令,再把機器人的反饋用實際行爲或者「人話」表達出來。

Santiago 介紹,他們把 Spot 的文件輸進(jìn)了 ChatGPT,并向(xiàng)其解釋了文件的結構以及如何讀取這(zhè)個文件,從而實現了與 Spot 語音對(duì)話和操作。

操作員與 Spot 之間的交互被(bèi)大幅簡化,人們可以直接問它:「你的電量還(hái)有多少?」,然後(hòu) Spot 就會用語音的方式回答,這(zhè)其中用到了 Google 文字轉語音的技術,再把 ChatGPT 的答複經(jīng) Spot 的「口」講出來。

Spot(或者說内置的 ChatGPT)會根據實際情況來回答問題,例如當你問它接下來要完成(chéng)什麼(me)任務時,它會根據設定好(hǎo)的任務列表來作答,這(zhè)在很大程度上避免了 ChatGPT 編造事(shì)實的情況。

當操作者給 Spot 下達像轉向(xiàng) 90 度、前進(jìn) 1 米這(zhè)樣(yàng)的命令時,Spot 會聯動内部的傳感器和定位系統,精準地響應這(zhè)些命令,不會說因爲「大腦過(guò)于發(fā)達」而失去控制。

有趣的是,當你問它「你是誰?」的問題時,它會回答「我是 OpenAI。」,而不是機器狗 Spot。

Santiago 所在的公司 Levatas 是一家與波士頓動力合作的 AI 公司,爲企業提供專業解決方案,幫助企業探索如何利用機器人解決實際問題。

Santiago 認爲,給 Spot 裝上 ChatGPT 最大的實際意義,是把原本隻有技術人員才能(néng)處理的複雜數據變成(chéng)了任何人都(dōu)能(néng)看得懂、聽得懂的自然語言。

機器人每次在執行任務前,都(dōu)要輸入冗長(cháng)的指令集;在結束工作後(hòu),還(hái)會産生大量的數據,隻有最專業的技術人員才能(néng)從這(zhè)些數據中分析出問題。

但現在通過(guò) ChatGPT,簡單的兩(liǎng)句話就能(néng)搞定。

當機器人的操作門檻變低之後(hòu),機器人的使用場景就會随之變得豐富起(qǐ)來。

AI 大模型的潛力不容小觑

「最強大腦」版 Spot 并不是一蹴而就的,在一個月前,Santiago 曾發(fā)布一個視頻介紹了一條能(néng)「聽懂人話」的 Spot,其用到的是 OpenAI 另一個重要 AI 模型 Whisper。

在這(zhè)個「初版」智能(néng) Spot 中,Santiago 更詳細地介紹了其中的原理:

Whisper 可以高效地把語音實時轉換成(chéng)文字,轉換的正确率和速度都(dōu)非常可觀。通過(guò)把 Whisper 與 Spot 的 SDK 結合在一起(qǐ),它可以從人類說的話中提取關鍵文字,然後(hòu)通過(guò) SDK 向(xiàng) Spot 發(fā)送命令。

隻需要向(xiàng)它說句話,就可以讓 Spot 離開(kāi)充電塢,起(qǐ)身去檢查儀表是否出現問題,大大降低了人類的操作成(chéng)本。

Santiago 的實踐從一個很好(hǎo)的角度回答了一個被(bèi)廣泛讨論的問題:ChatGPT 一類的大語言模型到底有什麼(me)意義?

一開(kāi)始,人們認爲 ChatGPT 就是一個單純文本生産式 AI,它有著(zhe)比較強的自然語言理解能(néng)力,可以寫文章、寫報表,雖然不那麼(me)靠譜,但也算驚豔。

後(hòu)來人們發(fā)現隻要給 ChatGPT 恰當的指令,它可以代替人類自動得完成(chéng)編程或者文字處理等工作,猶如一台基于自然語言運轉的計算機。

OpenAI 發(fā)布了插件集功能(néng)後(hòu),ChatGPT 可以與許多互聯網的應用結合在一起(qǐ),把很多跨平台的操作用對(duì)話整合在了一起(qǐ),變成(chéng)了互聯網的新入口。

微軟發(fā)布的 Copilot 則啓發(fā)了人們對(duì)下一階段人機交互的想象:圖形操作界面(miàn)并不一定是永遠合理的範式,許多我們習以爲常的操作都(dōu)可以被(bèi)對(duì)話代替。

再回到 Spot 上時,我們就能(néng)比較清晰地看出大語言模型的意義:簡化人機交互,賦予機器人更高級的智能(néng)。

無論是把 ChatGPT 當作新的互聯網入口,還(hái)是當作控制具備學(xué)習能(néng)力、問題分析能(néng)力和執行高精度操作能(néng)力的工業機器人的遙控器,本質上都(dōu)是把複雜的指令集變成(chéng)自然語言,降低操作成(chéng)本。

這(zhè)種(zhǒng)賦能(néng)將(jiāng)使未來的工業機器人不僅僅成(chéng)爲指令執行的工具,更能(néng)具備與人類大腦相當的智能(néng)水平。

就像圖形界面(miàn)把複雜的命令行變成(chéng)了一個個直觀的圖标,現在點按不同圖标的複雜操作又變成(chéng)了一句簡單的話,人類正在從圖形用戶界面(miàn)走向(xiàng)一個新的階段:自然語言用戶界面(miàn)。

在這(zhè)個階段,大語言模型將(jiāng)成(chéng)爲工業機器人的關鍵技術,它將(jiāng)簡化人機交互,提高生産效率,進(jìn)一步推動人類社會的科技發(fā)展。

并且在某些情況下,語言模型在理解語言時甚至會比人類表現得更好(hǎo)。普林斯頓大學(xué)的教授 Arvind Narayanan 在他一篇博客中提到了他的一個親身案例。

Arvind Narayanan 爲 ChatGPT 接上了語音交互,給自己快要四歲的女兒使用。就和所有孩子一樣(yàng),他的女兒也充滿好(hǎo)奇心,經(jīng)常問 ChatGPT 各種(zhǒng)問題。

讓他感到意外的是,當他告知 ChatGPT 它在和一位小朋友說話時,ChatGPT 變得很善于表達同理心。

女兒:「關燈後(hòu)會發(fā)生什麼(me)事(shì)?」

ChatGPT:「關了燈之後(hòu),會變得很黑,也可能(néng)會有點讓人害怕。但不用擔心!有很多東西能(néng)幫助你在黑暗中感到安全和舒适。」

《彭博社》專欄作家 Parmy Olson 指出,微軟和 Google 都(dōu)忙著(zhe)把大模型用在搜索引擎上,但卻沒(méi)看到,和作爲一個事(shì)實提供者相比,ChatGPT 更合适做情感陪伴者。

Olson 還(hái)讓 ChatGPT 去做了情商測試,結果居然比她自己和同事(shì)都(dōu)好(hǎo)。正因爲 ChatGPT 是用網絡上文字素材訓練的,數據中會有大量錯誤信息,但這(zhè)也讓它更善于模仿共情。

這(zhè)些案例都(dōu)充分說明了,大語言模型對(duì)自然語言的理解能(néng)力其實有著(zhe)很大的應用潛力。

借助如此強大的理解能(néng)力,我們可以利用大語言模型真正實現又一次的人機交互革新,同時 大 語言模 型的出現爲機器人的發(fā)展帶來了新的可能(néng)性。

大語言模型可以讓機器人可以更好(hǎo)地理解和處理指令,更快地學(xué)習和适應新的任務和環境。

《紐約客》在封面(miàn)文章 《黑暗工廠》(Dark Factory)中提到,目前工業機器人一個共同的難點,就是設計一個像人手一樣(yàng)的「末端執行器(end effector)」,讓機器人能(néng)以不同的力度抓取大小形狀各異的物體。

如果這(zhè)個技術難題得到解決,機器人能(néng)完成(chéng)更多精細的工作,很多領域自動化的程度也會大大提高。比如各種(zhǒng)水果的采摘可以實現自動化,富士康的流水線也不再需要這(zhè)麼(me)多工人了。

未來的工業機器人不僅僅應該是指令執行的工具,更應具備與人類大腦相當的智能(néng)水平,具備學(xué)習能(néng)力、問題分析能(néng)力和執行高精度操作的能(néng)力。

在工業生産線上,「肌肉發(fā)達」的工業機器人更加靈活高效,能(néng)夠更好(hǎo)地應對(duì)各種(zhǒng)生産問題,提高生産效率和質量。例如,在汽車制造領域,大語言模型可以爲機器人賦予更強的智能(néng)和認知能(néng)力,使其能(néng)夠更好(hǎo)地完成(chéng)多樣(yàng)化的任務。

在醫療機器人領域, 機 器人可以通過(guò)自然語言處理技術與醫生和病人進(jìn)行交流,提供更好(hǎo)的醫療服務。

大語言模型爲機器人行業帶來了一顆強大的大腦,爲機器人創造了出更泛化的應用場景,這(zhè)很有可能(néng)會成(chéng)爲第四次工業革命的技術核心。而「語音版」Spot,便是這(zhè)場技術變革迸發(fā)出的第一縷火花。


标簽: ChatGPT

版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com

特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有

聯系我們

輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!

洛陽霆雲網絡科技有限公司

Tel:15137991270

企業QQ:210603461

Emile:hezuo@lyzg168.com

地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室

網站:https://www.lyzg168.com

洛陽app開(kāi)發(fā),洛陽app開(kāi)發(fā)公司,洛陽手機軟件開(kāi)發(fā),蘋果保上架,洛陽網站開(kāi)發(fā),洛陽網站制作,洛陽微信定制開(kāi)發(fā)

我們的微信

關注兆光,了解我們的服務與最新資訊。

Copyright © ​2018-2019 洛陽霆雲網絡科技有限公司