首頁 / 新聞 / 蘋果Vision Pro頭顯AI助手來襲：會調酒、能(néng)打麻將(jiāng)，甚至能(néng)開(kāi)飛機

蘋果Vision Pro頭顯AI助手來襲：會調酒、能(néng)打麻將(jiāng)，甚至能(néng)開(kāi)飛機

作者: 兆光科技發(fā)布時間: 2024/08/08 點擊: 7047次

還(hái)有更多技能(néng)

要是蘋果Vision Pro頭顯加上AI助手，有多強？

南洋理工大學(xué)與微軟雷蒙德研究所帶來一個震撼概念演示。

人在飛機上，不知道(dào)怎麼(me)降落？帶上頭顯把畫面(miàn)傳給AI，就能(néng)一步一步你操作。

這(zhè)個多模态AI助手名叫(jiào)Otter（水獺），以視頻爲輸入，能(néng)完成(chéng)多模态感知、推理、和上下文學(xué)習，也經(jīng)過(guò)專門的遵循指令訓練。

更貼近生活一些的場景，在麻將(jiāng)桌上，Otter分分鍾教你胡幾次大的。

‍而當你鍛煉身體時，Otter可以充當你的計數器。

調酒師小哥忘記配方時，也能(néng)分分鍾化解尴尬。

總之，它可以實時識别現實場景并回答人類提問，而且簡直就是個全能(néng)選手。

Otter一共支持八種(zhǒng)語言，中文也包括在内。

訓練過(guò)程中，團隊專門使用了适用于AR頭顯的第一視角視頻，宣傳上也明示就是爲蘋果頭顯準備的。

不過(guò)也有網友發(fā)現了華點。

結果，Otter在各測試項目上的平均成(chéng)績比傳統的MiniGPT-4、OpenFlamingo等傳統模型高出十餘個百分點。

如何實現

Otter使用視覺識别模塊分析場景信息，并結合ChatGPT生成(chéng)答案。

其中核心的視覺模塊是基于改進(jìn)版本的LLaVA進(jìn)行訓練的。

Otter整體的工作流程大概是這(zhè)樣(yàng)的：

首先要對(duì)視覺信息進(jìn)行處理，并結合系統信息生成(chéng)prompt。

生成(chéng)好(hǎo)的prompt會被(bèi)傳遞給ChatGPT，得到指令-回應數據。

這(zhè)樣(yàng)得到的答案再經(jīng)過(guò)一步篩選器篩選之後(hòu)，由ChatGPT翻譯成(chéng)用戶選擇的語言并輸出。

在主線流程之外，團隊還(hái)引入了冷啓動機制，用于發(fā)現數據庫中可用的情景實例。

接下來，讓我們看一下當中最關鍵的環節，也就是視覺信息的解釋。

爲了訓練Otter，研究團隊專門提出了MultI-Modal In-Context Instruction Tuning（多模式場景下的指令調整）數據集。

MIMIC-IT涵蓋了大量的現實生活場景，而且不同于傳統的LLaVa等隻有一張圖片和語言描述的數據集，MIMIC-IT包含多種(zhǒng)模式。

Otter中視覺識别模塊的訓練大緻分爲一般場景和第一人稱視角下的場景兩(liǎng)部分。

其中一般場景的識别又分爲了四個步驟。

第一步是對(duì)場景化信息的學(xué)習，這(zhè)一部中使用的是經(jīng)過(guò)調整的LLaVA數據集。

對(duì)數據集中的每個指令-相應組，團隊都(dōu)基于文字或圖片相似性爲其檢索了是個場景化實例。

爲了更好(hǎo)地适應真實世界，下一步的訓練主要是讓模型發(fā)現圖像之間的差别。

而這(zhè)些差别又被(bèi)分爲了一般差别和微小差别兩(liǎng)種(zhǒng)類型。

對(duì)于一般差别，通過(guò)prompt讓ChatGPT進(jìn)行圖像分析和物體檢測生成(chéng)注釋。

而對(duì)于微小差别，則使用自然語言描述作爲注釋。

擁有了發(fā)現差别的能(néng)力之後(hòu)，就要讓模型嘗試著(zhe)“講故事(shì)”了。

由于圖像注釋無法直觀反映時間線等要素，研究團隊讓ChatGPT充當觀衆并回答一系列問題。

每一個場景之中都(dōu)包含圖像和對(duì)應的指令-響應組。

爲了擴展模型的視野，研究團隊還(hái)讓它學(xué)習了包含大量說明的長(cháng)視頻片段。

說明信息包括視頻内容、人的動作和行爲、事(shì)件發(fā)生的順序和因果關系等。

爲了增強模型的社交推理能(néng)力和對(duì)人物複雜動态行爲的理解，研究團隊最後(hòu)把電視劇作爲了訓練材料。

介紹完一般場景，我們再來看看第一人稱場景又是如何分析的。

第一人稱場景既包括視覺上直觀看到的内容，也包括觀察者的内心感受。

研究團隊從ScanNetv2數據集中搜集了一些場景并進(jìn)行采樣(yàng)，轉化爲多個第一人稱視角的二維視覺信息。

研究團隊還(hái)讓ChatGPT基于隐式設定的人物性格指導人類的行爲，爲模型生成(chéng)訓練數據。

标簽： AI

版權申明：本站文章部分自網絡，如有侵權，請聯系：hezuo@lyzg168.com

特别注意：本站所有轉載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設計作品，如需使用，請與原作者聯系，版權歸原作者所有

上一篇：爲什麼(me)人工智能(néng)會拯救世界？
下一篇： GPT或被(bèi)抛棄？AI未來是世界級模型？國(guó)内AI模型隻能(néng)存活三個？

猜你喜歡

流程再造的工作，可以放心交給AI嗎？ 2024/08/10
AI加持、全民網紅，Snapchat開(kāi)啓“大改造” 2024/08/10
我們在浪潮中與AI謹慎對(duì)抗 2024/08/10
新工具時代來臨，個個月賺千萬 2024/08/10
2023年中國(guó)智能(néng)視頻編碼行業白皮書 2024/08/10

洛陽霆雲網絡科技有限公司

Tel:15137991270

企業QQ：210603461

Emile：hezuo@lyzg168.com

地址：洛陽市西工區王城大道(dào)221号富雅東方B座1711室

網站：https://www.lyzg168.com

洛陽app開(kāi)發(fā),洛陽app開(kāi)發(fā)公司,洛陽手機軟件開(kāi)發(fā),蘋果保上架,洛陽網站開(kāi)發(fā),洛陽網站制作,洛陽微信定制開(kāi)發(fā)

我們的微信

關注兆光，了解我們的服務與最新資訊。

蘋果Vision Pro頭顯AI助手來襲：會調酒、能(néng)打麻將(jiāng)，甚至能(néng)開(kāi)飛機

蘋果Vision Pro頭顯AI助手來襲：會調酒、能(néng)打麻將(jiāng)，甚至能(néng)開(kāi)飛機

如何實現

猜你喜歡

推薦閱讀

聯系我們

洛陽霆雲網絡科技有限公司

網站導航

行業咨詢

最新動态

聯系方式