首頁 / 新聞 / 12秒内AI在手機上完成(chéng)作畫，谷歌提出擴散模型推理加速新方法

12秒内AI在手機上完成(chéng)作畫，谷歌提出擴散模型推理加速新方法

作者: 兆光科技發(fā)布時間: 2024/08/08 點擊: 4712次

隻需12秒，隻憑手機自己的算力，就能(néng)拿Stable Diffusion生成(chéng)一張圖像。

而且是完成(chéng)了20次叠代的那種(zhǒng)。

要知道(dào)，現在的擴散模型基本都(dōu)超過(guò)了10億參數，想要快速生成(chéng)一張圖片，要麼(me)基于雲計算，要麼(me)就是要本地硬件夠強大了。

而随著(zhe)大模型應用逐漸普及開(kāi)來，在個人電腦、手機上跑大模型很可能(néng)是未來的新趨勢。

由此，谷歌的研究員們帶來了這(zhè)篇新成(chéng)果，名字就叫(jiào)Speed is all you need：通過(guò)GPU優化加速大規模擴散模型在設備上的推理速度。

三步走優化加速

該方法是針對(duì)Stable Diffusion來做的優化，但同時也能(néng)适應其他擴散模型。面(miàn)向(xiàng)的任務是從文本生成(chéng)圖像。

具體優化可以分成(chéng)三個部分：

設計專門的内核
提升Attention模型效率
Winograd卷積加速

首先來看專門設計的内核，它包括了組歸一化和GELU激活函數。

組歸一化是在整個UNet體系結構中實現，這(zhè)種(zhǒng)歸一化的工作原理是將(jiāng)特征映射的通道(dào)劃分爲更小的組，并對(duì)每個組獨立歸一，使組歸一化較少依賴于批大小，并且能(néng)适應更大範圍的批處理大小和網絡架構。

研究人員以GPU著(zhe)色器（shader）的形式設計了一個獨特的核，能(néng)在沒(méi)有任何中間張量的情況下，在單個GPU命令中執行所有内核。

GELU激活函數中，包含大量的數值計算，如懲罰、高斯誤差函數等。

通過(guò)一個專用著(zhe)色器來整合這(zhè)些數值計算以及伴随的分割和乘法操作，使得這(zhè)些計算能(néng)放在一個簡單的draw call裡(lǐ)。

Draw call是CPU調用圖像編程接口，命令GPU進(jìn)行渲染的操作。

接下來，到了提升Attention模型效率方面(miàn)，論文介紹了兩(liǎng)種(zhǒng)優化方法。

其一是部分融合softmax函數。

爲了避免在大矩陣A上執行整個softmax計算，該研究設計了一個GPU著(zhe)色器來計算L和S向(xiàng)量以減少計算，最終得到一個大小爲N×2的張量。然後(hòu)將(jiāng)softmax計算和矩陣V的矩陣乘法融合。

這(zhè)種(zhǒng)方法大幅減少了中間程序的内存占用張量和總體延遲。

需要強調的是從A到L、S的計算映射的并行是有限的，因爲結果張量中的元素比輸入張量A中的元素數量要少得多。

爲了增加并行、進(jìn)一步降低延遲，該研究將(jiāng)A中的元素組成(chéng)block，將(jiāng)歸約操作（reduction operations）切分爲多個部分進(jìn)行。

然後(hòu)在每個block上執行計算，然後(hòu)將(jiāng)其簡化爲最終結果。

利用精心設計的線程和内存緩存管理，可以在多個部分實現使用單個GPU命令降低延遲。

另一種(zhǒng)優化方法是FlashAttention。

這(zhè)是去年火起(qǐ)來的IO感知精确注意力算法，具體有兩(liǎng)種(zhǒng)加速技術：按塊遞增計算即平鋪、并在後(hòu)向(xiàng)傳遞中重新計算注意力，將(jiāng)所有注意力操作融合到CUDA内核中。

相較于标準Attention，這(zhè)種(zhǒng)方法能(néng)減少HBM（高帶寬内存）訪問，提高整體效率。

不過(guò)FlashAttention内核的緩存器密集度非常高（register-intensive），所以該團隊是有選擇性地使用這(zhè)一優化方法。

他們在注意力矩陣d=40的Adreno GPU和Apple GPU上使用FlashAttention，其他情況下使用部分融合softmax函數。

第三部分是Winograd卷積加速。

它的原理簡單來說就是使用更多的加法計算來減少乘法計算，從而降低計算量。

但弊端也很明顯，將(jiāng)會帶來更多的顯存消耗和數值錯誤，尤其是在tile比較大的情況時。

Stable Diffusion的主幹非常依賴3×3卷積層，尤其是在圖像解碼器方面(miàn)，這(zhè)裡(lǐ)90%的層都(dōu)是由3×3卷積層構成(chéng)的。

研究人員分析後(hòu)發(fā)現，在使用4×4大小的tile時，是模型計算效率和顯存利用率的最佳平衡點。

實驗結果

爲了評估提升效果，研究人員先在手機上進(jìn)行了基準測試。

結果表明，兩(liǎng)部手機在使用了加速算法後(hòu)，生成(chéng)圖片的速度都(dōu)明顯提升。

其中三星S23 Ultra的延遲降低了52.2%，iPhone 14 Pro Max上的延遲降低了32.9%。

在三星S23 Ultra上端到端從文本生成(chéng)一張512×512像素的圖片，叠代20次，耗時在12秒以内。

标簽： AI

版權申明：本站文章部分自網絡，如有侵權，請聯系：hezuo@lyzg168.com

特别注意：本站所有轉載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設計作品，如需使用，請與原作者聯系，版權歸原作者所有

上一篇：三位BOSS現身說法：AI 正在取代人工嗎？
下一篇：搭ChatGPT東風，第四範式四次沖擊港交所

猜你喜歡

流程再造的工作，可以放心交給AI嗎？ 2024/08/10
AI加持、全民網紅，Snapchat開(kāi)啓“大改造” 2024/08/10
我們在浪潮中與AI謹慎對(duì)抗 2024/08/10
新工具時代來臨，個個月賺千萬 2024/08/10
2023年中國(guó)智能(néng)視頻編碼行業白皮書 2024/08/10

洛陽霆雲網絡科技有限公司

Tel:15137991270

企業QQ：210603461

Emile：hezuo@lyzg168.com

地址：洛陽市西工區王城大道(dào)221号富雅東方B座1711室

網站：https://www.lyzg168.com

洛陽app開(kāi)發(fā),洛陽app開(kāi)發(fā)公司,洛陽手機軟件開(kāi)發(fā),蘋果保上架,洛陽網站開(kāi)發(fā),洛陽網站制作,洛陽微信定制開(kāi)發(fā)

我們的微信

關注兆光，了解我們的服務與最新資訊。

12秒内AI在手機上完成(chéng)作畫，谷歌提出擴散模型推理加速新方法

12秒内AI在手機上完成(chéng)作畫，谷歌提出擴散模型推理加速新方法

三步走優化加速

實驗結果

猜你喜歡

推薦閱讀

聯系我們

洛陽霆雲網絡科技有限公司

網站導航

行業咨詢

最新動态

聯系方式