作者: 兆光科技 發(fā)布時間: 2024/08/08 點擊: 6699次
多模态大模型國(guó)内外的研究進(jìn)度并沒(méi)有形成(chéng)代際差,這(zhè)對(duì)國(guó)内團隊而言是搶占大模型賽道(dào)的重要機會。
36氪獲悉,近日AI創企“生數科技”完成(chéng)了近億元的天使輪融資。此輪融資由螞蟻集團領投,BV百度風投、卓源資本跟投,目前企業估值已達1億美金。資金主要將(jiāng)用于核心研發(fā)團隊的建設,加速多模态大模型和應用産品的研發(fā)。
成(chéng)立于2023年3月,生數科技由安全可控人工智能(néng)方案提供商瑞萊智慧RealAI、螞蟻集團和BV百度風投聯合孵化,聚焦于多模态生成(chéng)式大模型與應用産品開(kāi)發(fā)。團隊成(chéng)員主要來自清華大學(xué)人工智能(néng)研究院,前瑞萊智慧副總裁唐家渝出任首席執行官。
熱潮席卷半年以來,大模型賽道(dào)的競争壁壘變與不變共存。唐家渝認爲,不變的是底層算法能(néng)力依然是企業的核心壁壘所在,“文本、圖像應用雖然火熱,但不可控性仍然很大,對(duì)用戶意圖、精确細節的把控有很大的欠缺,3D、視頻等多模态的生成(chéng)效果距離真正可商用也還(hái)有較大的距離,這(zhè)意味著(zhe)底層算法的叠代仍有較大的空間”。
但漸漸産生變化的是算法和工程相結合的能(néng)力,即訓練大模型的全棧能(néng)力的重要性越發(fā)凸顯。“不少人都(dōu)可以用現成(chéng)的開(kāi)源模型做finetune,但目前開(kāi)源模型的能(néng)力天花闆仍不高。”唐家渝表示,“而擁有從0到1構建大模型能(néng)力的話,能(néng)在吸納開(kāi)源社區精華的同時,從底層更快更有效地優化模型表現。而且訓練過(guò)程中存在很多的坑,隻有真的懂底層原理,才能(néng)盡可能(néng)地避坑,既擁有對(duì)模型底層的深刻理解又擁有實際從0到1訓練大模型經(jīng)驗的團隊目前是很稀缺的。”
另外多模态作爲發(fā)展趨勢已成(chéng)爲行業共識,與大語言模型(LLM)不同,多模态大模型的研究仍然處于初步階段,國(guó)内外的研究進(jìn)度并沒(méi)有形成(chéng)代際差。唐家渝表示,這(zhè)對(duì)國(guó)内團隊而言是搶占大模型賽道(dào)的重要機會。
現階段發(fā)展多模态的核心難點之一在于構建一套通用架構對(duì)圖像、視頻、語音等不同模态進(jìn)行統一的建模。唐家渝告訴36氪,市面(miàn)上不少的大模型宣稱擁有多模态能(néng)力,但實際上是多個單模态或跨模态模型的“排列組合”,簡單集成(chéng)不同模型能(néng)力,而非在底層上將(jiāng)多模态進(jìn)行真正的打通和融合。
“這(zhè)不是真正的智能(néng)”,他打了個比方,“人類在與世界的交互過(guò)程中,能(néng)同時對(duì)不同模态間的信息進(jìn)行理解和學(xué)習,雖然通過(guò)眼睛、耳朵、嘴巴、四肢等不同器官來獲取和表達信息,但隻用一個大腦來進(jìn)行中轉思考。聲音、視覺、動作等多模态信息同時輸入和輸出,人類才能(néng)夠將(jiāng)一個事(shì)物或者概念認識和表達得足夠準确。”另外,在“排列組合”的模式下,通常需要訓練承載不同跨模态任務的多個模型,從成(chéng)本經(jīng)濟的角度也不是最優解。
生數科技團隊于2023年初開(kāi)源了基于Transformer的多模态擴散大模型Unidiffuser,使用U-ViT的Transformer架構首次在Diffusion Model(擴散模型)上實現多模态,實現基于一個底層模型高質量地完成(chéng)文生圖、圖生文、圖文聯合生成(chéng)、圖文改寫等多種(zhǒng)生成(chéng)任務。唐家渝介紹,Unidiffuser前期訓練所用數據量達到了20多億,目前公司自研中的全新大模型所用訓練數據量達到了百億級别。
再往前追溯,生數團隊對(duì)多模态生成(chéng)式模型的探索最早開(kāi)始于2013年,在清華實驗室階段,團隊早期成(chéng)員就開(kāi)始了生成(chéng)式模型理論基礎、高效學(xué)習和推理算法,以及音樂生成(chéng)、人臉合成(chéng)等多方面(miàn)的研究工作。
自2020年擴散模型應用于圖像生成(chéng)領域以來,生數團隊也是業内首批開(kāi)展擴散概率模型基礎理論和算法研究的隊伍,于ICML、NeurIPS、ICLR等頂會發(fā)表擴散概率模型領域相關論文20餘篇。團隊先後(hòu)推出自研的無訓練推理框架Analytic-DPM、全球最快采樣(yàng)算法DPM-Solver,被(bèi)DALL-E 2、Stable Diffusion等國(guó)際項目所采用。
目前,生數科技正在研發(fā)的産業級多模态大模型仍處于快速叠代階段,但在圖像生成(chéng)、3D内容生成(chéng)、視頻生成(chéng)等任務中已經(jīng)實現高水平的生成(chéng)效果。
例如,團隊研發(fā)了業内首個實現基于三視圖自動生成(chéng)3D内容的技術,以及無需任何3D訓練數據的文生3D内容技術。目前該模型的3D生成(chéng)效果已接近産業級應用水平,并領先Shap-E(OpenAI)、DreamFusion(Google)、Magic3D(NVIDIA)等主流模型。其次,唐家渝表示,圖像生成(chéng)已超過(guò)Stable Diffusion最新版基礎模型水平,預計將(jiāng)于年内趕超Midjourney最新版本。
在商業模式的探索上,生數科技堅持模型層與應用層兩(liǎng)條腿同時走路。唐家渝表示,基于開(kāi)源模型開(kāi)發(fā)應用類産品能(néng)夠讓非專業領域的普通公衆快速上手創作,偏向(xiàng)娛樂性的玩法能(néng)帶來一定的用戶基礎,快速驗證技術價值,但同時也要兼顧高價值的關鍵場景,例如産品設計、遊戲制作、影視制作等專業領域,專業化、細節精确程度越高,對(duì)效果質量和可控性也提出更高要求,這(zhè)需要與行業機構在場景、數據方面(miàn)開(kāi)展合作,結合底層模型的架構優化,進(jìn)一步提升模型的專有能(néng)力。
因此,基于自研産業級多模态大模型,生數科技目前正面(miàn)向(xiàng)圖像創作、3D資産創建等細分場景打造垂類應用,服務範圍覆蓋C、B兩(liǎng)端。面(miàn)向(xiàng)C端用戶,生數科技將(jiāng)爲普通用戶和專業創作者打造供圖像創作助理,提供個性化的服務。面(miàn)向(xiàng)B端用戶,將(jiāng)爲機構企業、垂直領域的技術服務商提供通用服務。目前,生數科技已與多家遊戲廠商、設計平台建立初步合作,應用級産品也將(jiāng)于近期推出。
AIGC時代已經(jīng)全面(miàn)開(kāi)啓。唐家渝表示,生數科技希望通過(guò)打造領先的具備豐富模态感知與生成(chéng)能(néng)力的AI産品,使每個人都(dōu)能(néng)夠從簡單枯燥的任務和專業化工具的使用束縛中解放出來,不論是專業還(hái)是非專業人士都(dōu)能(néng)將(jiāng)心中所想快速、自動化地實現,通過(guò)解放想象力進(jìn)而提升創造力和生産力。
以下是投資方投資人觀點:
螞蟻集團:預訓練模型、擴散模型等關鍵算法和模型的出現與演進(jìn)推動了生成(chéng)式AI的快速發(fā)展。生數團隊在生成(chéng)式模型、擴散模型、大模型研發(fā)探索與科研人才儲備上具備堅實的基礎,同時學(xué)術與産業深度融合的背景,也賦予了團隊貫穿從底層技術研發(fā)到産品應用落地的獨特能(néng)力。我們相信生數團隊能(néng)夠在這(zhè)波AI浪潮中突圍而出,同時也期待團隊能(néng)夠不斷開(kāi)拓多模态大模型的技術邊界和應用場景,成(chéng)爲中國(guó)生成(chéng)式大模型領域的佼佼者。
BV百度風投:多模态是大模型的重要發(fā)展方向(xiàng)且正處于高速發(fā)展階段,未來有望在更廣、更深的層面(miàn)影響社會生活的多個領域,創造巨大的産業價值。大模型發(fā)展要取得突破需要對(duì)底層算法原理有深入理解,同時需要具備廣泛的專業知識和經(jīng)驗,生數團隊在深度生成(chéng)式模型基礎理論和算法研究方面(miàn)擁有深厚的積累,同時創始團隊在大模型研發(fā)能(néng)力、工程化能(néng)力和産品化創新能(néng)力等方面(miàn)具有經(jīng)驗優勢。我們對(duì)團隊未來發(fā)展充滿信心,也希望團隊在擴散模型和多模态大模型方向(xiàng)上取得更多的突破和成(chéng)就。
卓源資本:AIGC正在走向(xiàng)真實落地,這(zhè)一過(guò)程需要保持對(duì)前沿技術的探索和深刻理解。生數科技孵化自是國(guó)内最頂尖的機器學(xué)習基礎理論研究團隊,在貝葉斯模型、高效算法和概率建模等方面(miàn)擁有系統深入的研究成(chéng)果,爲團隊在生成(chéng)式大模型領域的工作開(kāi)展提供了重要的底層支撐,同時也爲團隊構築起(qǐ)領先的競争優勢。期待在團隊的科研背景、創新精神以及對(duì)多模态發(fā)展的深入理解等多方優勢的驅動下,生數團隊在未來能(néng)快速實現令人矚目的發(fā)展。
标簽: AI
版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com
特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有
輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!
Tel:15137991270
企業QQ:210603461
Emile:hezuo@lyzg168.com
地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室
網站:https://www.lyzg168.com
我們的微信
關注兆光,了解我們的服務與最新資訊。
Copyright © 2018-2019 洛陽霆雲網絡科技有限公司