首頁 / 新聞 / 聚焦産業級多模态大模型研發(fā)，清華團隊「生數科技」完成(chéng)近億元天使輪融資

聚焦産業級多模态大模型研發(fā)，清華團隊「生數科技」完成(chéng)近億元天使輪融資

作者: 兆光科技發(fā)布時間: 2024/08/08 點擊: 6699次

多模态大模型國(guó)内外的研究進(jìn)度并沒(méi)有形成(chéng)代際差，這(zhè)對(duì)國(guó)内團隊而言是搶占大模型賽道(dào)的重要機會。

36氪獲悉，近日AI創企“生數科技”完成(chéng)了近億元的天使輪融資。此輪融資由螞蟻集團領投，BV百度風投、卓源資本跟投，目前企業估值已達1億美金。資金主要將(jiāng)用于核心研發(fā)團隊的建設，加速多模态大模型和應用産品的研發(fā)。

成(chéng)立于2023年3月，生數科技由安全可控人工智能(néng)方案提供商瑞萊智慧RealAI、螞蟻集團和BV百度風投聯合孵化，聚焦于多模态生成(chéng)式大模型與應用産品開(kāi)發(fā)。團隊成(chéng)員主要來自清華大學(xué)人工智能(néng)研究院，前瑞萊智慧副總裁唐家渝出任首席執行官。

熱潮席卷半年以來，大模型賽道(dào)的競争壁壘變與不變共存。唐家渝認爲，不變的是底層算法能(néng)力依然是企業的核心壁壘所在，“文本、圖像應用雖然火熱，但不可控性仍然很大，對(duì)用戶意圖、精确細節的把控有很大的欠缺，3D、視頻等多模态的生成(chéng)效果距離真正可商用也還(hái)有較大的距離，這(zhè)意味著(zhe)底層算法的叠代仍有較大的空間”。

但漸漸産生變化的是算法和工程相結合的能(néng)力，即訓練大模型的全棧能(néng)力的重要性越發(fā)凸顯。“不少人都(dōu)可以用現成(chéng)的開(kāi)源模型做finetune，但目前開(kāi)源模型的能(néng)力天花闆仍不高。”唐家渝表示，“而擁有從0到1構建大模型能(néng)力的話，能(néng)在吸納開(kāi)源社區精華的同時，從底層更快更有效地優化模型表現。而且訓練過(guò)程中存在很多的坑，隻有真的懂底層原理，才能(néng)盡可能(néng)地避坑，既擁有對(duì)模型底層的深刻理解又擁有實際從0到1訓練大模型經(jīng)驗的團隊目前是很稀缺的。”

另外多模态作爲發(fā)展趨勢已成(chéng)爲行業共識，與大語言模型（LLM）不同，多模态大模型的研究仍然處于初步階段，國(guó)内外的研究進(jìn)度并沒(méi)有形成(chéng)代際差。唐家渝表示，這(zhè)對(duì)國(guó)内團隊而言是搶占大模型賽道(dào)的重要機會。

現階段發(fā)展多模态的核心難點之一在于構建一套通用架構對(duì)圖像、視頻、語音等不同模态進(jìn)行統一的建模。唐家渝告訴36氪，市面(miàn)上不少的大模型宣稱擁有多模态能(néng)力，但實際上是多個單模态或跨模态模型的“排列組合”，簡單集成(chéng)不同模型能(néng)力，而非在底層上將(jiāng)多模态進(jìn)行真正的打通和融合。

“這(zhè)不是真正的智能(néng)”，他打了個比方，“人類在與世界的交互過(guò)程中，能(néng)同時對(duì)不同模态間的信息進(jìn)行理解和學(xué)習，雖然通過(guò)眼睛、耳朵、嘴巴、四肢等不同器官來獲取和表達信息，但隻用一個大腦來進(jìn)行中轉思考。聲音、視覺、動作等多模态信息同時輸入和輸出，人類才能(néng)夠將(jiāng)一個事(shì)物或者概念認識和表達得足夠準确。”另外，在“排列組合”的模式下，通常需要訓練承載不同跨模态任務的多個模型，從成(chéng)本經(jīng)濟的角度也不是最優解。

生數科技團隊于2023年初開(kāi)源了基于Transformer的多模态擴散大模型Unidiffuser，使用U-ViT的Transformer架構首次在Diffusion Model（擴散模型）上實現多模态，實現基于一個底層模型高質量地完成(chéng)文生圖、圖生文、圖文聯合生成(chéng)、圖文改寫等多種(zhǒng)生成(chéng)任務。唐家渝介紹，Unidiffuser前期訓練所用數據量達到了20多億，目前公司自研中的全新大模型所用訓練數據量達到了百億級别。

再往前追溯，生數團隊對(duì)多模态生成(chéng)式模型的探索最早開(kāi)始于2013年，在清華實驗室階段，團隊早期成(chéng)員就開(kāi)始了生成(chéng)式模型理論基礎、高效學(xué)習和推理算法，以及音樂生成(chéng)、人臉合成(chéng)等多方面(miàn)的研究工作。

自2020年擴散模型應用于圖像生成(chéng)領域以來，生數團隊也是業内首批開(kāi)展擴散概率模型基礎理論和算法研究的隊伍，于ICML、NeurIPS、ICLR等頂會發(fā)表擴散概率模型領域相關論文20餘篇。團隊先後(hòu)推出自研的無訓練推理框架Analytic-DPM、全球最快采樣(yàng)算法DPM-Solver，被(bèi)DALL-E 2、Stable Diffusion等國(guó)際項目所采用。

目前，生數科技正在研發(fā)的産業級多模态大模型仍處于快速叠代階段，但在圖像生成(chéng)、3D内容生成(chéng)、視頻生成(chéng)等任務中已經(jīng)實現高水平的生成(chéng)效果。

例如，團隊研發(fā)了業内首個實現基于三視圖自動生成(chéng)3D内容的技術，以及無需任何3D訓練數據的文生3D内容技術。目前該模型的3D生成(chéng)效果已接近産業級應用水平，并領先Shap-E（OpenAI）、DreamFusion（Google）、Magic3D（NVIDIA）等主流模型。其次，唐家渝表示，圖像生成(chéng)已超過(guò)Stable Diffusion最新版基礎模型水平，預計將(jiāng)于年内趕超Midjourney最新版本。

在商業模式的探索上，生數科技堅持模型層與應用層兩(liǎng)條腿同時走路。唐家渝表示，基于開(kāi)源模型開(kāi)發(fā)應用類産品能(néng)夠讓非專業領域的普通公衆快速上手創作，偏向(xiàng)娛樂性的玩法能(néng)帶來一定的用戶基礎，快速驗證技術價值，但同時也要兼顧高價值的關鍵場景，例如産品設計、遊戲制作、影視制作等專業領域，專業化、細節精确程度越高，對(duì)效果質量和可控性也提出更高要求，這(zhè)需要與行業機構在場景、數據方面(miàn)開(kāi)展合作，結合底層模型的架構優化，進(jìn)一步提升模型的專有能(néng)力。

因此，基于自研産業級多模态大模型，生數科技目前正面(miàn)向(xiàng)圖像創作、3D資産創建等細分場景打造垂類應用，服務範圍覆蓋C、B兩(liǎng)端。面(miàn)向(xiàng)C端用戶，生數科技將(jiāng)爲普通用戶和專業創作者打造供圖像創作助理，提供個性化的服務。面(miàn)向(xiàng)B端用戶，將(jiāng)爲機構企業、垂直領域的技術服務商提供通用服務。目前，生數科技已與多家遊戲廠商、設計平台建立初步合作，應用級産品也將(jiāng)于近期推出。

AIGC時代已經(jīng)全面(miàn)開(kāi)啓。唐家渝表示，生數科技希望通過(guò)打造領先的具備豐富模态感知與生成(chéng)能(néng)力的AI産品，使每個人都(dōu)能(néng)夠從簡單枯燥的任務和專業化工具的使用束縛中解放出來，不論是專業還(hái)是非專業人士都(dōu)能(néng)將(jiāng)心中所想快速、自動化地實現，通過(guò)解放想象力進(jìn)而提升創造力和生産力。

以下是投資方投資人觀點：

螞蟻集團：預訓練模型、擴散模型等關鍵算法和模型的出現與演進(jìn)推動了生成(chéng)式AI的快速發(fā)展。生數團隊在生成(chéng)式模型、擴散模型、大模型研發(fā)探索與科研人才儲備上具備堅實的基礎，同時學(xué)術與産業深度融合的背景，也賦予了團隊貫穿從底層技術研發(fā)到産品應用落地的獨特能(néng)力。我們相信生數團隊能(néng)夠在這(zhè)波AI浪潮中突圍而出，同時也期待團隊能(néng)夠不斷開(kāi)拓多模态大模型的技術邊界和應用場景，成(chéng)爲中國(guó)生成(chéng)式大模型領域的佼佼者。
BV百度風投：多模态是大模型的重要發(fā)展方向(xiàng)且正處于高速發(fā)展階段，未來有望在更廣、更深的層面(miàn)影響社會生活的多個領域，創造巨大的産業價值。大模型發(fā)展要取得突破需要對(duì)底層算法原理有深入理解，同時需要具備廣泛的專業知識和經(jīng)驗，生數團隊在深度生成(chéng)式模型基礎理論和算法研究方面(miàn)擁有深厚的積累，同時創始團隊在大模型研發(fā)能(néng)力、工程化能(néng)力和産品化創新能(néng)力等方面(miàn)具有經(jīng)驗優勢。我們對(duì)團隊未來發(fā)展充滿信心，也希望團隊在擴散模型和多模态大模型方向(xiàng)上取得更多的突破和成(chéng)就。
卓源資本：AIGC正在走向(xiàng)真實落地，這(zhè)一過(guò)程需要保持對(duì)前沿技術的探索和深刻理解。生數科技孵化自是國(guó)内最頂尖的機器學(xué)習基礎理論研究團隊，在貝葉斯模型、高效算法和概率建模等方面(miàn)擁有系統深入的研究成(chéng)果，爲團隊在生成(chéng)式大模型領域的工作開(kāi)展提供了重要的底層支撐，同時也爲團隊構築起(qǐ)領先的競争優勢。期待在團隊的科研背景、創新精神以及對(duì)多模态發(fā)展的深入理解等多方優勢的驅動下，生數團隊在未來能(néng)快速實現令人矚目的發(fā)展。

标簽： AI

版權申明：本站文章部分自網絡，如有侵權，請聯系：hezuo@lyzg168.com

特别注意：本站所有轉載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設計作品，如需使用，請與原作者聯系，版權歸原作者所有