作者: 兆光科技 發(fā)布時間: 2024/08/09 點擊: 10092次
邁出關鍵一步,360率先落地新搜索應用
今年初,智能(néng)對(duì)話機器人模型ChatGPT引發(fā)了全球範圍的人工智能(néng)熱潮。面(miàn)對(duì)這(zhè)波浪潮,國(guó)内的科技公司,尤其是搜索引擎領域的巨頭們紛紛加入,相繼發(fā)布自己的大模型。
作爲國(guó)内第二大搜索引擎廠商,360近期就官宣發(fā)布了360GPT産品矩陣“智腦”,成(chéng)爲針對(duì)搜索場景,國(guó)内較先推出的應用GPT技術的新一代智能(néng)搜索。
據了解,該産品已正式開(kāi)放産品内測。随著(zhe)越來越多的場景應用,人工智能(néng)將(jiāng)帶來哪些新的生産力變革?但可以确定的是,人工智能(néng)真正走進(jìn)我們工作生活的時代已經(jīng)正式開(kāi)啓。
随著(zhe)微軟將(jiāng)ChatGPT與Bing的融合,讓搜索引擎成(chéng)爲生産力改造的前沿陣地。
這(zhè)種(zhǒng)結合讓搜索引擎迎來了全新的發(fā)展方向(xiàng),而ChatGPT正改變著(zhe)信息生産、組織和獲取的方式。對(duì)此,我們與360相關業務的技術負責人張向(xiàng)征聊了聊,他表示,ChatGPT的出現證明了通過(guò)“大模型+搜索引擎”可以讓AI實現以往無法企及的 “智能(néng)”。這(zhè)將(jiāng)對(duì)搜索行業産生深遠的影響,甚至引發(fā)生産力的變革。
在國(guó)内,有資格進(jìn)行相關探索的公司不多。
360作爲國(guó)内第二大搜索引擎廠商,憑借多年的數據、算力和工程能(néng)力,以及在人工智能(néng)領域的深厚積澱,前不久推出了自研的360GPT産品矩陣“智腦”,同時也是頭一批落地到搜索應用産品中,引起(qǐ)了業界的普遍關注。
傳統的搜索一般是以網頁鏈接形式爲結果,用戶需要自己一個個翻找鏈接,進(jìn)入網頁尋找答案。而結合了360GPT能(néng)力的360新搜索可以通過(guò)問答的形式,根據用戶提出的問題直接生産内容。
基于360GPT的新搜索生成(chéng)式對(duì)話截圖
針對(duì)“爲什麼(me)淄博燒烤突然火了?”這(zhè)個當下的熱點話題,很快就給出了答案。列出了淄博燒烤最新的社會事(shì)件,還(hái)提煉分析直接給出了結論。不僅如此,回答中還(hái)顯示了援引來源,可以供用戶溯源确認。可以看到的是,360新搜索的問答更符合人的自然表達,生成(chéng)的内容也遠比傳統搜索更直接、更豐富。
究其原因,張向(xiàng)征介紹說:“我們一直把理解用戶目的、便捷用戶使用當成(chéng)了重要的産品研發(fā)方向(xiàng),基于360GPT的新搜索擁有更強大的閱讀理解能(néng)力。”
另一方面(miàn),人工智能(néng)相關内容的生産離不開(kāi)真實可靠的信息。通過(guò)聯網搜索能(néng)力,實現了于全網信息的高效互聯,及時獲得準确、有效的信息,再憑借生成(chéng)式大語言模型對(duì)信息的提煉、總結和生成(chéng)能(néng)力,快速給出兼具時效性和可讀性的答案。
“大模型+搜索引擎兩(liǎng)者融合的産品更像用戶的個人助手,交互模式會更多樣(yàng),能(néng)力邊界也會顯著擴大”。張向(xiàng)征透露,以用戶需求爲出發(fā)點,360GPT還(hái)將(jiāng)與浏覽器、數字助理、蘇打辦公、智能(néng)營銷等場景應用深度結合,爲用戶提供多元化的智能(néng)服務。
早在2015年深度學(xué)習技術風靡時,人工智能(néng)就已是搜索行業變革的重要推動力。
2017年,NLP領域劃時代的Transformer算法誕生。沿著(zhe)Transformer的路徑,GPT、BERT等新技術,將(jiāng)機器視覺領域的訓練方式用于自然語言領域,實現了“智能(néng)化”的進(jìn)一步升級。
對(duì)比GPT與BERT來看,GPT是一個單向(xiàng)模型,更擅長(cháng)“寫作文”,而BERT是雙向(xiàng)模型,可以聯系上下文進(jìn)行分析,更擅長(cháng)“完形填空”。因此,相比較于GPT,對(duì)于圍繞已存在内容展開(kāi)業務的搜索引擎行業來說,BERT是更常用的模型。
BERT和GPT模型結構對(duì)比(來源:BERT論文)
而ChatGPT的出現帶來了技術路線的大變動。
張向(xiàng)征表示,人工智能(néng)技術一直是360搜索不斷進(jìn)化的關鍵,ChatGPT作爲一種(zhǒng)新形式的後(hòu)端變革,將(jiāng)影響後(hòu)續搜索引擎底層技術的調研和技術的應用方式。
他介紹道(dào),2015年,360搜索就開(kāi)始用深度學(xué)習模型進(jìn)行搜索的召回、排序以及Query意圖識别等關鍵環節。之後(hòu),360搜索又開(kāi)始使用多模态檢索模型,來多元化搜索形态,适應圖片搜索等新需求。
到2019年,360搜索完成(chéng)了對(duì)BERT模型的初版應用,2020年完成(chéng)BERT的全流量在線部署和應用。此時,360搜索已經(jīng)開(kāi)始做“閱讀理解”。不同于僅提供鏈接,針對(duì)某些已經(jīng)有明确答案的問題,360搜索可以抽取精準答案所對(duì)應的段落和句子,并直接展示在搜索頁。
“也正是這(zhè)些探索打下的基礎,今天我們才有了自己的生成(chéng)式大語言模型和産品矩陣‘智腦’”。張向(xiàng)征這(zhè)樣(yàng)說。
衆所周知,搜索引擎的核心是底層的技術能(néng)力以及優質的内容和服務。因此,搜索引擎未來的産品形态、交互模式、展現方式等都(dōu)將(jiāng)基于其核心能(néng)力,再根據用戶的習慣和偏好(hǎo)不斷變化。未來的搜索引擎將(jiāng)形成(chéng)全新的入口,搜索能(néng)力會繼續存在,并承擔相應的後(hòu)台支持功能(néng)。
人類獲取信息的方式的變革蘊含著(zhe)巨大的機會。可以想見,基于360GPT的新一代的智能(néng)搜索引擎將(jiāng)承載更多的用戶使用場景,也將(jiāng)迎來更大的想象空間。
據了解,從2012年成(chéng)立之初,360搜索就以其獨特的産品和技術實力,構築起(qǐ)了差異化的市場定位。
依托于360集團,360搜索在安全層面(miàn)積累深厚。借助于旗下産品對(duì)于病毒、釣魚網站等的識别與攔截能(néng)力,360搜索可以及時過(guò)濾風險,爲用戶打造更安全、穩定的上網環境。
另一方面(miàn),随著(zhe)各種(zhǒng)垂直平台的興起(qǐ),互聯網内容開(kāi)始“孤島化”。作爲全網搜索平台,360搜索始終堅持開(kāi)放的發(fā)展策略。
360搜索一直以來都(dōu)重視對(duì)内容生态的建設。目前,360已經(jīng)與多個内容平台達成(chéng)合作,所有内容提供方均參與收入分成(chéng),逐步形成(chéng)了互惠共享的生态環境。
此外,360搜索還(hái)在搜索的數據、算法、工程化能(néng)力以及服務接口對(duì)内對(duì)外雙向(xiàng)賦能(néng),更大範圍地觸達用戶群體。
對(duì)内,360推出的日曆等訂閱産品,就融合了360搜索的功能(néng),用戶一鍵訂閱,就能(néng)實時收到最新的信息更新。對(duì)外,360搜索入局SaaS業務,通過(guò)爲某些垂直領域的搜索平台提供SaaS化的接口,來輸出其全網搜索能(néng)力。
與此同時,360搜索也在持續加築自身護城河,緊随GPT大語言模型,360搜索借助其人工智能(néng)技術的積累,利用360“智腦”探索産品邊界,推出新一代智能(néng)搜索。
業界有一個普遍的共識,那就是ChatGPT的性能(néng)卓越主要源于其預訓練模型參數量巨大,人工反饋爲主的标注強化學(xué)習手段,以及先進(jìn)的思維模式訓練方法。從GPT-1到GPT-3,模型訓練的參數量呈千倍增長(cháng),已達到接近2000億的量級。在數據量達标,用大模型把知識容量、基礎通用能(néng)力做的足夠高之後(hòu),大模型研發(fā)就要面(miàn)臨工程落地環節。這(zhè)需要耗費巨大的訓練和推理成(chéng)本,也是“英雄折戟”之地。
模型規模不等于符合實際需要,爲了避免無意義回答,還(hái)要爲人工智能(néng)加上“傾向(xiàng)性”,這(zhè)就用到RLHF新技術,即基于人類反饋的強化學(xué)習,通過(guò)人工标注來加入方向(xiàng)性引導。最後(hòu),思維訓練也是人工智能(néng)的一部分,要使其具備推理能(néng)力,能(néng)進(jìn)行高度拟人化的多輪對(duì)話。
除了以上難點,GPT大語言模型要真正落地,還(hái)要結合對(duì)實際業務的理解。這(zhè)將(jiāng)是一個逐步改進(jìn),不斷摸索的過(guò)程。
在巨大的壁壘面(miàn)前,360有著(zhe)“先天優勢”,360搜索的内容涵蓋全網數據,抓取過(guò)的網頁數已達上萬億,現存網頁數達數千億,索引的網頁達數百億,這(zhè)能(néng)爲技術開(kāi)發(fā)提供足夠多的語料。
從數據多樣(yàng)性上來看,360搜索不局限于某一類别的數據,而是對(duì)電商、新聞、小說、問答、百科等各類數據均有覆蓋,保證了數據集的完整度。
360搜索基于圖像AI識别能(néng)力推出了“圖查查”平台
文本數據之外,360搜索還(hái)利用多模态搜索技術,通過(guò)識别文本和圖像間的映射關系,將(jiāng)語料信息延伸到更豐富的形态中。
據了解,360搜索已經(jīng)積累了數百億的圖片信息。2022年,360搜索還(hái)聯合360人工智能(néng)研究院與清華大學(xué),推出了中文圖文跨模态數據集Zero和圖文跨模态預訓練框架R2D2。
其中,Zero包括兩(liǎng)個預訓練數據集和五個下遊任務數據集,預訓練數據集包括2300萬和230萬兩(liǎng)個版本,該數據集也是國(guó)内開(kāi)源的首個中文圖文跨模态領域數據集。
360搜索聯合360人工智能(néng)研究院、清華大學(xué)推出的中文圖文跨模态數據集Zero
當然,僅有大規模數據集還(hái)遠遠不夠。要形成(chéng)有效的語料集,對(duì)各類信息進(jìn)行篩選和清理同樣(yàng)重要,這(zhè)就需要紮實的人工智能(néng)工程能(néng)力。
張向(xiàng)征表示,任何人工智能(néng)技術的落地都(dōu)離不開(kāi)工程能(néng)力,也就是讓人工智能(néng)技術以低成(chéng)本、高效率的方式落地實施的能(néng)力。
基于多年深耕,360内部在模型訓練平台、預訓練語言模型等方面(miàn),已經(jīng)積累了豐富的經(jīng)驗,能(néng)爲GPT大語言模型的開(kāi)發(fā)提供良好(hǎo)的工程支持,有效降低訓練推理和業務落地的成(chéng)本。
早在幾年前,360搜索就已經(jīng)把所有的底層文檔,以向(xiàng)量形式表達,能(néng)快速鎖定、提取内容,進(jìn)一步提高檢索和篩選的效率。同時,結合用戶的搜索反饋,360搜索能(néng)有效判斷不同信息的重要性,進(jìn)一步提高語料集的質量。
此外,人工智能(néng)的持續商業化落地,也離不開(kāi)充足算力的支持。360内部部署的數萬台服務器、數百台GPU,已成(chéng)爲相關研究所需算力的有力支撐。
從數據到算力,再到工程能(néng)力,正是360集團一直以來對(duì)人工智能(néng)的重視,形成(chéng)了今天360搜索探索未來搜索引擎的充足底氣。
平行于360搜索,360集團設立了360人工智能(néng)研究院。
據了解,360人工智能(néng)研究院專門進(jìn)行人工智能(néng)基礎模型和前瞻性技術的研究,現階段主要聚焦于研發(fā)業界領先的計算機視覺、深度自然語言理解,語音語義交互等人工智能(néng)技術,再將(jiāng)研究成(chéng)果應用于智慧物聯網(IOT)、智能(néng)安全大數據,互聯網信息分發(fā)等多種(zhǒng)場景。
其研究範圍涵蓋人工智能(néng)各主要領域,申請專利數接近400件。團隊核心成(chéng)員還(hái)曾于2017年在有“計算機視覺屆世界杯”之稱的ImageNet比賽中獲得兩(liǎng)項冠軍,并刷新了谷歌、微軟保持的世界紀錄。在2019-2021年的中國(guó)人工智能(néng)大賽中,360人工智能(néng)研究院更是取得3連冠。
此外,團隊還(hái)參與了國(guó)家級重點大數據工程實驗室和國(guó)家新一代人工智能(néng)創新發(fā)展試驗區開(kāi)放實驗室的建設,其主導項目也已入選“科技部科技創新2030項目”和“吳文俊人工智能(néng)科技進(jìn)步獎”。
張向(xiàng)征表示,人工智能(néng)研究院主要提供底層研究支持,360搜索在内的各業務部門,則負責將(jiāng)人工智能(néng)與業務場景相結合,同時將(jiāng)實踐結果反饋給研究院,形成(chéng)了基礎研究到上層應用的生态閉環。
目前,360已經(jīng)搭建起(qǐ)了數百人的人工智能(néng)研發(fā)團隊,并廣招人工智能(néng)人才,每年的研發(fā)投入也均以億級計算。
接下來,360搜索將(jiāng)與360人工智能(néng)研究院緊密合作,不斷強化新一代搜索引擎的能(néng)力邊界,不斷探索人工智能(néng)技術在浏覽器、數字助理、蘇打辦公、智能(néng)營銷等多場景的應用結合,奔向(xiàng)GPT大語言模型的“星辰大海”。
标簽: ChatGPT
版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com
特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有
輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!
Tel:15137991270
企業QQ:210603461
Emile:hezuo@lyzg168.com
地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室
網站:https://www.lyzg168.com
我們的微信
關注兆光,了解我們的服務與最新資訊。
Copyright © 2018-2019 洛陽霆雲網絡科技有限公司