首頁 / 新聞 / Reddit要收取API訪問費,盯著(zhe)AI廠商來薅羊毛

Reddit要收取API訪問費,盯著(zhe)AI廠商來薅羊毛

作者: 兆光科技 發(fā)布時間: 2024/08/09 點擊: 882次

進(jìn)入2023年後(hòu),或許已經(jīng)鮮少有網友還(hái)沒(méi)聽過(guò)ChatGPT這(zhè)個大名。這(zhè)一繼元宇宙之後(hòu)出現的“新浪潮”,俨然已經(jīng)成(chéng)爲了今年科技圈的風口,包括海外市場的微軟、谷歌、亞馬遜,以及國(guó)内的百度、阿裡(lǐ)、騰訊、字節跳動在内,幾乎但凡有一定技術實力的科技廠商也悉數下場,即便是技術力不夠的廠商也是八仙過(guò)海各顯神通,有諸如知乎這(zhè)樣(yàng)聯手合作夥伴的,也有像“美國(guó)貼吧”Reddit這(zhè)樣(yàng)“賣資源”的。

日前Reddit方面(miàn)宣布,將(jiāng)開(kāi)始對(duì)使用其應用程序編程接口(API)的企業收費,該接口則提供了下載和處理人與人之間對(duì)話的相關數據。事(shì)實上,Reddit的API自2008年以來就一直是以免費的方式開(kāi)放給第三方,對(duì)于突然轉向(xiàng)收費,Reddit方面(miàn)的解釋,是此舉爲了限制其API被(bèi)用于訓練人工智能(néng)工具,其中包括OpenAI的ChatGPT、谷歌的Bard,以及微軟的Bing AI等。

盡管Reddit暫時還(hái)沒(méi)有公布其API的具體收費标準,但官方已經(jīng)透露,將(jiāng)爲“需要額外功能(néng)、更高使用限制和更廣泛使用權的第三方,引入一個新的高級接入點”。而爲了避免被(bèi)外界指責“吃相難看”,Reddit方面(miàn)還(hái)表示將(jiāng)會對(duì)一些訪問API的用戶免費,而這(zhè)類用戶則主要包括科研機構的研究人員,或是從事(shì)非商業目的的研究員。

Reddit爲何敢于去收這(zhè)筆錢呢?其實成(chéng)立于2005年的Reddit,已經(jīng)是全球互聯網中曆史最悠久、同時也最有活力的社區之一。截止2021年10月,也就是Reddit官方最後(hòu)一次披露的用戶數據表明,其擁有5300萬DAU和超過(guò)4.3億MAU。而來自Statista的數據顯示,Reddit是全美訪問量第六大的社交媒體,月活水平與Instagram、Twitter幾乎持平。

如此海量的用戶也造就了Reddit的活躍社區總數超過(guò)了14萬個,帖子總量超過(guò)3.66億,評論總數爲23億,這(zhè)也代表著(zhe)沉澱在Reddit的内容已然成(chéng)爲了一個極爲驚人的語料庫。而在AI領域,語料(Corpus)通常是一定數量和規模的文本資源集合,作爲一個以論壇爲形式展開(kāi)業務的平台,Reddit顯然是當下英語互聯網中最潮流、最日新月異的語料庫。例如OpenAI開(kāi)發(fā)的ChatGPT以及最新的GPT-4,就有很多訓練數據被(bèi)證實是來源于Reddit。

就像數據之于算法一樣(yàng),語料則是ChatGPT這(zhè)類生成(chéng)式AI更加智慧的基礎所在。生成(chéng)式AI的原理,大概可以總結爲通過(guò)大量的語料庫進(jìn)行訓練,以建立相應的模型,從而使得AI能(néng)夠對(duì)人類的問題作出相應的回答和決策,其核心邏輯就是“猜謎遊戲”。經(jīng)過(guò)大量的訓練後(hòu),AI預測出問題的答案,并不等于擁有智慧,而隻是在玩文字遊戲,進(jìn)行一次又一次的概率解謎,本質上與人類玩數獨或填字遊戲是一樣(yàng)的。

那麼(me)ChatGPT爲什麼(me)會表現得比以往的人工智能(néng)産品、比如Siri更聰明呢?其實單純是因爲語料規模更大。例如GPT-3就擁有的1750億的參數量、45TB的訓練數據,以及高達1200萬美元的訓練費用,這(zhè)也是OpenAI打造ChatGPT的基礎。而ChatGPT聰明的關鍵就在于湧現能(néng)力(Emergent ability)上,指的是在不進(jìn)行參數更新的情況下,隻在輸入中加入幾個示例,就能(néng)讓模型進(jìn)行學(xué)習。

湧現能(néng)力從何而來呢,根據Google&Deepmind聯合發(fā)布的相關論文顯示,模型在沒(méi)有達到一定規模前,得到的表現較爲随機,但在突破規模的臨界點後(hòu),表現則會大幅度提升。

例如在BIG-Bench上,GPT-3和LaMDA在未達到臨界點時,模型的表現都(dōu)是接近于零。而在GPT-3的規模突破2 · 10^22 training FLOPs (13B參數),LaMDA的規模突破10^23 training FLOPs (68B參數)後(hòu),表現就開(kāi)始快速上升。

“力大磚飛”就是當下大語言模型的底層邏輯,在這(zhè)種(zhǒng)情況下,語料基本決定了大語言模型的上限。語料雖然是越多越好(hǎo),但問題是已經(jīng)沒(méi)有更多高質量的數據供模型進(jìn)行訓練了。

AI研究團隊Epoch在今年年初發(fā)表的論文表明,AI不出5年就會把人類所有的高質量語料用光。而且這(zhè)一結果,則是Epoch將(jiāng)人類語言數據增長(cháng)率,即全體人類未來5年内出版的書籍、撰稿的論文、編寫的代碼,都(dōu)考慮在内預測出的結果。

Epoch團隊將(jiāng)語料分爲了高質量和低質量兩(liǎng)種(zhǒng),其中高質量的語料指的是包括維基百科、新聞網站、GitHub上的代碼、出版書籍等,低質量語料則來源于Twitter、Facebook,以及Reddit上的内容。

正常情況下,AI廠商自然更願意使用高質量的語料,畢竟這(zhè)能(néng)夠在最大限度上避免被(bèi)偏見和歧視性言論“污染”。但問題是,據統計,高質量語料數據的存量隻剩下約4.6×10^12~1.7×10^13個單詞,相比當前最大的文本數據集大了不到一個數量級。

所以當高質量語料不夠用的情況下,低質量語料即便再不好(hǎo)用也得用,不然大語言模型要如何成(chéng)長(cháng)。而對(duì)于低質量語料,充其量也隻是在數據标注和清洗上投入更多成(chéng)本,所以OpenAI、谷歌、亞馬遜等公司相當于就沒(méi)得選。所以Reddit如今就正是挾語料自重,料定了AI廠商隻能(néng)硬著(zhe)頭皮買。


标簽: ChatGPT

版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com

特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有

聯系我們

輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!

洛陽霆雲網絡科技有限公司

Tel:15137991270

企業QQ:210603461

Emile:hezuo@lyzg168.com

地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室

網站:https://www.lyzg168.com

洛陽app開(kāi)發(fā),洛陽app開(kāi)發(fā)公司,洛陽手機軟件開(kāi)發(fā),蘋果保上架,洛陽網站開(kāi)發(fā),洛陽網站制作,洛陽微信定制開(kāi)發(fā)

我們的微信

關注兆光,了解我們的服務與最新資訊。

Copyright © ​2018-2019 洛陽霆雲網絡科技有限公司