首頁 / 新聞 / Reddit要收取API訪問費，盯著(zhe)AI廠商來薅羊毛

Reddit要收取API訪問費，盯著(zhe)AI廠商來薅羊毛

作者: 兆光科技發(fā)布時間: 2024/08/09 點擊: 882次

進(jìn)入2023年後(hòu)，或許已經(jīng)鮮少有網友還(hái)沒(méi)聽過(guò)ChatGPT這(zhè)個大名。這(zhè)一繼元宇宙之後(hòu)出現的“新浪潮”，俨然已經(jīng)成(chéng)爲了今年科技圈的風口，包括海外市場的微軟、谷歌、亞馬遜，以及國(guó)内的百度、阿裡(lǐ)、騰訊、字節跳動在内，幾乎但凡有一定技術實力的科技廠商也悉數下場，即便是技術力不夠的廠商也是八仙過(guò)海各顯神通，有諸如知乎這(zhè)樣(yàng)聯手合作夥伴的，也有像“美國(guó)貼吧”Reddit這(zhè)樣(yàng)“賣資源”的。

日前Reddit方面(miàn)宣布，將(jiāng)開(kāi)始對(duì)使用其應用程序編程接口（API）的企業收費，該接口則提供了下載和處理人與人之間對(duì)話的相關數據。事(shì)實上，Reddit的API自2008年以來就一直是以免費的方式開(kāi)放給第三方，對(duì)于突然轉向(xiàng)收費，Reddit方面(miàn)的解釋，是此舉爲了限制其API被(bèi)用于訓練人工智能(néng)工具，其中包括OpenAI的ChatGPT、谷歌的Bard，以及微軟的Bing AI等。

盡管Reddit暫時還(hái)沒(méi)有公布其API的具體收費标準，但官方已經(jīng)透露，將(jiāng)爲“需要額外功能(néng)、更高使用限制和更廣泛使用權的第三方，引入一個新的高級接入點”。而爲了避免被(bèi)外界指責“吃相難看”，Reddit方面(miàn)還(hái)表示將(jiāng)會對(duì)一些訪問API的用戶免費，而這(zhè)類用戶則主要包括科研機構的研究人員，或是從事(shì)非商業目的的研究員。

Reddit爲何敢于去收這(zhè)筆錢呢？其實成(chéng)立于2005年的Reddit，已經(jīng)是全球互聯網中曆史最悠久、同時也最有活力的社區之一。截止2021年10月，也就是Reddit官方最後(hòu)一次披露的用戶數據表明，其擁有5300萬DAU和超過(guò)4.3億MAU。而來自Statista的數據顯示，Reddit是全美訪問量第六大的社交媒體，月活水平與Instagram、Twitter幾乎持平。

如此海量的用戶也造就了Reddit的活躍社區總數超過(guò)了14萬個，帖子總量超過(guò)3.66億，評論總數爲23億，這(zhè)也代表著(zhe)沉澱在Reddit的内容已然成(chéng)爲了一個極爲驚人的語料庫。而在AI領域，語料(Corpus）通常是一定數量和規模的文本資源集合，作爲一個以論壇爲形式展開(kāi)業務的平台，Reddit顯然是當下英語互聯網中最潮流、最日新月異的語料庫。例如OpenAI開(kāi)發(fā)的ChatGPT以及最新的GPT-4，就有很多訓練數據被(bèi)證實是來源于Reddit。

就像數據之于算法一樣(yàng)，語料則是ChatGPT這(zhè)類生成(chéng)式AI更加智慧的基礎所在。生成(chéng)式AI的原理，大概可以總結爲通過(guò)大量的語料庫進(jìn)行訓練，以建立相應的模型，從而使得AI能(néng)夠對(duì)人類的問題作出相應的回答和決策，其核心邏輯就是“猜謎遊戲”。經(jīng)過(guò)大量的訓練後(hòu)，AI預測出問題的答案，并不等于擁有智慧，而隻是在玩文字遊戲，進(jìn)行一次又一次的概率解謎，本質上與人類玩數獨或填字遊戲是一樣(yàng)的。

那麼(me)ChatGPT爲什麼(me)會表現得比以往的人工智能(néng)産品、比如Siri更聰明呢？其實單純是因爲語料規模更大。例如GPT-3就擁有的1750億的參數量、45TB的訓練數據，以及高達1200萬美元的訓練費用，這(zhè)也是OpenAI打造ChatGPT的基礎。而ChatGPT聰明的關鍵就在于湧現能(néng)力（Emergent ability）上，指的是在不進(jìn)行參數更新的情況下，隻在輸入中加入幾個示例，就能(néng)讓模型進(jìn)行學(xué)習。

湧現能(néng)力從何而來呢，根據Google&Deepmind聯合發(fā)布的相關論文顯示，模型在沒(méi)有達到一定規模前，得到的表現較爲随機，但在突破規模的臨界點後(hòu)，表現則會大幅度提升。

例如在BIG-Bench上，GPT-3和LaMDA在未達到臨界點時，模型的表現都(dōu)是接近于零。而在GPT-3的規模突破2 · 10^22 training FLOPs (13B參數)，LaMDA的規模突破10^23 training FLOPs (68B參數)後(hòu)，表現就開(kāi)始快速上升。

“力大磚飛”就是當下大語言模型的底層邏輯，在這(zhè)種(zhǒng)情況下，語料基本決定了大語言模型的上限。語料雖然是越多越好(hǎo)，但問題是已經(jīng)沒(méi)有更多高質量的數據供模型進(jìn)行訓練了。

AI研究團隊Epoch在今年年初發(fā)表的論文表明，AI不出5年就會把人類所有的高質量語料用光。而且這(zhè)一結果，則是Epoch將(jiāng)人類語言數據增長(cháng)率，即全體人類未來5年内出版的書籍、撰稿的論文、編寫的代碼，都(dōu)考慮在内預測出的結果。

Epoch團隊將(jiāng)語料分爲了高質量和低質量兩(liǎng)種(zhǒng)，其中高質量的語料指的是包括維基百科、新聞網站、GitHub上的代碼、出版書籍等，低質量語料則來源于Twitter、Facebook，以及Reddit上的内容。

正常情況下，AI廠商自然更願意使用高質量的語料，畢竟這(zhè)能(néng)夠在最大限度上避免被(bèi)偏見和歧視性言論“污染”。但問題是，據統計，高質量語料數據的存量隻剩下約4.6×10^12~1.7×10^13個單詞，相比當前最大的文本數據集大了不到一個數量級。

所以當高質量語料不夠用的情況下，低質量語料即便再不好(hǎo)用也得用，不然大語言模型要如何成(chéng)長(cháng)。而對(duì)于低質量語料，充其量也隻是在數據标注和清洗上投入更多成(chéng)本，所以OpenAI、谷歌、亞馬遜等公司相當于就沒(méi)得選。所以Reddit如今就正是挾語料自重，料定了AI廠商隻能(néng)硬著(zhe)頭皮買。

标簽： ChatGPT

版權申明：本站文章部分自網絡，如有侵權，請聯系：hezuo@lyzg168.com

特别注意：本站所有轉載文章言論不代表本站觀點，本站所提供的攝影照片，插畫，設計作品，如需使用，請與原作者聯系，版權歸原作者所有