首頁 / 新聞 / 無視用戶隐私,大量AI應用正在共享你的數據

無視用戶隐私,大量AI應用正在共享你的數據

作者: 兆光科技 發(fā)布時間: 2024/08/08 點擊: 1005次

想要遏制AI應用違規挖掘用戶數據,還(hái)得應用商店加強審核才行。

如今距離OpenAI第一次將(jiāng)ChatGPT帶給大衆用戶已經(jīng)過(guò)去了半年之久,但畢竟再好(hǎo)的東西都(dōu)有“保質期”,所以随著(zhe)時間的推移,大衆圍繞AI大模型的狂熱也逐漸褪去、其暗面(miàn)也開(kāi)始被(bèi)大量讨論。且不提早已被(bèi)擺在台面(miàn)上的AI大模型生成(chéng)内容可能(néng)存在版權風險,以及AI的倫理道(dào)德等過(guò)于虛無缥缈的話題,僅僅就其竊取用戶隐私這(zhè)個問題,就足以讓外界對(duì)大模型提起(qǐ)十二萬分的注意了。

近日,美國(guó)一家律師事(shì)務所向(xiàng)加州北區聯邦法院提起(qǐ)集體訴訟,指控OpenAI和微軟使用互聯網抓取的信息來訓練ChatGPT時,嚴重侵犯了大量用戶的版權和隐私,要求後(hòu)者賠償30億美元。在這(zhè)份長(cháng)達157頁的訴狀中,原告指責OpenAI盡管制定了購買和使用個人信息的協議,但包括賬戶信息、姓名、聯系方式、支付信息、聊天記錄等隐私數據都(dōu)在未經(jīng)許可的情況下,被(bèi)OpenAI和微軟收集、存儲、共享和披露。

如果說這(zhè)家律所指控OpenAI和微軟更多的是在博眼球,那麼(me)網絡安全公司Home Security Heroes公布的一份研究數據,則可能(néng)更具現實意義。在該公司對(duì)蘋果App Store的研究中發(fā)現,有四分之三的AI相關應用與第三方共享用戶數據。而在接受調查的159個應用中發(fā)現,64%的應用會跟蹤用戶的個人數據,其中監控用戶數據比例最大的一款AI應用是Brainly(一款數學(xué)求解應用)。

除此之外,Google Assistant與第三方共享了超過(guò)35.71%的用戶數據,語言教育應用Duolingo、圖像生成(chéng)應用AI Arta和DaVinci,以及AI醫療應用K Health則分别與第三方共享了多達28.57%的用戶數據。根據Home Security Heroes方面(miàn)的說法,從整體來看,有54%的AI應用會跟蹤用戶數據。

毫無疑問,這(zhè)樣(yàng)的一組數字是相當驚人的,畢竟App Store應該是目前對(duì)應用審核最爲嚴格的應用商店,而蘋果也是當下對(duì)用戶隐私保護力度最強的消費電子企業。因此也可想而知,在Android生态中,AI應用竊取用戶數據的情況大概率隻會更加嚴重。

事(shì)實上,與第三方分享用戶數據自Meta的“劍橋門”以來,就是被(bèi)整個行業非常忌諱的一件事(shì),也很容易讓用戶聯想到企業本身對(duì)于個人隐私持漠視态度,因此近年來也是各大應用商店嚴防死守的一點。

比如蘋果在App Store的審核指南中就明确寫到,“從App中收集的數據不能(néng)與第三方共享,用于與提升用戶體驗、軟件/硬件性能(néng)無關的功能(néng),自助廣告必需遵守《蘋果開(kāi)發(fā)者計劃許可協議》”。既然向(xiàng)第三方分享用戶數據是一個被(bèi)蘋果禁止的行爲,那麼(me)爲什麼(me)這(zhè)一大批AI應用會選擇糊弄蘋果的審核人員,冒著(zhe)被(bèi)移出App Store的風險也要這(zhè)樣(yàng)幹呢?

其實這(zhè)是因爲AI應用對(duì)于數據有著(zhe)幾乎永無止境的渴求,它們像饕餮一般吞噬數據、以訓練自家的模型。而AI的智能(néng)則是以數據爲支撐的,機器學(xué)習/深度學(xué)習技術的底座就是大量數據,也就是著名AI科學(xué)家吳恩達教授倡導的Data-centric AI,它是一種(zhǒng)以數據爲中心的人工智能(néng)理念,強調數據在人工智能(néng)開(kāi)發(fā)和應用中的重要性。

傳統搭建AI模型的方法主要是聚焦叠代模型,數據也相對(duì)固定,通常會聚焦于幾個基準數據集,然後(hòu)設計各式各樣(yàng)的模型去提高預測準确率。但這(zhè)一模式的缺陷也非常突出,準确率高的模型隻能(néng)确保“拟合”數據,并不一定意味著(zhe)實際應用中會有很好(hǎo)的表現,如今也已經(jīng)被(bèi)邊緣化,目前用更大規模和更高質量的數據來訓練AI,則成(chéng)爲了主流。

以OpenAI的GPT模型爲例,從GPT-1到ChatGPT、再到GPT-4,所用的訓練數據大體經(jīng)曆了以下變化,小數據規模數據——大規模數據——更大規模、更高質量的數據——大規模的人類标注的高質量數據。畢竟所謂語言模型的訓練和學(xué)習,就是從大量的數據中學(xué)習複雜的上下文聯系。而爲了獲得更多的數據,OpenAI更是四處出擊,例如它就以每年200萬美元的價格獲得了推特推文數據的訪問權限。

如果沒(méi)有持續的數據輸入,ChatGPT就不可能(néng)完成(chéng)向(xiàng)GPT-4的“進(jìn)化”,而兩(liǎng)者間的一個顯著區别,就是ChatGPT的數據隻截止到2021年、缺乏2022年及之後(hòu)的數據。沒(méi)錯,随著(zhe)AI大模型概念的走紅,AI相關企業如今已然成(chéng)爲了數據交易市場的大買家。

也正是因爲這(zhè)一事(shì)實,導緻了現階段數據本身的價格水漲船高,掌握數據源頭的企業已經(jīng)開(kāi)始哄擡物價。以前段時間鬧出不小風波的Reddit爲例,其所給出第三方抓取5000萬次内容需支付12000美元的價格,顯然就已經(jīng)很高。

出于對(duì)數據的渴求,以及數據本身的價格原因,AI應用的開(kāi)發(fā)者自然就有了強烈的從應用内收集用戶數據、并分享給第三方的動力。對(duì)于當下的絕大多數AI應用而言,變賣數據或許是它們現階段所能(néng)找到、最具可行性的掙錢方式。而且目前會去下載AI應用的用戶,基本都(dōu)是對(duì)AI感興趣的人群,如何讓這(zhè)一部分用戶的價值變得更大,顯然開(kāi)發(fā)者沒(méi)有理由不動心。

事(shì)實上,肆意挖掘用戶隐私現象的泛濫,對(duì)于尚且稚嫩的AI生态本身而言有著(zhe)極大的傷害,因此有識之士也紛紛站出來疾呼。谷歌DeepMind的首席商務官Colin Murdoch就表示,督促AI開(kāi)發(fā)者專注于構建一個“強大而負責任”的社群。隻是想要遏制AI應用的開(kāi)發(fā)者違規挖掘用戶數據,還(hái)得應用商店加強審核才行。


标簽: AI

版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com

特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有

聯系我們

輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!

洛陽霆雲網絡科技有限公司

Tel:15137991270

企業QQ:210603461

Emile:hezuo@lyzg168.com

地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室

網站:https://www.lyzg168.com

洛陽app開(kāi)發(fā),洛陽app開(kāi)發(fā)公司,洛陽手機軟件開(kāi)發(fā),蘋果保上架,洛陽網站開(kāi)發(fā),洛陽網站制作,洛陽微信定制開(kāi)發(fā)

我們的微信

關注兆光,了解我們的服務與最新資訊。

Copyright © ​2018-2019 洛陽霆雲網絡科技有限公司