首頁 / 新聞 / iPhone 提前曝光的新功能(néng),讓可能(néng)用于「AI 詐騙」的技術開(kāi)始幫人

iPhone 提前曝光的新功能(néng),讓可能(néng)用于「AI 詐騙」的技術開(kāi)始幫人

作者: 兆光科技 發(fā)布時間: 2024/08/08 點擊: 323次

無障礙思維點亮靈感,AI 燃起(qǐ)生産力

你的聲音

你的身份

史蒂芬·霍金的「機械電音」,也許是世界上其中一個最有辨識度的聲音。

但那并不是霍金自己的聲音。

在霍金因漸凍症(ALS)失去說話能(néng)力的年代,技術還(hái)不足以讓他能(néng)生成(chéng)自己聲音。事(shì)實上,能(néng)用上語音合成(chéng)器的人都(dōu)屈指可數。

到了今天,ALS 患者雖然有了更多語音合成(chéng)的選擇,但總體費用和時間門檻仍然不低,普及度也有限。

最近,蘋果公布了全新無障礙功能(néng) Personal Voice(暫未上線),不僅讓用戶能(néng)免費「備份」自己的聲音,同時還(hái)在安全地應用 AI 技術上,作出了一次有意思的嘗試。

隻需 15 分鍾「調教」,就能(néng)生成(chéng)你的聲音

圖自 Fastcompany

在生成(chéng)式 AI 可以模仿一切的時代裡(lǐ),用 AI 模仿一個人的聲音聽起(qǐ)來已經(jīng)不算新奇,隻是感覺有點安全隐患。

我好(hǎo)奇的,更多是蘋果要怎樣(yàng)安全和高效地實現 Personal Voice 這(zhè)一功能(néng)。

據介紹,iPhone、iPad 和 Mac 用戶隻需要根據提示錄制 15 分鍾的音頻,蘋果就會基于設備端的機器學(xué)習技術來生成(chéng)和用戶一樣(yàng)的聲音。

相比之下,爲失語群體提供專業語音合成(chéng)服務的公司,可能(néng)需要采用專業設備,錄制幾小時的語音素材,價格最低都(dōu)要數百美元。

另一項新無障礙功能(néng) Live Speech,則支持用戶打電話、FaceTime 或者是和他人面(miàn)對(duì)面(miàn)對(duì)話的時候,輸入文字即可生成(chéng)語音内容,爲失語或不方便說話的用戶提供另一種(zhǒng)「發(fā)聲」方式。

結合 Personal Voice 和 Live Speech 兩(liǎng)項功能(néng),失語用戶就能(néng)用接近自己原本聲音的生成(chéng)聲音和他人溝通。

用起(qǐ)來是方便了,但怎樣(yàng)避免有人用網上扒的語音素材來生成(chéng)他人的聲音?

1. 素材随機化。

在錄制 15 分鍾語音素材的過(guò)程中,蘋果將(jiāng)随機生成(chéng)需要用戶朗讀的内容,減少他人猜中素材的可能(néng)性。

2.物理距離屏障。

在錄制過(guò)程中,用戶需要在距離設備 6-10 英寸(約 15- 25 厘米)的特定空間裡(lǐ)完成(chéng)錄制。

在生成(chéng)過(guò)程中,所有數據都(dōu)將(jiāng)通過(guò)蘋果的 Neural Engine(神經(jīng)引擎)在設備本地完成(chéng),不必要上傳到雲處理。

語音合成(chéng)後(hòu),第三方應用如果想使用 Personal Voice,都(dōu)要獲得用戶明确授權。

即便第三方應用獲得授權使用時,蘋果也會采用額外的背景保護,确保第三方應用無法獲取 Personal Voice 以及用戶之前所錄制的語音素材。

如果是蘋果「全家桶」用戶,生成(chéng)自己的 Personal Voice 後(hòu)還(hái)能(néng)通過(guò) iCloud 同步到不同設備上,并以端對(duì)端的方式加密。

自己的聲音,失去了才懂多重要

人是感性的生物,而聲音是很強烈的情感觸發(fā)器。

有研究指出,當人在聽到母親的聲音時,身體釋放出催産素水平和跟媽媽擁抱時産生的程度很相似。另一個研究則指出,聽到自己的聲音,會增強一個人的自我能(néng)動性。

這(zhè)聽起(qǐ)來有點抽象。

但當我們失去它時,重要性就變得顯而易見了。

2021 年 3 月,Ruth Brunton 被(bèi)确診 ALS。那年聖誕,她就已經(jīng)失語了。

ALS 患者中,約有 25% 的人患的是「延髓起(qǐ)病型」肌萎縮側索硬化症,主要表現是說話障礙或吞咽困難。這(zhè)類病人說話會逐漸變得含糊、帶有鼻音,甚至失語。

Brunton 的行動很果斷,确診後(hòu)馬上找公司去做語音生成(chéng)。

來回花了一個月時間,錄了 3000 多個句子的語料,但最後(hòu)出來的結果并不理想。

那家公司用的是一種(zhǒng)名爲「單元選擇(unit selection)」技術。

簡單粗暴來說,它就是通過(guò)「拼接」來實現語音生成(chéng),把語料拆分爲大量小的語音單元,然後(hòu)按需把元素拼起(qǐ)來。

單元選擇技術下,「Bob」這(zhè)一詞語能(néng)被(bèi)拆分成(chéng)不同語音元素,圖自《華盛頓郵報》

這(zhè)種(zhǒng)技術生成(chéng)的語音能(néng)聽清,但會有點電音,聽起(qǐ)來不太自然。

結果就是,Brunton 錄制的語料結合了微軟一個名爲「Heather」的聲音,不但聲音和自己毫不相似,甚至逼著(zhe)這(zhè)英國(guó)人「講」起(qǐ)了美語口音。

困在這(zhè)個聲音裡(lǐ),Brunton「隻會在必要的時候說話,不再是因爲想說話而說話」。

從前和丈夫打鬧聊天的心情消失了,Brunton 也不怎麼(me)願意參加多人對(duì)話。

即便是說「我愛你」,用一個不像自己的聲音來說,意義也似乎被(bèi)削弱了。

六個月後(hòu), Brunton 和丈夫争取回了最初錄制的語音素材,找了另一家公司,用 AI 技術合成(chéng)了一個更像她自己的聲音:

這(zhè)聽起(qǐ)來也許有點傻,但重新獲得自己的聲音讓我更有自信了。

在波士頓兒童醫院負責「增強溝通」項目的 John M. Costello 留意到,那些采用了更真實生成(chéng)語音的病人,似乎更能(néng)夠和親近的人建立深厚的聯結。

2022 年聖誕節,「重獲新聲」的 Brunton 還(hái)用語音錄制的一段節日祝語。

Ruth 覺得新的合成(chéng)聲音更像自己,錄制了一段節日祝福

然而,聖誕剛過(guò),Brunton 就染上了新冠,最後(hòu)在今年 2 月離世了。

她離開(kāi)的那晚,丈夫 David 一整夜都(dōu)握著(zhe)她的手:

我們有兩(liǎng)年時間來告别。我們說好(hǎo)了,我們要說盡一切我們想說的。

難以想象,如果 Brunton 後(hòu)來沒(méi)換上更像自己的聲音,她又是否能(néng)自在地說出想說的一切。

無障礙思維點亮靈感,AI 燃起(qǐ)生産力

我一直認爲,無障礙設計所挖掘的,其實就是人類多樣(yàng)性創造的想象力資源。

我們去到和自己有著(zhe)截然不同生活體驗的人面(miàn)前,聆聽更少被(bèi)訴說的故事(shì)和體驗,創造出我們之前沒(méi)想象過(guò),但卻能(néng)對(duì)更多人友好(hǎo)的的新生活方式。

Personal Voice 能(néng)讓失語的 ALS 患者重新獲得自己的聲音;也可以幫助在經(jīng)曆「刀片嗓」的我用自己的聲音去和其他人對(duì)話;甚至,我也很難避免會去想象,是否應該用這(zhè)爲自己「備份」聲音留給親近的人,以免哪天自己會突然離世。

而 AI 技術,就是實現這(zhè)些想象力生産力。

正如杜編輯之前說的,雖然不趕生成(chéng)式 AI 的熱鬧,但蘋果一直都(dōu)把 AI 用來提升用戶體驗 —— 提升效率,保護隐私。

提升效率,在于提升本地執行的機器學(xué)習算法和模型。

除了 Personal Voice 以外,蘋果這(zhè)次預覽的另一個無障礙功能(néng) Point and Speak 也采用了本地設備端的機器學(xué)習技術。

未來,視障用戶在 iPhone 自帶的放大器裡(lǐ),結合 Point and Speak 和旁白功能(néng),就能(néng)憑自己手指把 iPhone 變成(chéng)「點讀機」 —— 點到哪兒,讓 iPhone 給你把文字讀到哪兒。

去年的「門檢測」功能(néng)道(dào)理也類似,讓設備端的機器學(xué)習幫視障用戶識别出門,并朗讀出門上面(miàn)的信息和周圍的标識。

至于隐私,按喬布斯說的,就是「如果你需要他們(用戶)的數據,那就向(xiàng)他們(用戶)請求。每一次都(dōu)如此。」

這(zhè)在無障礙設計方面(miàn)也尤其重要 —— 因爲這(zhè)些功能(néng)設計起(qǐ)源就是服務被(bèi)所謂「常規設計」忽略的人,常常都(dōu)是更弱勢的群體,因此更有必要确保這(zhè)些用戶的隐私不受侵害。

在這(zhè)個語境下,我們也可開(kāi)啓更多關于數據應用權和透明度的讨論。

蘋果這(zhè)次做 Personal Voice 時,和幫助 ALS 患者的非盈利機構 Team Gleason Foundation 合作。

Team Gleason Foundation CEO Blair Casey(右)

該機構的 CEO Blair Casey 一直也在推動語音生成(chéng)公司設定一套标準錄制素材設定,讓用戶能(néng)直接錄這(zhè)部分素材,并體驗不同公司生成(chéng)出來的語音效果,而不是像現在一樣(yàng)「盲賭」。

同時,Casey 也主張語音生成(chéng)公司把用戶錄制的語音素材數據提供給用戶(因爲很多用戶可能(néng)錄制後(hòu)就失語了),以免他們未來想把這(zhè)些數據用在其他技術上:

如果更好(hǎo)的技術出來了,你會不想試一試嗎?如果你沒(méi)法拿回自己的語音素材,你就沒(méi)法去試。

AI 也許是我們時代最強的生産力。

但是,這(zhè)力該怎麼(me)使,也許以人爲本的無障礙設計能(néng)給它不少指引。


标簽: AI

版權申明:本站文章部分自網絡,如有侵權,請聯系:hezuo@lyzg168.com

特别注意:本站所有轉載文章言論不代表本站觀點,本站所提供的攝影照片,插畫,設計作品,如需使用,請與原作者聯系,版權歸原作者所有

聯系我們

輸入您的聯系信息,我們將(jiāng)盡快和你取得聯系!

洛陽霆雲網絡科技有限公司

Tel:15137991270

企業QQ:210603461

Emile:hezuo@lyzg168.com

地址:洛陽市西工區王城大道(dào)221号富雅東方B座1711室

網站:https://www.lyzg168.com

洛陽app開(kāi)發(fā),洛陽app開(kāi)發(fā)公司,洛陽手機軟件開(kāi)發(fā),蘋果保上架,洛陽網站開(kāi)發(fā),洛陽網站制作,洛陽微信定制開(kāi)發(fā)

我們的微信

關注兆光,了解我們的服務與最新資訊。

Copyright © ​2018-2019 洛陽霆雲網絡科技有限公司