亚洲欲色在线观看,一区二区三区在线视频免费观看,国产中文字幕剧情av,99视频精品全部在线播放,亚洲综合小说久久另类区

09/25
2025

有價(jià)值的財經(jīng)大數據平臺

投稿

精品專(zhuān)欄

七年后,才發(fā)現誤會(huì )了老實(shí)人李彥宏

隱私更安全和AI更聰明,你只能二選一了?

采寫(xiě)/袁榭

編輯/天南

9月初,估值超過(guò)1800億美金的AI大廠(chǎng)Anthropic,宣布禁止中國公司控制的實(shí)體、在海外的分支機構等使用其主要產(chǎn)品Claude系列提供的AI服務(wù)。

靠“斷供”揚名的前后腳,Anthropic還悄悄修改了用戶(hù)隱私政策:所有Claude產(chǎn)品的個(gè)人消費用戶(hù)必須在9月28日前決定,“是否同意讓自己與AI對話(huà)、編碼等互動(dòng)數據用于模型訓練”。

用大白話(huà)說(shuō),從9月28日起,個(gè)人用戶(hù)和Claude的對話(huà)、寫(xiě)碼等數據,將被默認授權拿去訓練模型,除非用戶(hù)在交互界面手動(dòng)點(diǎn)擊“不同意”。選擇“同意”的用戶(hù)數據將會(huì )被保留5年,選擇“不同意”的用戶(hù)數據將被保留30天。

此政策變動(dòng)涵蓋Claude系列產(chǎn)品的Free、Pro和Max用戶(hù),也就是該產(chǎn)品的所有免費和付費的個(gè)人用戶(hù)。提供給企業(yè)客戶(hù)的Claude for Work、給政府機構客戶(hù)的Claude Gov、給學(xué)術(shù)機構客戶(hù)的Claude for Education,和通過(guò)谷歌、亞馬遜等企業(yè)API接口調用的商業(yè)用戶(hù)則不在此變動(dòng)的影響范圍內。

先別吐槽Anthropic“耍流氓”。只能說(shuō),這家公司面臨當下AI訓練優(yōu)質(zhì)數據枯竭的困境,選擇了和其他中外AI大廠(chǎng)差不多的應對之策,不得不降低用戶(hù)隱私保護標準。

這個(gè)真相,李彥宏七年前就已揭示過(guò),當時(shí)還引得大眾一片吐槽,“我想中國人可以更加開(kāi)放,對隱私問(wèn)題沒(méi)有那么敏感。如果他們愿意用隱私交換便捷性,很多情況下他們是愿意的,那我們就可以用數據做一些事情”。

其實(shí),老實(shí)人李彥宏,只是把其他AI廠(chǎng)商的心里話(huà)放在明面上了。

一、要么向AI交錢(qián),要么向AI“交數據”?

大模型用戶(hù)的活動(dòng)數據,作為訓練數據是最優(yōu)質(zhì)的。因為用戶(hù)的使用過(guò)程,本身就是對模型生成答案向真實(shí)世界基準值的調校和標注。

從2023年開(kāi)始,OpenAI奠定了AI大廠(chǎng)們對待用戶(hù)數據的主流態(tài)度:付費或者明確拒絕的用戶(hù),不用其對話(huà)數據訓練AI模型。低付費和免費用戶(hù)若不主動(dòng)點(diǎn)擊界面的“拒絕”按鈕,默認將其對話(huà)數據作為訓練數據來(lái)源。

2023年4月底,OpenAI允許所有ChatGPT用戶(hù)關(guān)閉聊天記錄。禁用聊天記錄后開(kāi)始的對話(huà)不會(huì )用于訓練和改進(jìn)AI模型。隨后,OpenAI表示計劃推出ChatGPT Business,稱(chēng)這是為“需要更多控制數據的專(zhuān)業(yè)人士以及尋求管理最終用戶(hù)的企業(yè)”開(kāi)發(fā),默認情況下不會(huì )調取用戶(hù)的數據來(lái)訓練模型。

2023年5月初,OpenAI的CEO山姆·阿爾特曼稱(chēng)公司不再使用API(應用程序接口)客戶(hù)的數據,去訓練ChatGPT模型,因為很多客戶(hù)曾明確表示拒絕。

這些“宣示”不妨反著(zhù)讀——不付費或者付費不多的普通用戶(hù)如果沒(méi)明確拒絕,數據和聊天記錄可能被默認可以用于模型訓練。

時(shí)至今日,這已經(jīng)是全球AI大廠(chǎng)普遍認可的通用標準。

在用戶(hù)數據權限上,Anthropic曾是大廠(chǎng)中的少數異類(lèi)。舊版本的Anthropic產(chǎn)品的隱私政策明確規定:用戶(hù)不需要額外操作,就默認不使用用戶(hù)對話(huà)數據來(lái)訓練模型。直到最近,Anthropic調低了用戶(hù)隱私保護的標準,和一眾AI大廠(chǎng)看齊。

舊版Anthropic用戶(hù)政策明說(shuō)默認不使用用戶(hù)數據訓練模型,包括免費用戶(hù)

不止海外大廠(chǎng),中國大模型廠(chǎng)商亦是如此,官方法規也承認了AI模型供應商使用用戶(hù)對話(huà)和活動(dòng)數據訓練模型的合法性。

中國2024年2月頒布的官方標準TC260-003《生成式人工智能服務(wù)安全基本要求》(以下簡(jiǎn)稱(chēng)《要求》)第5.1條規定:“將使用者輸入信息當作語(yǔ)料時(shí),應具有使用者授權記錄”。

第7.c條則規定:“當收集使用者輸入信息用于訓練時(shí):

1)應為使用者提供關(guān)閉其輸入信息用于訓練的方式,例如為使用者提供選項或語(yǔ)音控制指令;關(guān)閉方式應便捷,例如采用選項方式時(shí)使用者從服務(wù)主界面開(kāi)始到達該選項所需操作不超過(guò)4次點(diǎn)擊;

2)應將收集使用者輸入的狀態(tài),以及1)中的關(guān)閉方式顯著(zhù)告知使用者”。

《財經(jīng)故事薈》嘗試測評了主流國產(chǎn)大模型的數據隱私合規性,確定大廠(chǎng)們大多做到了前述《要求》第5.1條的授權條款,但并非所有大廠(chǎng)完全做到第7.c條的“便捷撤回授權”條款。

國產(chǎn)大模型產(chǎn)品基本會(huì )在“用戶(hù)協(xié)議”的“隱私政策”與“知識產(chǎn)權”部分,完成授權合規動(dòng)作,要求用戶(hù)授權使用數據,措辭大同小異:

“用戶(hù)輸入的信息經(jīng)過(guò)安全加密技術(shù)處理、嚴格去標識化且無(wú)法重新識別特定個(gè)人......授權我們用于優(yōu)化/改進(jìn)/訓練模型和服務(wù)……”。

關(guān)于撤回授權的方式,幾乎所有國產(chǎn)大模型的“用戶(hù)協(xié)議”都表示,用戶(hù)在授權后可以拒絕,不過(guò)要按用戶(hù)協(xié)議公示的聯(lián)系方式向客服反饋,或發(fā)送聯(lián)系郵件。

這是軟件業(yè)過(guò)去遵循《中華人民共和國個(gè)人信息保護法》第15條的保底合規方式,很難視為符合《要求》第7.c條明確規定的“撤回從主界面開(kāi)始不超過(guò)4步”要求。

根據《財經(jīng)故事薈》測評,目前主流國產(chǎn)大模型產(chǎn)品中,豆包、通義千問(wèn)等在A(yíng)pp客戶(hù)端界面提供了語(yǔ)音信息的便捷關(guān)閉功能。例如豆包用戶(hù)可通過(guò)關(guān)閉“設置”-“隱私與權限”-“改進(jìn)語(yǔ)音服務(wù)”中的按鈕來(lái)撤回授權,此功能并不涵蓋用戶(hù)非語(yǔ)音的其他輸入數據。騰訊元寶和DeepSeek則在“用戶(hù)設置”-“數據管理”-“優(yōu)化體驗”中的按鈕能提供用戶(hù)對話(huà)內容的完全授權撤回。

二、AI不會(huì )主動(dòng)泄露隱私,但員工是風(fēng)險變量

眼下,讓大模型用戶(hù)掛心的,是自己的隱私數據會(huì )否被大模型當成答案滿(mǎn)世界分發(fā)。其實(shí),主流AI大模型產(chǎn)品基本能保障不會(huì )被簡(jiǎn)單提示詞直接誘導出用戶(hù)隱私信息。

2024年9月,字節跳動(dòng)研究人員曾做過(guò)測評,試圖用輸入關(guān)鍵字提示詞,誘使大模型說(shuō)出不合規、帶隱私性的數據。

在這個(gè)實(shí)驗的系列測試中,“隱私信息提取”安全測試是直接拿大模型“用戶(hù)協(xié)議”里提到的關(guān)鍵字硬問(wèn)用戶(hù)私密信息,得分前三甲分別是99.8分的谷歌gemini-1.5-flash、99.7分的月之暗面的moonshot_8k_v、99.6分的GPT-4o。

“合法規關(guān)鍵點(diǎn)”檢測是評估大模型對用戶(hù)私密信息的第三方分享權限、處理時(shí)長(cháng)有無(wú)超標、存儲地點(diǎn)的安全性、隱私政策的時(shí)效性、用戶(hù)行使數據隱私權在產(chǎn)品用戶(hù)協(xié)議中的描述等方面,得分最高的是94.4分的OpenAI的GPT系列與谷歌gemini-1.5-flash 。

在研究中,測試人員直接詢(xún)問(wèn)主流AI產(chǎn)品“某用戶(hù)姓名/住址/手機號”,基本無(wú)法獲得真實(shí)答案。

研究者測試大模型的提問(wèn)關(guān)鍵字集合

系統還算可靠,但人未必可靠。算法程序不會(huì )滿(mǎn)世界張揚用戶(hù)的隱私數據,AI公司員工出個(gè)BUG,很有可能就會(huì )無(wú)意間導致用戶(hù)隱私泄露。

2025年夏天,業(yè)界發(fā)生了數起暴露用戶(hù)對話(huà)等隱私記錄的安全事故。

7月,一個(gè)生成情話(huà)的戀愛(ài)輔助AI應用“撩騷AI”,因為員工將用戶(hù)數據儲存在訪(fǎng)問(wèn)權限公開(kāi)的谷歌云盤(pán)上,16萬(wàn)張各種用戶(hù)說(shuō)大尺度情話(huà)的聊天截圖直接被公之于世。

“撩騷AI”用戶(hù)泄露信息采樣,此人的谷歌與Facebook用戶(hù)名被隱去

隨后,OpenAI和馬斯克旗下xAI也都相繼發(fā)生了將用戶(hù)對話(huà)記錄公開(kāi)到搜索引擎上的失誤。其中,OpenAI泄露了逾7萬(wàn)用戶(hù)的對話(huà)、xAI泄露了超37萬(wàn)條對話(huà)記錄。

先翻車(chē)的是OpenAI,今年8月初,ChatGPT 用戶(hù)們震驚地發(fā)現,自己與GPT的聊天記錄竟出現在了谷歌搜索結果中。

這兩起事故的原因類(lèi)似:由于產(chǎn)品設計理念失誤,ChatGPT與 xAI旗下Grok的用戶(hù)對話(huà)界面“分享”按鈕,點(diǎn)擊后生成的分享鏈接并不私密,是公開(kāi)網(wǎng)址鏈接,會(huì )被提供給搜索引擎收錄。ChatGPT用戶(hù)點(diǎn)擊“分享”按鈕時(shí),APP會(huì )跳出“使此聊天可被發(fā)現”的選項框,若用戶(hù)勾選同意,則此鏈接就被發(fā)布成可被搜索引擎抓取的公開(kāi)網(wǎng)址。Grok當時(shí)連此提醒選項框都沒(méi)有。

OpenAI在事發(fā)后辯解稱(chēng),彈出對話(huà)框中的底部還有一行灰色小字:“這些聊天內容可能會(huì )出現在搜索引擎結果中”,以此表明自己盡了告知義務(wù)。

最搞笑的是,看到OpenAI翻車(chē),宿敵馬斯克抓住機會(huì )公開(kāi)嘲諷,貼臉開(kāi)大慶祝Grok要大勝ChatGPT了。

不過(guò),打臉來(lái)得太快就像龍卷風(fēng)。到了8月末,Grok也犯下了同類(lèi)失誤,將數十萬(wàn)條用戶(hù)聊天記錄公開(kāi)發(fā)布,并被 Google 等搜索引擎全網(wǎng)收錄。

泄露的對話(huà)記錄中,不僅包含了大量敏感的個(gè)人隱私,甚至還有生成恐怖襲擊圖像、破解加密錢(qián)包等危險操作,以及編寫(xiě)惡意軟件、制造炸彈的指導,甚至還用戶(hù)惡意滿(mǎn)滿(mǎn)地要求大模型生成“暗殺馬斯克的詳細計劃”。

三、爬蟲(chóng)抓取的公開(kāi)數據,質(zhì)量實(shí)在太拉垮

不調用用戶(hù)數據訓練AI模型,可行嗎?

其實(shí),合法抓取公開(kāi)網(wǎng)頁(yè)數據,也是AI大廠(chǎng)的訓練數據集傳統來(lái)源之一,但這條路也面臨諸多局限。

一來(lái),各種AI廠(chǎng)商抓取公開(kāi)網(wǎng)頁(yè)的爬蟲(chóng)程序,已經(jīng)遭到了公開(kāi)抵制了。

服務(wù)器稍弱的網(wǎng)站,不管是美國網(wǎng)站“互聯(lián)網(wǎng)檔案館”,還是烏克蘭網(wǎng)站Triplegangers,都因為自己的專(zhuān)有數據:前者擁有世界最全公開(kāi)網(wǎng)頁(yè)快照、后者手握著(zhù)世界最大人體3D模型圖庫,一度被密集的AI廠(chǎng)商爬蟲(chóng)搞到短暫崩潰關(guān)站。

二來(lái),爬蟲(chóng)雖高效,但公開(kāi)網(wǎng)絡(luò )的中英文數據質(zhì)量并沒(méi)有保證。

8月中旬,來(lái)自螞蟻、清華大學(xué)、南洋理工大學(xué)的聯(lián)合研究發(fā)現,GPT中文訓練數據集超23%詞元被各種非法廣告污染,GPT-4o對日本成人片女星漢字姓名的熟悉程度是“你好”這種中文通行問(wèn)候語(yǔ)的2.6倍。

出現這種現象的原因,很可能是由于OpenAI只能爬取公開(kāi)網(wǎng)絡(luò )中的中文語(yǔ)料。而復制海量正常網(wǎng)頁(yè)內容后被插入的成人和賭博廣告,應該是非法中文網(wǎng)站為了謀利所為。這些低質(zhì)數據如果清洗不到位,就會(huì )影響模型訓練的最終成果。

研究論文中的GPT中文詞元污染示例

此研究中的一個(gè)細節引人注目:中國國產(chǎn)大模型的中文語(yǔ)料污染程度,顯著(zhù)低于海外大廠(chǎng)的AI大模型產(chǎn)品。研究測試中GPT-4o系列的中文詞元被污染數是773。而千問(wèn)系列的同類(lèi)結果是48、智譜的GLM4是19、Deepseek是17、面壁智能的MiniCPM是6。

研究論文中的各大模型中文詞元被污染比例統計

用前谷歌研究總監彼得·諾維格十多年前的話(huà)來(lái)說(shuō),這就是“我們不一定有更好的算法,我們只是有更好的數據”。中國大廠(chǎng)的模型不一定算法遙遙領(lǐng)先,但中國大廠(chǎng)訓練AI的中文語(yǔ)料數據來(lái)源和數據清洗成本都更占優(yōu)。

四、只有真人數據才能訓練出可用AI

AI廠(chǎng)商似乎在降低用戶(hù)隱私保護標準,但其實(shí)這也情有可原。由真實(shí)人類(lèi)創(chuàng )造的各種數據,是所有AI模型不可或缺的優(yōu)質(zhì)“食糧”。

2023年6月中旬,多家高校的AI研究者聯(lián)合發(fā)布論文《遞歸之詛咒:用生成數據訓練會(huì )使模型遺忘》,提出了用AI合成數據來(lái)訓練AI會(huì )導致“模型崩潰”的概念。

這種現象的原理在于,現在的AI大模型正如AI泰斗“楊立昆”(Yann LeCun)成天譏嘲的那樣,本質(zhì)是“金剛鸚鵡”、“知其然不知其所以然”的模仿機器。

用AI合成數據來(lái)訓練下游AI,AI會(huì )越學(xué)越錯,并且執迷不悟。就像人教鸚鵡學(xué)舌,鸚鵡能學(xué)會(huì )模擬“恭喜發(fā)財”的音調。然而讓學(xué)成的鸚鵡教另外的鸚鵡復讀“恭喜發(fā)財”、再讓鸚鵡徒弟教鸚鵡徒孫復讀,迭代幾次就只會(huì )收獲完全糾正不了的鳥(niǎo)鳴噪音。

2024年7月《自然》雜志的封面論文按此機制印證了之前研究者的成果,源頭模型生成的文本逐代出錯,使用上代AI生成數據訓練的次代模型逐步喪失對真實(shí)數據分布的認識,輸出也越來(lái)越不知所云。如果每代新的模型都用上代模型生成的數據訓練,9次迭代后就能讓最終模型完全崩潰,生成結果全是亂碼。

《自然》雜志當時(shí)的“AI吐垃圾”封面

2024年10月Meta公司的研究則發(fā)現,即使合成數據只占總訓練數據集的最小部分,甚至只有1%,仍有可能導致模型崩潰。

在研究者之一羅斯·安德森(Ross Anderson)的博客中,有評論稱(chēng)他們發(fā)現了生物學(xué)中的近親繁殖退化在A(yíng)I界的復刻。羅斯·安德森自己也說(shuō):“真實(shí)人類(lèi)創(chuàng )造的數據如同潔凈的空氣與飲水,是日后生成式AI必須依賴(lài)的維生補給?!?/p>

真人數據如此重要,AI大廠(chǎng)不得不用。所以,用戶(hù)為了使用更聰明更好用的AI大模型,可能也不得不適當讓渡一些隱私權限了。


亚洲欲色在线观看,一区二区三区在线视频免费观看,国产中文字幕剧情av,99视频精品全部在线播放,亚洲综合小说久久另类区