国产一级高清毛片看看_七年后，才發(fā)現誤會(huì )了老實(shí)人李彥宏 _中訪(fǎng)網(wǎng)

隱私更安全和AI更聰明，你只能二選一了？

采寫(xiě)/袁榭

編輯/天南

9月初，估值超過(guò)1800億美金的AI大廠(chǎng)Anthropic，宣布禁止中國公司控制的實(shí)體、在海外的分支機構等使用其主要產(chǎn)品Claude系列提供的AI服務(wù)。

靠“斷供”揚名的前后腳，Anthropic還悄悄修改了用戶(hù)隱私政策：所有Claude產(chǎn)品的個(gè)人消費用戶(hù)必須在9月28日前決定，“是否同意讓自己與AI對話(huà)、編碼等互動(dòng)數據用于模型訓練”。

用大白話(huà)說(shuō)，從9月28日起，個(gè)人用戶(hù)和Claude的對話(huà)、寫(xiě)碼等數據，將被默認授權拿去訓練模型，除非用戶(hù)在交互界面手動(dòng)點(diǎn)擊“不同意”。選擇“同意”的用戶(hù)數據將會(huì )被保留5年，選擇“不同意”的用戶(hù)數據將被保留30天。

此政策變動(dòng)涵蓋Claude系列產(chǎn)品的Free、Pro和Max用戶(hù)，也就是該產(chǎn)品的所有免費和付費的個(gè)人用戶(hù)。提供給企業(yè)客戶(hù)的Claude for Work、給政府機構客戶(hù)的Claude Gov、給學(xué)術(shù)機構客戶(hù)的Claude for Education，和通過(guò)谷歌、亞馬遜等企業(yè)API接口調用的商業(yè)用戶(hù)則不在此變動(dòng)的影響范圍內。

先別吐槽Anthropic“耍流氓”。只能說(shuō)，這家公司面臨當下AI訓練優(yōu)質(zhì)數據枯竭的困境，選擇了和其他中外AI大廠(chǎng)差不多的應對之策，不得不降低用戶(hù)隱私保護標準。

這個(gè)真相，李彥宏七年前就已揭示過(guò)，當時(shí)還引得大眾一片吐槽，“我想中國人可以更加開(kāi)放，對隱私問(wèn)題沒(méi)有那么敏感。如果他們愿意用隱私交換便捷性，很多情況下他們是愿意的，那我們就可以用數據做一些事情”。

其實(shí)，老實(shí)人李彥宏，只是把其他AI廠(chǎng)商的心里話(huà)放在明面上了。

一、要么向AI交錢(qián)，要么向AI“交數據”？

大模型用戶(hù)的活動(dòng)數據，作為訓練數據是最優(yōu)質(zhì)的。因為用戶(hù)的使用過(guò)程，本身就是對模型生成答案向真實(shí)世界基準值的調校和標注。

從2023年開(kāi)始，OpenAI奠定了AI大廠(chǎng)們對待用戶(hù)數據的主流態(tài)度：付費或者明確拒絕的用戶(hù)，不用其對話(huà)數據訓練AI模型。低付費和免費用戶(hù)若不主動(dòng)點(diǎn)擊界面的“拒絕”按鈕，默認將其對話(huà)數據作為訓練數據來(lái)源。

2023年4月底，OpenAI允許所有ChatGPT用戶(hù)關(guān)閉聊天記錄。禁用聊天記錄后開(kāi)始的對話(huà)不會(huì )用于訓練和改進(jìn)AI模型。隨后，OpenAI表示計劃推出ChatGPT Business，稱(chēng)這是為“需要更多控制數據的專(zhuān)業(yè)人士以及尋求管理最終用戶(hù)的企業(yè)”開(kāi)發(fā)，默認情況下不會(huì )調取用戶(hù)的數據來(lái)訓練模型。

2023年5月初，OpenAI的CEO山姆·阿爾特曼稱(chēng)公司不再使用API（應用程序接口）客戶(hù)的數據，去訓練ChatGPT模型，因為很多客戶(hù)曾明確表示拒絕。

這些“宣示”不妨反著(zhù)讀——不付費或者付費不多的普通用戶(hù)如果沒(méi)明確拒絕，數據和聊天記錄可能被默認可以用于模型訓練。

時(shí)至今日，這已經(jīng)是全球AI大廠(chǎng)普遍認可的通用標準。

在用戶(hù)數據權限上，Anthropic曾是大廠(chǎng)中的少數異類(lèi)。舊版本的Anthropic產(chǎn)品的隱私政策明確規定：用戶(hù)不需要額外操作，就默認不使用用戶(hù)對話(huà)數據來(lái)訓練模型。直到最近，Anthropic調低了用戶(hù)隱私保護的標準，和一眾AI大廠(chǎng)看齊。

舊版Anthropic用戶(hù)政策明說(shuō)默認不使用用戶(hù)數據訓練模型，包括免費用戶(hù)

不止海外大廠(chǎng)，中國大模型廠(chǎng)商亦是如此，官方法規也承認了AI模型供應商使用用戶(hù)對話(huà)和活動(dòng)數據訓練模型的合法性。

中國2024年2月頒布的官方標準TC260-003《生成式人工智能服務(wù)安全基本要求》（以下簡(jiǎn)稱(chēng)《要求》）第5.1條規定：“將使用者輸入信息當作語(yǔ)料時(shí)，應具有使用者授權記錄”。

第7.c條則規定：“當收集使用者輸入信息用于訓練時(shí)：

1）應為使用者提供關(guān)閉其輸入信息用于訓練的方式，例如為使用者提供選項或語(yǔ)音控制指令；關(guān)閉方式應便捷，例如采用選項方式時(shí)使用者從服務(wù)主界面開(kāi)始到達該選項所需操作不超過(guò)4次點(diǎn)擊；

2）應將收集使用者輸入的狀態(tài)，以及1）中的關(guān)閉方式顯著(zhù)告知使用者”。

《財經(jīng)故事薈》嘗試測評了主流國產(chǎn)大模型的數據隱私合規性，確定大廠(chǎng)們大多做到了前述《要求》第5.1條的授權條款，但并非所有大廠(chǎng)完全做到第7.c條的“便捷撤回授權”條款。

國產(chǎn)大模型產(chǎn)品基本會(huì )在“用戶(hù)協(xié)議”的“隱私政策”與“知識產(chǎn)權”部分，完成授權合規動(dòng)作，要求用戶(hù)授權使用數據，措辭大同小異：

“用戶(hù)輸入的信息經(jīng)過(guò)安全加密技術(shù)處理、嚴格去標識化且無(wú)法重新識別特定個(gè)人......授權我們用于優(yōu)化/改進(jìn)/訓練模型和服務(wù)……”。

關(guān)于撤回授權的方式，幾乎所有國產(chǎn)大模型的“用戶(hù)協(xié)議”都表示，用戶(hù)在授權后可以拒絕，不過(guò)要按用戶(hù)協(xié)議公示的聯(lián)系方式向客服反饋，或發(fā)送聯(lián)系郵件。

這是軟件業(yè)過(guò)去遵循《中華人民共和國個(gè)人信息保護法》第15條的保底合規方式，很難視為符合《要求》第7.c條明確規定的“撤回從主界面開(kāi)始不超過(guò)4步”要求。

根據《財經(jīng)故事薈》測評，目前主流國產(chǎn)大模型產(chǎn)品中，豆包、通義千問(wèn)等在A(yíng)pp客戶(hù)端界面提供了語(yǔ)音信息的便捷關(guān)閉功能。例如豆包用戶(hù)可通過(guò)關(guān)閉“設置”-“隱私與權限”-“改進(jìn)語(yǔ)音服務(wù)”中的按鈕來(lái)撤回授權，此功能并不涵蓋用戶(hù)非語(yǔ)音的其他輸入數據。騰訊元寶和DeepSeek則在“用戶(hù)設置”-“數據管理”-“優(yōu)化體驗”中的按鈕能提供用戶(hù)對話(huà)內容的完全授權撤回。

二、AI不會(huì )主動(dòng)泄露隱私，但員工是風(fēng)險變量

眼下，讓大模型用戶(hù)掛心的，是自己的隱私數據會(huì )否被大模型當成答案滿(mǎn)世界分發(fā)。其實(shí)，主流AI大模型產(chǎn)品基本能保障不會(huì )被簡(jiǎn)單提示詞直接誘導出用戶(hù)隱私信息。

2024年9月，字節跳動(dòng)研究人員曾做過(guò)測評，試圖用輸入關(guān)鍵字提示詞，誘使大模型說(shuō)出不合規、帶隱私性的數據。

在這個(gè)實(shí)驗的系列測試中，“隱私信息提取”安全測試是直接拿大模型“用戶(hù)協(xié)議”里提到的關(guān)鍵字硬問(wèn)用戶(hù)私密信息，得分前三甲分別是99.8分的谷歌gemini-1.5-flash、99.7分的月之暗面的moonshot_8k_v、99.6分的GPT-4o。

“合法規關(guān)鍵點(diǎn)”檢測是評估大模型對用戶(hù)私密信息的第三方分享權限、處理時(shí)長(cháng)有無(wú)超標、存儲地點(diǎn)的安全性、隱私政策的時(shí)效性、用戶(hù)行使數據隱私權在產(chǎn)品用戶(hù)協(xié)議中的描述等方面，得分最高的是94.4分的OpenAI的GPT系列與谷歌gemini-1.5-flash 。

在研究中，測試人員直接詢(xún)問(wèn)主流AI產(chǎn)品“某用戶(hù)姓名/住址/手機號”，基本無(wú)法獲得真實(shí)答案。

研究者測試大模型的提問(wèn)關(guān)鍵字集合

系統還算可靠，但人未必可靠。算法程序不會(huì )滿(mǎn)世界張揚用戶(hù)的隱私數據，AI公司員工出個(gè)BUG，很有可能就會(huì )無(wú)意間導致用戶(hù)隱私泄露。

2025年夏天，業(yè)界發(fā)生了數起暴露用戶(hù)對話(huà)等隱私記錄的安全事故。

7月，一個(gè)生成情話(huà)的戀愛(ài)輔助AI應用“撩騷AI”，因為員工將用戶(hù)數據儲存在訪(fǎng)問(wèn)權限公開(kāi)的谷歌云盤(pán)上，16萬(wàn)張各種用戶(hù)說(shuō)大尺度情話(huà)的聊天截圖直接被公之于世。

“撩騷AI”用戶(hù)泄露信息采樣，此人的谷歌與Facebook用戶(hù)名被隱去

隨后，OpenAI和馬斯克旗下xAI也都相繼發(fā)生了將用戶(hù)對話(huà)記錄公開(kāi)到搜索引擎上的失誤。其中，OpenAI泄露了逾7萬(wàn)用戶(hù)的對話(huà)、xAI泄露了超37萬(wàn)條對話(huà)記錄。

先翻車(chē)的是OpenAI，今年8月初，ChatGPT 用戶(hù)們震驚地發(fā)現，自己與GPT的聊天記錄竟出現在了谷歌搜索結果中。

這兩起事故的原因類(lèi)似：由于產(chǎn)品設計理念失誤，ChatGPT與 xAI旗下Grok的用戶(hù)對話(huà)界面“分享”按鈕，點(diǎn)擊后生成的分享鏈接并不私密，是公開(kāi)網(wǎng)址鏈接，會(huì )被提供給搜索引擎收錄。ChatGPT用戶(hù)點(diǎn)擊“分享”按鈕時(shí)，APP會(huì )跳出“使此聊天可被發(fā)現”的選項框，若用戶(hù)勾選同意，則此鏈接就被發(fā)布成可被搜索引擎抓取的公開(kāi)網(wǎng)址。Grok當時(shí)連此提醒選項框都沒(méi)有。

OpenAI在事發(fā)后辯解稱(chēng)，彈出對話(huà)框中的底部還有一行灰色小字：“這些聊天內容可能會(huì )出現在搜索引擎結果中”，以此表明自己盡了告知義務(wù)。

最搞笑的是，看到OpenAI翻車(chē)，宿敵馬斯克抓住機會(huì )公開(kāi)嘲諷，貼臉開(kāi)大慶祝Grok要大勝ChatGPT了。

不過(guò)，打臉來(lái)得太快就像龍卷風(fēng)。到了8月末，Grok也犯下了同類(lèi)失誤，將數十萬(wàn)條用戶(hù)聊天記錄公開(kāi)發(fā)布，并被 Google 等搜索引擎全網(wǎng)收錄。

泄露的對話(huà)記錄中，不僅包含了大量敏感的個(gè)人隱私，甚至還有生成恐怖襲擊圖像、破解加密錢(qián)包等危險操作，以及編寫(xiě)惡意軟件、制造炸彈的指導，甚至還用戶(hù)惡意滿(mǎn)滿(mǎn)地要求大模型生成“暗殺馬斯克的詳細計劃”。

三、爬蟲(chóng)抓取的公開(kāi)數據，質(zhì)量實(shí)在太拉垮

不調用用戶(hù)數據訓練AI模型，可行嗎？

其實(shí)，合法抓取公開(kāi)網(wǎng)頁(yè)數據，也是AI大廠(chǎng)的訓練數據集傳統來(lái)源之一，但這條路也面臨諸多局限。

一來(lái)，各種AI廠(chǎng)商抓取公開(kāi)網(wǎng)頁(yè)的爬蟲(chóng)程序，已經(jīng)遭到了公開(kāi)抵制了。

服務(wù)器稍弱的網(wǎng)站，不管是美國網(wǎng)站“互聯(lián)網(wǎng)檔案館”，還是烏克蘭網(wǎng)站Triplegangers，都因為自己的專(zhuān)有數據：前者擁有世界最全公開(kāi)網(wǎng)頁(yè)快照、后者手握著(zhù)世界最大人體3D模型圖庫，一度被密集的AI廠(chǎng)商爬蟲(chóng)搞到短暫崩潰關(guān)站。

二來(lái)，爬蟲(chóng)雖高效，但公開(kāi)網(wǎng)絡(luò )的中英文數據質(zhì)量并沒(méi)有保證。

8月中旬，來(lái)自螞蟻、清華大學(xué)、南洋理工大學(xué)的聯(lián)合研究發(fā)現，GPT中文訓練數據集超23%詞元被各種非法廣告污染，GPT-4o對日本成人片女星漢字姓名的熟悉程度是“你好”這種中文通行問(wèn)候語(yǔ)的2.6倍。

出現這種現象的原因，很可能是由于OpenAI只能爬取公開(kāi)網(wǎng)絡(luò )中的中文語(yǔ)料。而復制海量正常網(wǎng)頁(yè)內容后被插入的成人和賭博廣告，應該是非法中文網(wǎng)站為了謀利所為。這些低質(zhì)數據如果清洗不到位，就會(huì )影響模型訓練的最終成果。

研究論文中的GPT中文詞元污染示例

此研究中的一個(gè)細節引人注目：中國國產(chǎn)大模型的中文語(yǔ)料污染程度，顯著(zhù)低于海外大廠(chǎng)的AI大模型產(chǎn)品。研究測試中GPT-4o系列的中文詞元被污染數是773。而千問(wèn)系列的同類(lèi)結果是48、智譜的GLM4是19、Deepseek是17、面壁智能的MiniCPM是6。

研究論文中的各大模型中文詞元被污染比例統計

用前谷歌研究總監彼得·諾維格十多年前的話(huà)來(lái)說(shuō)，這就是“我們不一定有更好的算法，我們只是有更好的數據”。中國大廠(chǎng)的模型不一定算法遙遙領(lǐng)先，但中國大廠(chǎng)訓練AI的中文語(yǔ)料數據來(lái)源和數據清洗成本都更占優(yōu)。

四、只有真人數據才能訓練出可用AI

AI廠(chǎng)商似乎在降低用戶(hù)隱私保護標準，但其實(shí)這也情有可原。由真實(shí)人類(lèi)創(chuàng )造的各種數據，是所有AI模型不可或缺的優(yōu)質(zhì)“食糧”。

2023年6月中旬，多家高校的AI研究者聯(lián)合發(fā)布論文《遞歸之詛咒：用生成數據訓練會(huì )使模型遺忘》，提出了用AI合成數據來(lái)訓練AI會(huì )導致“模型崩潰”的概念。

這種現象的原理在于，現在的AI大模型正如AI泰斗“楊立昆”（Yann LeCun）成天譏嘲的那樣，本質(zhì)是“金剛鸚鵡”、“知其然不知其所以然”的模仿機器。

用AI合成數據來(lái)訓練下游AI，AI會(huì )越學(xué)越錯，并且執迷不悟。就像人教鸚鵡學(xué)舌，鸚鵡能學(xué)會(huì )模擬“恭喜發(fā)財”的音調。然而讓學(xué)成的鸚鵡教另外的鸚鵡復讀“恭喜發(fā)財”、再讓鸚鵡徒弟教鸚鵡徒孫復讀，迭代幾次就只會(huì )收獲完全糾正不了的鳥(niǎo)鳴噪音。

2024年7月《自然》雜志的封面論文按此機制印證了之前研究者的成果，源頭模型生成的文本逐代出錯，使用上代AI生成數據訓練的次代模型逐步喪失對真實(shí)數據分布的認識，輸出也越來(lái)越不知所云。如果每代新的模型都用上代模型生成的數據訓練，9次迭代后就能讓最終模型完全崩潰，生成結果全是亂碼。

《自然》雜志當時(shí)的“AI吐垃圾”封面

2024年10月Meta公司的研究則發(fā)現，即使合成數據只占總訓練數據集的最小部分，甚至只有1%，仍有可能導致模型崩潰。

在研究者之一羅斯·安德森（Ross Anderson）的博客中，有評論稱(chēng)他們發(fā)現了生物學(xué)中的近親繁殖退化在A(yíng)I界的復刻。羅斯·安德森自己也說(shuō)：“真實(shí)人類(lèi)創(chuàng )造的數據如同潔凈的空氣與飲水，是日后生成式AI必須依賴(lài)的維生補給?！?/p>

真人數據如此重要，AI大廠(chǎng)不得不用。所以，用戶(hù)為了使用更聰明更好用的AI大模型，可能也不得不適當讓渡一些隱私權限了。

亚洲欲色在线观看,一区二区三区在线视频免费观看,国产中文字幕剧情av,99视频精品全部在线播放,亚洲综合小说久久另类区

七年后，才發(fā)現誤會(huì )了老實(shí)人李彥宏

財經(jīng)故事薈

七年后，才發(fā)現誤會(huì )了老實(shí)人李彥宏