DeepSeek,做AI競爭的破局者
摘要:不大力也能出奇跡。
?
來(lái)源 | 伯虎財經(jīng)(bohuFN)?
作者 | 森系?
中美大模型的差距在1-2年。起碼在今年春節之前,這還是一個(gè)獲得普遍認同的觀(guān)點(diǎn)。
直到中國科技公司深度求索發(fā)布了推理模型DeepSeek-R1,用不到GPT二十分之一的成本,獲得了和OpenAI的頂尖推理模型o1相當的能力。
DeepSeek的影響很快擴散到大洋彼岸。
1月27日,美國科技股遭遇“黑色風(fēng)暴”,費城半導體指數(SOX)狂瀉9.2%,創(chuàng )下2020年3月以來(lái)的最大單日跌幅。英偉達股價(jià)重挫近17%,市值一夜之間蒸發(fā)近6000億美元,創(chuàng )下美股歷史上最大的單日市值縮水規模。博通、臺積電、ASML、Google和微軟等科技巨頭也未能幸免,股價(jià)分別下跌17.4%、13%、7%、4%和2.14% 。
與此同時(shí),歐洲科技股市場(chǎng)同樣哀鴻遍野,各類(lèi)科技股慘遭拋售。
引發(fā)全球資本市場(chǎng)“強烈地震”的幕后主角——DeepSeek,不是任何發(fā)力大模型的大廠(chǎng),或者創(chuàng )業(yè)明星,而是一家此前名聲不顯的小型科技初創(chuàng )公司。它由幻方量化創(chuàng )始人梁文鋒一手創(chuàng )辦,成立僅一年多。
最能喚醒讀者記憶的,可能是去年8月,DeepSeek率先宣布其API價(jià)格大幅下調,輸入費用調整為0.1元/百萬(wàn)tokens,輸出費用為2元/百萬(wàn)tokens,隨后各家大廠(chǎng)紛紛跟進(jìn)。大模型價(jià)格戰也就此打響。
實(shí)際上,DeepSeek的創(chuàng )始人梁文鋒或許是最早把目光投向AI的那批人。不僅僅是他創(chuàng )立了量化基金,更有意思的例證是,在算力緊缺的2023年,國內只有五家公司擁有萬(wàn)塊規模的顯卡,前四位是阿里巴巴、騰訊、百度和字節跳動(dòng),剩下的那個(gè)就是幻方量化。
開(kāi)源、創(chuàng )新、成本。在硅谷,DeepSeek被稱(chēng)作“來(lái)自東方的神秘力量”。他們一面跟隨,推出類(lèi)似的推理模型,一面攻擊,要求對其進(jìn)行封殺甚至算力封鎖。
1月28日,DeepSeek曾連續發(fā)布兩條公告稱(chēng),DeepSeek線(xiàn)上服務(wù)受到大規模惡意攻擊。
客觀(guān)來(lái)講,從產(chǎn)品實(shí)際表現來(lái)看,DeepSeek目前只是躋身行業(yè)第一梯隊,尚未實(shí)現對市面上現有產(chǎn)品的全面超越,也并非在技術(shù)底層實(shí)現了范式創(chuàng )新。
但DeepSeek確實(shí)為全球AI行業(yè)的長(cháng)期發(fā)展探索出了新的模式,也讓長(cháng)期被硅谷霸占話(huà)語(yǔ)權的AI行業(yè)出現了一些不一樣的聲音。正如AI領(lǐng)域泰斗吳恩達所言:“DeepSeek的創(chuàng )新表明,中美在生成式AI領(lǐng)域的差距正在迅速縮小,在某些領(lǐng)域中國已現領(lǐng)先跡象?!?/p>
?01 DeepSeek,破了誰(shuí)的金身?
去年12月,36氪旗下的暗涌賬號采訪(fǎng)了DeepSeek。采訪(fǎng)中提到了去年8月由DeepSeek發(fā)起的價(jià)格戰,原因指向了一個(gè)事實(shí)——與很多大廠(chǎng)燒錢(qián)補貼不同,DeepSeek是有利潤的。
早在去年5月,DeepSeek發(fā)布的DeepSeekV2模型,就展現了他們非凡的效率:推理成本被降到每百萬(wàn)token僅1塊錢(qián),約等于Llama370B的七分之一,GPT-4Turbo的七十分之一。
并且相較于OpenAI公司來(lái)自全球頂尖學(xué)府幾千人的大公司人力成本,DeepSeek公司只有寥寥幾百人,也沒(méi)有全球前50的人才密度,聚集的是國內一眾大學(xué)相關(guān)學(xué)科的博碩精英人才。
更加難能可貴的是,DeepSeek-V3在訓練時(shí)使用的GPU是英偉達的H800,一款在性能上被閹割的特供AI芯片。相比之下,GPT-4o使用的是上萬(wàn)塊英偉達H100芯片(性能優(yōu)于H800)。
這和我們過(guò)去的認知是不同的。
英偉達及美股大跌的原因直指DeepSeek,原因在于DeepSeek的成功打破了AI大模型領(lǐng)域“拼投入”的慣常邏輯。AI大模型只有砸錢(qián)、砸算力才能做出來(lái)的觀(guān)念在行業(yè)中深入人心。
2023年,OpenAI的CEO奧特曼(SamAltman)曾經(jīng)訪(fǎng)問(wèn)印度,他對印度團隊能否憑借僅 1000 萬(wàn)美元的預算,在A(yíng)I領(lǐng)域構建出具有實(shí)質(zhì)性成果的模型表示懷疑。
在他看來(lái),如果沒(méi)有上億美元的訓練成本,是煉不出好的大模型的。畢竟作為AI行業(yè)的領(lǐng)軍企業(yè)OpenAI至今都尚未實(shí)現盈利,很大一部分原因在于尖端AI模型的訓練耗資驚人,運行成本也十分高昂。據測算,僅維持ChatGPT的運營(yíng),每天成本就高達70萬(wàn)美元。奧特曼則表示,未來(lái)的AI模型成本預計將超過(guò)10億美元。
高昂的成本也讓后來(lái)者紛紛以OpenAI為標桿加大投入。馬斯克旗下的xAI,其超級計算數據中心裝配了10萬(wàn)顆英偉達H100 GPU芯片,成為全球最強大的AI訓練集群之一。特朗普上臺后,宣布投資5000億美元啟動(dòng)“星際之門(mén)”項目,試圖憑借巨額資金與強大算力,鞏固美國在A(yíng)I領(lǐng)域的霸權地位。
其他科技巨頭們也在積極布局。過(guò)去一年,微軟和谷歌的資本支出均超過(guò) 500 億美元,其中大部分資金用于A(yíng)I相關(guān)的基礎設施建設,并且計劃在2025財年將這一投入提升至700 - 800億美元。國內方面,根據浙商證券的分析,2024年字節跳動(dòng)的資本開(kāi)支約為800億元,預計2025年將達到1600億元,其中約900億元將用于A(yíng)I算力的采購,700億元用于 IDC 基建以及網(wǎng)絡(luò )設備。
DeepSeek并非是擁有什么降本魔法,而是摸索出了一條不一樣的道路。DeepSeek的研究員提出了一種新的MLA(一種新的多頭潛在注意力機制)架構,與 DeepSeek MoESparse (混合專(zhuān)家結構)結合,這種架構的優(yōu)勢是顯存占用僅為常用MHA架構的5%-13%。
與此同時(shí),和行業(yè)慣常的用數萬(wàn)億token(文本單位)訓練模型不同,而是選擇通過(guò)“數據蒸餾”,降低了數據計算程度,從而實(shí)現降本。
正因為如此,DeepSeek也有了“AI屆的拼多多”之稱(chēng),盡管這種表述可能并不完全準確,但也基本表達了DeepSeek對當前主流AI的沖擊。通過(guò)這一低成本模式使得DeepSeek能夠更快速地推出新產(chǎn)品和服務(wù),并極大地降低了其市場(chǎng)進(jìn)入門(mén)檻,可以吸引了更多企業(yè)和機構參與到AI研發(fā)中來(lái)。
02 開(kāi)源會(huì )是更好的選擇?
當然,DeepSeek對AI的沖擊還不止于此。
作為一家中國公司,DeepSeek表現出了前所未有的自信,對產(chǎn)品實(shí)施開(kāi)源策略,也就是公開(kāi)模型的代碼和架構等等,允許公眾查看、使用和修改。這就意味著(zhù),很多中小企業(yè)可以直接使用其模型,極大降低了很多企業(yè)的研發(fā)成本。
相比之下,OpenAI和谷歌等旗下的AI產(chǎn)品都是閉源,DeepSeek的開(kāi)源和低價(jià)策略,對于國際上那些依靠高收費的主流AI工具,也將帶來(lái)巨大沖擊。
DeepSeek并不是個(gè)例,在開(kāi)源浪潮席卷全球的時(shí)代,Meta的LLaMA、阿里的通義千問(wèn),都在試圖證明“開(kāi)放才能贏(yíng)未來(lái)”。甚至就連馬斯克也是開(kāi)源技術(shù)的支持者,此前曾批評OpenAI走向閉源,稱(chēng)其為“CloseAI”,并指責其違背了最初的開(kāi)源初衷而奧特曼則是埋頭向前,繼續閉源。這個(gè)爭議還不僅是打口水仗,還曾對薄公庭。
但盡管如此,依然也有不少業(yè)內人士對此嗤之以鼻。
去年,有行業(yè)人士表示:閉源大模型,才是AI商業(yè)化的最優(yōu)解。
究其原因,開(kāi)源模型仍有致命傷:“所謂模型開(kāi)源,往往只提供了模型的大量參數。但想要有效應用這些模型,還需要進(jìn)行很多后續工作?!奔幢愎紖?,開(kāi)發(fā)者仍難窺見(jiàn)參數的生成過(guò)程和數據源等核心“配方”。這種半透明狀態(tài),導致二次開(kāi)發(fā)如同盲人摸象。
“由于不了解這些參數的生成過(guò)程和數據源,難以直接實(shí)現‘眾人拾柴火焰高’的協(xié)同效應。即使獲取了模型源代碼,也可能不清楚訓練這些參數所使用的具體數量和比例。因此,拿到這些開(kāi)源資料,并不足以讓人直接站在巨人的肩膀上輕松進(jìn)行迭代與開(kāi)發(fā)。
這也是為什么OpenAI能夠通過(guò)閉源在一定時(shí)間內保持了技術(shù)的領(lǐng)先性和獨特性,構建了自己的商業(yè)生態(tài)的原因之一。
另外,在醫療、金融等高敏感領(lǐng)域,閉源優(yōu)勢還可以在保護技術(shù)和商業(yè)利益方面有其獨特作用,能保障知識產(chǎn)權安全,防止技術(shù)濫用。
但不可否認的是,DeepSeek的確迎來(lái)了填補生態(tài)位的絕佳機會(huì )。
在和暗涌的采訪(fǎng)里,梁文鋒就表示,長(cháng)遠來(lái)說(shuō),我們希望形成一種生態(tài),就是業(yè)界直接使用我們的技術(shù)和產(chǎn)出,我們只負責基礎模型和前沿的創(chuàng )新,然后其它公司在DeepSeek的基礎上構建toB、toC的業(yè)務(wù)。
用戶(hù)無(wú)需付費即可享受強大AI推理能力,推動(dòng)AI技術(shù)普及,讓普通用戶(hù)在日常工作生活中體驗前沿科技的便利。在開(kāi)源生態(tài)上,它已吸引大量開(kāi)發(fā)者,形成了蓬勃發(fā)展的社區。隨著(zhù)越來(lái)越多的開(kāi)發(fā)者和企業(yè)認可開(kāi)源模式,DeepSeek有望進(jìn)一步擴大其影響力,重塑AI產(chǎn)業(yè)格局。
03 一場(chǎng)DeepSeek風(fēng)暴,揭開(kāi)中美AI敘事重心的搖擺
實(shí)際上,在全球矚目的目光聚焦于DeepSeek出圈的背后,從技術(shù)領(lǐng)域、產(chǎn)業(yè)范疇到資本市場(chǎng),DeepSeek都以非凡之勢打破了人們對AI發(fā)展的固有認知,掀起了一場(chǎng)前所未有的技術(shù)變革浪潮,在某種程度上預示著(zhù)算力軍備競賽的終結。
長(cháng)期以來(lái),AI行業(yè)形成了一種依賴(lài)大規模算力與巨額資金投入的研發(fā)模式。以OpenAI等公司為例,它們在模型訓練上動(dòng)輒投入數億美元,大規模采購英偉達最頂尖的GPU芯片,致力于構建龐大的數據中心。英偉達憑借早期賣(mài)顯卡的業(yè)務(wù)基礎,順勢踏上AI算力的發(fā)展大潮,締造了算力芯片領(lǐng)域的商業(yè)神話(huà)。一時(shí)間,谷歌、OpenAI、蘋(píng)果等各路科技巨頭紛紛排隊向英偉達輸送資金,使其在A(yíng)I算力市場(chǎng)占據了主導地位。
然而,DeepSeek卻以顛覆性的創(chuàng )新打破了這一格局。它僅使用2000塊芯片,投入不到600萬(wàn)美元,就實(shí)現了與行業(yè)巨頭相媲美的性能。這一成果引發(fā)了行業(yè)的深刻反思:“如果DeepSeek的創(chuàng )新是真實(shí)有效的,那AI公司真的還需要如此大量的顯卡嗎?”當英偉達還在為每秒200TB的顯存帶寬而自鳴得意時(shí),DeepSeek用一行開(kāi)源代碼有力地證明了:真正的人工智能不應被算力所束縛。
根據全球半導體觀(guān)察的不完全統計,目前已有包括英偉達、AMD、微軟、亞馬遜云科技、英特爾等國外巨頭,沐曦、天數智芯、摩爾線(xiàn)程、海光信息等國內GPU企業(yè),華為云、騰訊云、天翼云、阿里云、百度智能云、火山引擎等云計算大廠(chǎng),以及無(wú)問(wèn)芯穹、壁仞科技、硅基流動(dòng)、PPIO派歐云、云軸科技等共計20家企業(yè)宣布適配及上架DeepSeek模型服務(wù)。隨著(zhù)多家國內外知名云平臺和科技企業(yè)相繼上線(xiàn)DeepSeek大模型,AI市場(chǎng)迎來(lái)了新一輪的變革浪潮。
從另一方面看,英偉達股價(jià)的大幅下跌恰恰而言折射出的是在經(jīng)受DeepSeek風(fēng)暴沖擊下其AI芯片霸權的逐漸被終結。正如塔勒布現任對沖基金Universa Investments的顧問(wèn)的警告,當英偉達把一切都建立在人們會(huì )使用你的芯片的希望之上,希望需求持續增加,同時(shí)假設不會(huì )出現軟件上的革命性改進(jìn)或其他創(chuàng )新方法。而現在,這些假設受到挑戰,未來(lái)或將出現數倍于當前跌幅的回調。
值得關(guān)注的是,DeepSeek帶來(lái)的這種技術(shù)路徑的轉變,不僅是對美國科技霸權的有力回擊,也讓全球開(kāi)發(fā)者重新認識到中國AI的巨大潛力。在美國不斷通過(guò)各種限令限制中國AI和芯片發(fā)展的背景下,這場(chǎng)由中國團隊發(fā)起的“效率革命”,或許將重現電動(dòng)車(chē)顛覆燃油車(chē)的精彩歷程——以更低的成本、更開(kāi)放的生態(tài),讓AI從“美國巨頭的專(zhuān)屬玩具”轉變?yōu)椤叭衿栈莸膶?shí)用工具”。
正如DeepSeek技術(shù)白皮書(shū)扉頁(yè)所寫(xiě):“我們并非在追趕GPT,而是在證明:通向AGI的道路,絕不止硅谷這一種走法?!睆漠a(chǎn)業(yè)發(fā)展的角度來(lái)看,隨著(zhù)DeepSeek不斷發(fā)展壯大,未來(lái)將逐步采用更多國產(chǎn)芯片,有效降低產(chǎn)業(yè)鏈風(fēng)險。在DeepSeek的引領(lǐng)下,國產(chǎn)芯片有望逐步從中低端邁向高端,最終擺脫對美國芯片的依賴(lài),在全球AI產(chǎn)業(yè)中占據更為重要的地位。
文章封面首圖及配圖,版權歸版權所有人所有。若版權者認為其作品不宜供大家瀏覽或不應無(wú)償使用,請及時(shí)聯(lián)系我們,本平臺將立即更正。?