地緣政治,  技術與文明

deepseek突破了嗎?也許中國跑錯了賽道

點擊分享,讓思想延續。👇🏼

今年初,美國政府曾對中國AI晶片出口實施更嚴格限制,導致NVIDIA損失數十億美元。然而,最近NVIDIA執行長黃仁勳宣布,美國政府已批准恢復向中國出口H20 AI晶片。這一政策逆轉,被解讀為美國在貿易談判中的策略性讓步。

表面上看,這似乎只是中美貿易戰的常規攻防,但實質上,這是一場針對中國AI產業鏈的精密遏制:防止其構建自主算力體系,從而掌握完整的AI產業主導權。

美國科技巨頭:早已開始的去NVIDIA化進程

在大多數人還將NVIDIA視為AI算力唯一選擇時,美國科技巨頭早已在自研架構上深耕多年:

Google TPU生態系統

從2016年TPUv1開始,Google就在內部大規模使用自研晶片。TPUv4相比同期GPU,在BERT訓練上實現了2.7倍的能效優勢。Gemini、PaLM、Bard等所有重要模型都完全跳脫了NVIDIA依賴。更重要的是,Google通過Cloud TPU已經將這種優勢商業化,為客戶提供比GPU更便宜的訓練服務。

Amazon的商業化突破

Trainium和Inferentia晶片已經在AWS大規模商用,早已跳脫實驗品階段。Amazon聲稱訓練成本比同類GPU實例降低50%,推理成本降低70%。這些數字反映了真實的商業競爭優勢,絕非技術演示。

Apple的統一記憶體革命

M系列晶片通過統一記憶體架構,徹底解決了傳統GPU架構中資料搬移的巨大功耗問題。在本地AI推理上,M3 Max的能效表現已經超越任何桌面級GPU。

這些都是正在發生的現實,絕非未來規劃。當中國企業還在爭搶H100配額時,美國科技巨頭已經在使用更先進、更節能的自研方案訓練模型。

H20出口的真正戰略目的:遲滯技術路徑轉移

在這樣的背景下,美國對H20的出口策略就顯得格外精明。這種做法體現了策略性技術鎖定,絕非表面的技術讓步:

維持CUDA依賴

H20雖然性能被限制,但仍保有完整CUDA生態支援。只要中國開發者繼續習慣於CUDA編程框架,就很難真正轉向華為Ascend、寒武紀、燧原等本土架構。CUDA、cuDNN、NCCL這些閉源工具將繼續壟斷整個深度學習底層工具鏈。

削弱轉型動機

當H20能「夠用」地支撐主流模型訓練時,企業對投資自研晶片和開源訓練棧的迫切感就會降低。為什麼要承擔技術風險去開發新架構,當現有方案已經「足夠好」?

延緩技術積累

每一天停留在NVIDIA生態內,就是少一天在自主架構上的技術積累。而技術積累的差距,往往需要數年才能彌補。

簡言之,H20的出口體現了精準的技術路徑綁定,絕非善意的技術讓渡。它讓中國繼續「舒適地依賴」現有技術生態,從而錯過追趕後GPU時代的關鍵窗口期。

DeepSeek現象:井底之蛙的歡呼

2025年1月,DeepSeek R1的發布確實引起了轟動。這個使用H800而非H100訓練的模型,達到了與OpenAI o1相當的性能水準。中文科技圈為此歡呼:「突破了美國卡脖子」

然而,這種歡呼恰恰暴露了視野的局限性:

技術突破的錯覺

DeepSeek的成功被視為「創新突破」,實際上只能證明中國在效率優化上的後知後覺。當大家還在為「用便宜GPU做出好模型」而興奮時,Google早已用TPU訓練出更先進的Gemini,Amazon為客戶提供比GPU更便宜的Trainium服務。

競賽維度的誤判

DeepSeek的成功讓許多人以為「中國已經躋身第一梯隊」,但真正的競賽早已轉向誰能構建完全脫離NVIDIA依賴的自主算力體系,超脫了GPU效率優化這一層次。

戰略高度的差距

當中國企業慶祝「省GPU錢」時,美國科技巨頭關注的是如何在後GPU時代建立新的技術壟斷。這就像在智慧手機時代還在慶祝做出了更好的功能手機。

DeepSeek的成功更像是技術路徑滯後的警鐘,決不是中國AI勝利的象徵。它暴露了一個殘酷的現實:中國AI產業仍然停留在「如何更好地優化現有架構」的階段,距離「如何創新架構」的階段還有很長距離。

GPU架構的根本缺陷與能效革命

為什麼美國科技巨頭如此急於擺脫GPU?因為當AI訓練規模達到萬億參數時,GPU架構的缺陷已經無法忽視:

設計初衷的錯配

NVIDIA GPU原本為圖形渲染設計,其「通用性」在AI訓練中造成巨大浪費。記憶體頻寬瓶頸導致大量晶體管空轉耗電,多GPU通訊開銷占總功耗30-40%,全精度計算在低精度已足夠時仍然進行,造成能耗翻倍。

成本結構的顛覆

一個頂級GPU集群的年度電力成本往往是硬體成本的2-3倍。當訓練一個大型模型需要數千萬美元電費時,GPU實際能效利用率卻只有不到30%。這意味著70%以上的電力消耗完全是浪費。

專用晶片的能效優勢

針對性的資料流設計、低精度運算優化、片上記憶體最大化、專用通訊架構,這些讓TPU、Trainium等專用晶片實現了3-5倍的能效提升。在數千萬美元的訓練項目中,能效提升20%就意味著節省數百萬美元。

這體現了架構邏輯的代際差距,遠超技術細節的差異。繼續在GPU架構內優化,就像在馬車時代結束之前追求更好的馬,完全錯失汽車的發明窗口。

後GPU時代的競爭新格局

真正的競賽已經開始,但中國大部分玩家甚至還沒意識到賽道已經切換:

美國:生態重構

  • OpenXLA、MLIR讓開發者快速從CUDA遷移到其他架構
  • 各大雲服務商提供比GPU更便宜的專用晶片服務
  • 從軟體抽象到硬體設計的完整自主生態已經成型

歐洲:差異化路徑

  • GraphCore的IPU專攻圖神經網絡訓練
  • SambaNova的資料流架構針對稀疏模型優化
  • 在特定領域實現對GPU的技術超越

中國:依賴路徑鎖定

  • 絕大部分企業仍深度依賴CUDA生態
  • 本土晶片廠商缺乏完整軟體棧支持
  • 開發者習慣和工具鏈遷移成本巨大

最致命的是,H20的「恰到好處」正在強化這種路徑依賴。當開發者發現H20已經「夠用」時,轉向自研架構的動機就會進一步減弱。

真正的競賽剛剛開始

NVIDIA的股價在DeepSeek R1發布後三個月內下跌約30%,這反映了對未來趨勢的理性預期,並非市場的過度反應。投資者開始認識到,純粹的硬體優勢可能無法維持長期壟斷地位。

但真正的威脅來自「完全無需GPU」的新架構,而不是「更高效使用GPU」的技術。當Google可以用TPU以更低成本訓練更先進模型,當Amazon可以為客戶提供比GPU便宜一半的訓練服務時,NVIDIA的護城河正在被悄悄挖掘。

關鍵在於:這場競賽關注的是「誰能定義下一代計算架構」,而不是「誰有更多更強的硬體」。

中國AI產業需要清醒地認識到:DeepSeek的成功更像是落後的警鐘,絕非勝利的號角。當中國AI產業還在為GPU使用效率突破而歡呼時,真正的競爭者已經在構建後GPU時代的算力秩序。

算力格局不會一夕改變,新的秩序正在美國科技巨頭的資料中心裡悄然成型。中國能否在這場真正的競賽中避免被邊緣化,將取決於它能否盡快跳出GPU思維的舒適圈,投入自主架構的艱難突圍。

也許,在井底之蛙的歡呼聲中,新世界的大門正在悄悄關閉。

About The Author