網頁

2025-01-30

關於DeepSeek與出口管制 Dario Amodei 廖奕安翻譯@割蘿蔔外電譯站 20250130

【雙魚之論】英文拷到 G / D 找中文翻譯
Curiosity about technology and the development of technology are inherent aspects of human nature and, in themselves, are not problematic.
The real issue lies in the values of the people involved—if such individuals pledge loyalty to an authoritarian and dictatorial government, one that has committed human rights violations and demonstrated a highly aggressive stance on the international stage, then it s time for us to abandon naivety and strive to eliminate their influence. This is because such forces (namely the Chinese Communist Party and others) are inherent to destroy us and our civilization.

對科技好奇與發展科技一事,那是人的本質,本身並沒問題。
問題是人與人的價值—假使「這樣的人效忠的是一個威權獨裁政府。該政府曾經犯下違反人權的行為,並在國際舞台上展現出非常侵略性的姿態」,那就是我們必須放棄天真,努力禁絕對方的時候。因為,對方(就是中共等)是矢志要消滅我們,與我們的文明。

關於DeepSeek與出口管制    Dario Amodei  廖奕安翻譯@割蘿蔔外電譯站 20250130

關於DeepSeek與出口管制 美國人工智慧公司Anthropic總裁 Dario Amodei 撰文

幾個禮拜前,我就提出美國對中國晶片採取更嚴格出口管制的理由。從那之後,DeepSeek已經在某些方面接近美國先進AI模型的表現,而且成本更低。

我在這裡並不想聚焦在DeepSeek是否對Anthropic等美國AI公司構成威脅(雖然我確實認為很多關於他們威脅美國AI領先地位的說法被過度誇大)。相反的,我想專注討論DeepSeek的發布是否削弱美國針對中國晶片執行出口管制的政策必要性

我的答案是並沒有。

事實上,我認為DeepSeek模型的發佈反而讓美國出口管制政策比一個禮拜前還更加重要

出口管制的關鍵目的,就是要維持民主國家在人工智慧開發領域的領先地位。我要澄清的是,出口管制並不是一種逃避美中競爭的方式。如果我們想要在競爭中勝出,美國跟其他民主國家的AI公司必須擁有比中國更強大的模型。但當不需要的時候,我們也不應該把技術優勢拱手讓給中國共產黨。

三個AI發展動態

在進入政策討論前,我想先說明AI系統的三個基本動態,這對理解整個話題至關重要:

Scaling laws(規模定律)

AI具備一種特性,只要在其他條件相同的情況下,擴大AI系統的訓練規模就能在一系列認知任務上持續獲得更好的表現。我跟我的共同創辦人在早年在OpenAI工作時就曾經率先記錄這種現象。

舉例來說,一個耗資100萬美元的模型也許能解決20%的重要程式設計任務,1000萬美元的模型能解決40%,1億美元的模型能解決60%,以此類推。這些差異在實務上往往有巨大的意義,因此再提高10倍的訓練成本,就可能是從大學生程度的能力躍升到博士程度能力的差距,因此各個公司都在投入大量資金來訓練這些模型

Shifting the curve(曲線位移)

AI這個領域會不斷湧現各種想法,大的也好,小的也好,最終都能提升效能或效率。這可能是對模型架構的改進(例如現在所有模型都在使用的Transformer架構做一些微調),或僅僅是如何在基礎硬體上更有效率運作模型,新的硬體世代也有類似的影響。通常這會「平移」整條曲線:如果某個創新點子讓計算效能提升2 倍,那麼原本要花1000萬美元才能達到40%程式設計任務成功率的模型,現在只需要500萬美元就能達到,原本要花1億美元才能達到60%,現在只需要5000萬美元就能達到,以此類推。

因為擁有更高智慧的系統帶來的價值極高,這種效率提升通常會驅使公司投入更多資金,而不是更少。效能上的提升全部被轉投入到訓練更聰明的模型當中,唯一的限制就是公司的財務資源。人們往往會直覺認為「AI產品剛開始會是很貴,然後就變得便宜」,彷彿AI是一種恆定品質的單一產品,價格越便宜,就越不需要使用晶片訓練。

但這關鍵是「規模曲線」:當曲線被移動後,我們只會沿著曲線走得更遠,因為曲線末端的價值實在太高

我的團隊在2020年發表一篇論文,認為演算法的進步能以每年大約1.68的速率將曲線往右平移。之後這個數字或許已經顯著加快,而且還不包含硬體與推理效率的改善,我現在猜測大約是每年4倍左右的速率

訓練曲線的移位也會帶動推理成本的曲線移位,因此過去幾年在模型品質不變的情況下,價格確實大幅下降。例如Claude 3.5 Sonnet是在GPT-4之後的15個月發布,但它在幾乎所有基準測試上都有更好的表現,同時API單價卻只有GPT-4的大約十分之一。

Shifting the paradigm(範例轉移)

有時候,被縮放(scaling)的參數會稍做改變,或者在訓練過程中加入一種新的縮放方式。從20202023年,主要被不斷擴大的對象是「預訓練模型」:在大量網路文字上進行初步訓練,最後再加一點其他訓練。2024利用強化學習(RL)訓練模型產生思考鏈的想法,成為新的「可擴充」焦點。

AnthropicDeepSeek以及其他公司(也許最值得注意的是在去年9月發布o1-preview模型的OpenAI)都有發現到,這種訓練方式能顯著提升模型在某些可客觀衡量任務(例如數學、程式設計競賽以及類似任務的推理)上的表現。

這種新範例包括先從普通的預訓練模型開始,然後在第二階段使用強化學習(RL)來提高推理能力。因為這種強化學習(RL)還是新的領域,我們還處於規模曲線的初期階段

在所有開發者中,第二階段的訓練花費目前都還很少。從10萬美元升到100萬美元的投資,往往就能帶來龐大的性能收益。現在各家公司正迅速嘗試把第二階段的投入推都數億甚至數十億美元。但各位請記住,我們正處於一個獨特的「交叉點」:一個強大的新範例剛起步走在規模曲線,所以我們可以很快獲得大幅提升。

DeepSeek的模型

上面提到的三個動態能幫助我們理解DeepSeek最近發布的模型。大約一個月前DeepSeek發布一個稱為「DeepSeek-V3」的模型,它是一個純粹的預訓練模型,對應到前面第三點提到的第一階段。然後上禮拜他們發布「DeepSeek-R1」,也就是加了第二階段的模型。雖然我沒辦法從外部得知所有內幕,但以下是我對這兩個發佈模型的最佳理解

DeepSeek-V3其實才是真正的創新,早在一個月前發佈時就值得引起大家的注意(我們團隊確實注意到了)

DeepSeek-V3作為一個預訓練模型,它在某些重要任務上的表現接近美國最先進的模型,但訓練成本卻大幅降低(不過我們發現Claude 3.5 Sonnet在一些其他重要的任務上依然顯著領先,尤其是真實世界的程式設計任務)。DeepSeek團隊透過一些真實且讓人印象深刻的創新達成這點,他們主要集中在工程效率上。例如對「Key-Value快取(Key-Value cache)」的管理,以及推進名為「混合專家模型MoE」方法到前所未有的極限

不過,我們需要更仔細的觀察

DeepSeek並沒有「用600萬美元就做到美國AI公司曾經花數十億美元才完成的事情」。我只能代表Anthropic發言,但以我們為例,Claude 3.5 Sonnet屬於中等規模的模型,訓練成本大約是數千萬美元(我不會透露精準的數字)。此外,Claude 3.5 Sonnet的訓練並沒有採用更大或更昂貴的模型來輔助。

Claude 3.5 Sonnet的訓練是在912個月前完成,而DeepSeek的模型是在去年11~12月才訓練,而且Claude 3.5 Sonnet仍然在很多內部與外部測試中領先。

因此比較合理的說法應該是:「DeepSeek 花比較少的費用(但並沒有外界傳聞得那麼誇張的差距),打造一個跟美國710個月前的模型表現相近的系統。」

如果歷史趨勢顯示成本曲線大約每年能下降4倍,那麼在一般商業進程與20232024年的歷史成本下降趨勢中,如今出現比3.5 Sonnet/GPT-4o更低34倍成本的模型是完全可預期

既然DeepSeek-V3在美國先進模型面前還是稍遜一籌,我假設在規模曲線上差了大約2(我這個說法已經很幫DeepSeek-V3 說話了),那麼如果DeepSeek-V3的成本比一年前開發的美國模型少了8倍,那仍然是合理且「符合趨勢」。

從前一個要點就能看出,即使我們相信DeepSeek所聲稱的訓練成本,他們在趨勢上充其量也只是達到標準,甚至很可能沒有達到標準。

舉例來說,這個訓練成本降幅還不如原先GPT-4Claude 3.5 Sonnet推理價格降低的10倍那麼大,而且Claude 3.5 Sonnet在性能上也優於GPT-4

總體來說,DeepSeek-V3並沒有帶來什麼獨一無二的突破或從根本上改變大型語言模型(LLM)的東西,它只是符合現有成本持續下降的趨勢。而這次比較不同的是,率先達成該預期降幅的公司是中國公司。過去從來沒有出現過類似的情況,因此這具有地緣政治的意義。然而,美國公司也很快就會跟進,美國公司根本不需要抄襲 DeepSeek,因為美國公司也在達成一樣的成本下降趨勢。

DeepSeek和美國AI公司都有比「指標性模型」所使用晶片數量更多的資源。這些額外的晶片都會用於研發,去培育或嘗試新的想法,或是用在訓練更大型但尚未成熟的模型(或嘗試不只一次才成功的模型)

有報導說DeepSeek實際上擁有50000 Hopper架構的晶片,我猜這個數量大概跟美國主要AI公司相差不到23(大概是xAIColossus」集群的1/21/3規模)。這50000Hopper架構晶片價值大約是10億美元左右,因此DeepSeek這家公司在總支出(而非單一模型的訓練成本)上,其實跟美國AI實驗室並沒有差太多

我要強調的是,前面關於「規模曲線」的分析是有些簡化,因為每個模型都有自身的特點與不同的強項或弱點。所以在規模曲線上看到的數字只是一個大概的平均,其中忽略許多細節。我只能針對Anthropic的模型來發言,但如前所述,Claude在程式設計以及與人之間互動時所呈現的溝通風格方面都非常出色。針對這些以及一些的其他任務來說,DeepSeek就完全沒辦法跟我們相比,而這些差異並沒有直接顯示在規模曲線的數字上。

DeepSeek-R1,也就是上禮拜發布、引發各界關注(包括輝達市值下滑大約17)的模型,我從創新或工程的角度來看,它比DeepSeek-V3少了許多的看點,因為它只是加上前天第三點提到的第二階段訓練:強化學習(RL),而且它本質上就是在複製OpenAI o1所做的事情。

不過因為我們正處於規模曲線的初期階段,因此只要能先擁有一個強大的預訓練模型,就可以很容易做出這種第二階段的模型DeepSeek來說,由比DeepSeek-V3進階到DeepSeek-R1可能花不到太多錢。因此,我們正處於一個很有趣的「交叉點」,目前暫時會有很多家公司可以生成不錯的推理模型,但這個現象會隨著各家進一步擴大投資而很快消失。

出口管制

我前面有關DeepSeek的描述只是在鋪陳我真正想要討論的重點:晶片對中國的出口管制。

以下是我的結論:

AI大型模型的訓練投資正持續飆升

雖然科技創新會不斷推動曲線往右移、讓同等智慧水準的模型變得更便宜,但因為訓練更聰明的模型所帶來的商業價值實在太大,各家公司反而會花更多錢,而不是花更少錢。在每一次效率提升後,所有「省下的成本」都會馬上被投入到打造「更聰明的模型」上,維持或增加我們原先計劃要花的大筆資金。

如果美國的實驗室還沒有發現這些技術,那麼DeepSeek開發的效率創新點子很快就會被美國和中國的實驗室應用在訓練價值數十億美元的模型。雖然新模型的效能將優於我們原本計畫訓練的數十億美元等級的模型,但我們還是會投入數十億美元,而這個數字只會持續攀升,直到我們達到能在幾乎所有領域都比所有人更聰明的人工智慧階段。

20262027年左右,可能會達到「比所有人都聰明」的AI這種AI可能需要數百萬顆晶片、數百億美元(至少),而目前這種情況看起來最有可能在20262027年發生DeepSeek最近發布的模型並沒有改變這個時間表,因為它們的表現大致符合長期以來在成本下降曲線上對這樣「大規模AI」之必需成本的估算。

到了20262027年,我們可能面臨下列兩種情況之一:

如果中國也擁有數百萬顆晶片

那麼世界就會是「兩極化」的情況:美國跟中國都能訓練出威力強大的AI模型,進而推動科學和科技的超快速發展。我曾經稱之為「資料中心裡的天才之國」。但兩極化並不一定會長期平衡。即使美中兩國在AI系統上勢均力敵,中國還是可能更積極地把人力、資金與重點資源導向軍事應用,然後結合中國龐大的產業基礎與軍事戰略優勢,他們很有可能在全球舞台上取得主導地位,不僅僅是AI領域,而是各個領域

如果中國沒辦法獲得數百萬顆晶片

那麼世界就會是「單極化」:只有美國及盟友擁有這些高階AI模型。雖然我沒辦法保證這種單極化世界能維持多久,但因為AI系統未來也能協助打造更強大的AI系統,因此暫時的領先可能會被轉化成長期的優勢。在這個世界,美國和盟友或許能在全球舞台上佔據長久的領導地位。

因此只有執行嚴格的晶片出口管制,才能防止中國取得數百萬顆晶片,這也是決定未來世界呈現「單極化」還是「雙極化」的關鍵。

DeepSeek的進展並不代表出口管制失敗

就像我之前說的,DeepSeek擁有非常可觀的晶片數量,所以他們開發並訓練出強大模型其實並不讓人感到意外。跟美國AI公司相比,他們並沒有在資源上受到多麼顯著的限制,而且出口管制也從來不是造成他們必須「自行研發創新」的主因。他們展現高超的工程技術,也證明中國在AI競爭中確實是個值得重視的對手。

DeepSeek無法證明中國能永遠透過走私取得所需要的晶片,或是出口管制本身總是存在漏洞。我並不認為出口管制的初衷是要阻止中國取得幾萬顆晶片。因為10億美元的經濟活動或許能被隱藏,但要隱藏100億甚至1000億美元就非常困難。想一次走私上百萬顆晶片在實際操作上相當不容易。就目前DeepSeek報導所擁有的晶片來看,他們的情況頗具有啟發性。

根據SemiAnalysis的資訊,DeepSeek擁有的晶片大約5萬顆,包含H100H800 以及H20等型號。H100上市以來就馬上被出口管制列為禁運,所以如果DeepSeek真的有H100晶片,那一定是靠走私來取得(要注意的是,nVIDIA DeepSeek的技術進展「完全符合出口管制」)。

H8002022美國商務部第一輪出口管制時仍被允許出口,但在202310更新出口管制標準後才被納入禁運範圍,所以這些晶片很可能是在禁令實施之前就已經送達中國。H20在訓練效能比較低、但在採樣(sampling)方面的效率較高目前還是被允許出口,雖然我認為它也應該被管制出口。

綜合來看,DeepSeek擁有的AI晶片主要由三部份組成:目前還沒被禁運(但其實應該禁運)的晶片、在禁令生效前運送的晶片,以及顯然很可能經由走私管道取得的晶片。

這說明出口管制其實正在運作並持續調整:漏洞正在被堵住。否則中國或許早就已經取得全數最頂尖的H100晶片。如果我們能更迅速封堵這些漏洞,就有可能阻止中國取得數百萬顆晶片,進而提高美國領先、讓世界走向單極化的可能性。

鑒於我對出口管制與美國國家安全的關注,我想先釐清一件事:我並不認為DeepSeek是我們的對手,我也不是要特別針對他們。從他們的訪談中看來,他們只是想打造有用科技的一群聰明、好奇的研究人士

然而,他們所效忠的是一個威權獨裁政府該政府曾經犯下違反人權的行為,並在國際舞台上展現出非常侵略性的姿態,如果他們能在AI領域跟美國並駕齊驅,勢必會更無所顧忌擴大這些行動。

出口管制就是我們防止這種情況的重要工具之一,而其他人所說:「技術越強、性價比越高,我們就更應該解除出口管制」的這種想法根本就是毫無道理可言。

 

 

 

 

 

沒有留言:

張貼留言

請網友務必留下一致且可辨識的稱謂
顧及閱讀舒適性,段與段間請空一行