網頁

2025-02-23

預訓練、後訓練 都需要晶片

【雙魚之論】英文拷到 G / D 找中文翻譯
關鍵在於「AI大餅」是持續擴大,所以硬體(晶片軍火),永遠有需求。

前所黃仁勳談DeepSeek 稱投資人「誤判了」    鉅亨網 20250222

輝達 (Nvidia)(NVDA-US) 執行長黃仁勳在周四 (21 ) 接受《DDN》採訪時,談到了市場關注的焦點——DeepSeek。黃仁勳表示,DeepSeek 及其開源推理模型所帶來的能量「令人無比興奮」,但投資人「判斷錯誤」,誤以為這對輝達及人工智慧 (AI) 產業是不利的。

輝達股價在 1 27 日,即 DeepSeek 掀起市場動盪的那個周一大跌 17%,但此後已收復大部分跌幅。

黃仁勳解釋道,投資人所考慮的框架與現實不同。他表示,從投資人的角度而言,有一心智模型 (mental model) 認為 AI 世界是「預訓練」然後是「推理」,但事實並非如此。「我不知道這是誰的錯,但顯然這種思維方式是錯的。」

他進一步說明正確的思維方式,指出「預訓練...... 是因為我們想要奠定基礎...... 以便進行第二部分,即後訓練。」他強調,後訓練將持續發揮重要作用,因為這個階段是「學習解決問題」的過程。

黃仁勳認為市場過度擔心,以為「天啊,預訓練大幅變少了...... 卻忽略了後訓練的運算需求其實非常龐大。」

此外,黃仁勳提到第三擴展定律 (third scaling law),即在回答問題之前,推理得越多,效果就越好。他強調,「推理本身是一個運算密集的過程。」

整體而言,黃仁勳指出,股市對 DeepSeek R1 的反應是「我的天啊,AI 完了」,但實際情況「恰恰相反」。

 

黃仁勳談DeepSeek 稱投資人「誤判了」    聯合 20250221

美國人工智慧(AI)晶片龍頭輝達NVIDIA)執行長黃仁勳回應中國大陸DeepSeek引發輝達股價賣壓一事,表示投資人弄錯了DeepSeek進步的訊息,正確的訊息應該是AI的後訓練(post-training)階段才是關鍵,將帶動對輝達晶片的需求不減反增。

DeepSeek1月發表「R1」大型語言模型(LLM),以較低的成本獲得高效能,引發美國科技巨擘的AI投資前景憂慮,拖累輝達股價在1月挫跌。輝達的股價則已幾乎收復在那之後的失土。

黃仁勳20日在合作夥伴DDN預錄的訪談影片表示,輝達股價對DeepSeek的劇烈反應,源於投資人對DeepSeek進步的解讀錯誤。

他說,AI產業仍需要運算能力進行AI模型的後期訓練,隨著後期訓練的方法不斷增加、漸趨多元,對輝達晶片所供應運算能力的需求也將成長。後期訓練讓AI模型能在完成訓練後,做出結論或進行預測。

黃仁勳說,「從投資人的角度來看,過去都有一種心智模型,認為世界是先預訓練(pre-training),接著再(進入)推論(階段),而(投資人認知的)推論是:你問了AI一個問題,就能立刻獲得答案」,「我不知道這是誰的錯,但很顯然,這個心智圖是不對的」。

他說,預訓練仍然很重要,但後期訓練反而是「最重要的智慧環節,才是(AI)學會解決問題的環節」,後期訓練方法「真的如火如荼」進展,AI模型將持續以新的推理方法進步。他也稱讚DeepSeek的創新提振AI產業的活力,「實在令人無比興奮。R1開源在全球激起的活力令人驚嘆」。

黃仁勳這番談話,或許透露了輝達26日財報說明會在面對DeepSeek的問題時,可能回答的內容。在最近的美股財報季,DeepSeek已成為熱議話題,超微(AMD)執行長蘇姿丰也被問到類似問題,回答表示DeepSeek正在帶動「有利AI採用」創新。

黃仁勳最近幾個月不斷駁斥模型擴展陷入麻煩的憂慮,即便是在DeepSeek聲名大噪之前,1月就有報導指出OpenAI的模型進步正在放慢,引人憂心輝達成長可能放緩。黃仁勳去年11月強調,模型擴展「活得很好」,只是從訓練轉向推論。

 

沒有留言:

張貼留言

請網友務必留下一致且可辨識的稱謂
顧及閱讀舒適性,段與段間請空一行