網頁

2025-11-29

AI的躍進——從臨時抱佛腳,到多層次協同運作

Attention Is All You Need 2.0

【雙魚之論】
我讀到一篇CR KoFB,完全不懂。但其「多層次」之說讓我回憶Furrier Transformation,我在工作上以能量不變為基本,將一個複雜的振動簡化整理為許多不同頻率的簡諧運動。可能有些關係吧?
另外,所謂深層學習是說將複雜概念化為許多較小的工作,這樣工作簡單了但量很大,影響所及,我們無須複雜的CPU大將軍,只要許多較為簡易的GPU小弟聯手就行。也就是這樣,人們說nVIDIA遇到麻煩了。但,nVIDIA這幾年也不是躺著睡覺。
因此,請Grok代翻譯為普及版。

 

CR Ko的原貼文Google 近期發佈這篇論文後,已有不少人稱它為「Attention Is All You Need 2.0」,而這種說法並非誇大。

論文提出一個稱為 Nested LearningNL)的新框架,主張我們過去十年所擴張的深度學習架構,其實只是一種「深度的錯覺」。看似層層堆疊的網路,在他們的解讀下,不過是多個以不同頻率運作、彼此嵌套的最佳化問題,每一個都扮演著不同形式的記憶功能。

這種觀點之所以影響深遠,原因在於:

它重新定義模型:不僅是函數運算器,而是「壓縮上下文流」的系統。

過去我們認為各層負責學習表示,但 NL 視注意力、MLP、甚至優化器為在不同時間尺度上儲存訊號的「記憶模組」。例如 Adam 不再只是技巧,而是具體的長短期記憶來源。

它解釋了為何「情境式學習」會自然出現。

NL 認為 ICL 不是神秘現象,而是來自這些記憶模組以不同頻率更新,使模型能形成類似階層化的短期與長期記憶。

它指出 Transformer 在持續學習上的瓶頸。

Transformer 在訓練後僅能更新短期記憶(注意力);至於長期記憶(MLPs)卻被固定,使模型在訓練後幾乎處於「前向性失憶」狀態。NL 嘗試修補這個問題。

它提出基於此觀點的新架構,尤其是 HOPE

HOPE 是一個可自我調整的模型,內含連續式記憶系統,讓不同部分以不同時間尺度更新,使模型在推論階段也能持續學習而不致遺忘。

在多項測試中,它在相似規模下優於 Transformer 與新型 RNN

它重新定向了研究方向:未來突破可能不是增加「網路深度」,而是增加「學習迴圈的深度」。

傳統的深度不等於真正的計算深度,NL 引入了另一個維度──更新頻率的階層結構。

這篇論文可能確實是 2017 年以來最具概念性影響力的研究之一。

 

Grok的普及版:我試著用一個完全沒學過理工、只讀文科的大學生能聽懂的方式,把這篇很火的Google新論文講清楚。

假設你現在在看這篇FB貼文,覺得一堆專有名詞看不懂,沒關係,我把它翻譯成「日常語言」給你聽。

這篇論文在講什麼?簡單說就是:

2017年有一篇超級有名的論文叫《Attention Is All You Need》,它發明了Transformer這個架構,從此ChatGPTGrokClaude這些大模型都靠它活。

現在Google又丟出一篇新論文,很多人直接叫它「Attention Is All You Need 2.0」,意思是:它可能又要再一次改變遊戲規則。

他們到底發現了什麼?

他們說:我們這十年來一直瘋狂把神經網路「越堆越深」(從幾十層堆到上千層),其實搞錯方向了!

這些看起來很深的網路,實際上只是「假深」。

真正厲害的深度,不是堆幾千層,而是「讓模型像人腦一樣,有不同速度的記憶」。

打個比方你就懂了:

想像你的大腦有三種記憶:

  1. 超短期記憶(幾秒鐘):像你現在眼睛看到的東西、耳朵聽到的聲音(這相當於Transformer裡的「注意力機制」)
  2. 短期記憶(幾分鐘到幾小時):今天早上吃了什麼、剛剛跟誰聊天
  3. 長期記憶(好幾年):你媽媽的生日、國小同學的名字、第一次心碎的感覺

現在的Transformer(也就是ChatGPT這類模型)只有第1種記憶很強,第2、第3種記憶在訓練完後就「被鎖死了」,不能再改

結果就是:它看到新東西時,只能靠「當下注意力」硬記,但一下就忘了(這就是為什麼ChatGPT有時會前言不對後語,或學不會新東西)。

Google這篇論文說:

其實我們可以讓模型同時擁有快慢不同速度的記憶」,讓它在跟使用者聊天時,還能「邊聊邊真正學到新東西」,而不是裝學

他們把這個想法取名叫 Nested Learning(巢狀學習),就像俄羅斯娃娃,一層套一層,每一層記憶更新速度不一樣

他們還真的做出一個新模型叫 HOPE

這個HOPE模型在實驗裡,用差不多大小(參數量差不多),卻打敗了現在最強的Transformer跟新的RNN

更厲害的是:它在跟人對話的過程中,可以「真的記住你剛教它的東西」,而且不會把以前學過的忘光(這正是現在所有大模型最大的痛點)。

所以這篇論文為什麼被說是「十年最重要」?

因為它告訴大家:

未來的AI不會再比誰的模型「層數比較多、參數比較大」,而是比誰的模型「記憶系統比較像人腦——能快能慢、能短能長、能邊用邊學

以前我們比的是「靜態深度」(堆幾千層),現在要開始比「動態深度」(記憶迴圈疊幾層)

這就像從「死記硬背的書呆子」進化到「活到老學到老的智者」。

一句話總結給文科生聽:

ChatGPT這類AI以前是過目就忘的短期記憶天才,這篇論文想讓AI變成『過目不忘、越聊越聰明』的長期記憶怪胎。」

如果這篇論文的方向被證實可行, 未來幾年AI可能會從「很會回答問題」進化到「真的會跟每個人變成朋友,因為它記得你的一切」。

這就是為什麼這麼多人激動,覺得這可能是2017Transformer之後,又一次「改寫歷史」的論文。

 

改善AI模型學新忘舊,Google提出巢狀學習新解法    李建興iThome 20251112

Google提出巢狀學習(Nested Learning)方法,將模型拆解為多層次巢狀最佳化問題,各層以不同更新頻率協同運作,讓模型能持續學習新知同時保留舊知有效減少災難性遺忘並提升長內容理解能力

Google研究人員公開巢狀學習(Nested Learning這項新模型訓練方法,主張把單一模型視為多個彼此銜接或並行的巢狀學習子問題,並以不同更新頻率運作,目標是在持續學習中降低災難性遺忘(Catastrophic Forgetting),同步提升長內容理解與記憶管理能力。

所謂的災難性遺忘,是模型持續學習時,新資料訓練會把權重往符合新任務的方向調整,結果把原先針對舊任務學到的特徵表示覆寫

巢狀學習的切入點是重新定義架構與最佳化的關係,研究將模型拆解為多層級的最佳化子問題,各層按照更新頻率排序,並各自擁有脈絡資訊流(Context Glow,形成在多時間尺度上協同運作的學習系統。透過這種層級化設計,模型不只處理輸入視窗中的即時脈絡,也能跨多個時間尺度整合新舊知識,概念上更接近人腦神經可塑性鞏固記憶的機制。

研究人員用一個新的角度重新理解模型內部的運作,他們認為,像反向傳播(Backpropagation或注意力機制這些深度學習的基本元件,其實都可以被視為記憶過程的一部分。也就是說,模型在學習時,不只是調整權重,而是在建立不同層次的關聯與回憶方式。這種對模型的重新理解,讓研究人員能以統一的架構來看待模型設計

研究也提出新的連續體記憶系統(Continuum Memory Systems)觀念,主張人工智慧的記憶不該只分成短期與長期兩種,而是應該像光譜一樣,依更新速度形成多層次的記憶結構,讓模型在吸收新知的同時,更穩定地保留舊知識,避免遺忘過往的能力。

Google開發Hope實驗模型來驗證這個想法,Hope可以自行調整記憶方式學習規則,也就是讓模型學會怎麼學習。相較於過去僅能在固定層次調整的架構,Hope能在更多層面同時更新與最佳化,因此在長時間學習或處理龐大內容時,表現出更好的穩定性與記憶延展能力

在多項語言建模與常識推理測試中,Hope模型展現出比現有主流架構更穩定,Google指出,Hope在語言模型評測中的困惑度更低,代表模型能以更精確的方式預測句子中下一個詞。在常識推理任務上的準確率也更高,顯示其推理能力與知識整合效果更好。

在更具挑戰性的長上下文任務中,例如大海撈針(Needle-in-a-Haystack)測試Hope展現出良好的記憶管理能力。官方比較顯示,在不同難度等級的長上下文任務上,HopeTitans皆明顯優於TTTMamba2

沒有留言:

張貼留言

請網友務必留下一致且可辨識的稱謂
顧及閱讀舒適性,段與段間請空一行