Attention
Is All You Need 2.0
【雙魚之論】
我讀到一篇CR
Ko的FB,完全不懂。但其「多層次」之說讓我回憶Furrier Transformation,我在工作上以能量不變為基本,將一個複雜的振動簡化整理為許多不同頻率的簡諧運動。可能有些關係吧?
另外,所謂深層學習是說將複雜概念化為許多較小的工作,這樣工作簡單了但量很大,影響所及,我們無須複雜的CPU大將軍,只要許多較為簡易的GPU小弟聯手就行。也就是這樣,人們說nVIDIA遇到麻煩了。但,nVIDIA這幾年也不是躺著睡覺。
因此,請Grok代翻譯為普及版。
CR Ko的原貼文:Google 近期發佈這篇論文後,已有不少人稱它為「Attention Is All You Need 2.0」,而這種說法並非誇大。
論文提出一個稱為 Nested
Learning(NL)的新框架,主張我們過去十年所擴張的深度學習架構,其實只是一種「深度的錯覺」。看似層層堆疊的網路,在他們的解讀下,不過是多個以不同頻率運作、彼此嵌套的最佳化問題,每一個都扮演著不同形式的記憶功能。
這種觀點之所以影響深遠,原因在於:
過去我們認為各層負責學習表示,但 NL 視注意力、MLP、甚至優化器為在不同時間尺度上儲存訊號的「記憶模組」。例如 Adam 不再只是技巧,而是具體的長短期記憶來源。
NL 認為 ICL 不是神秘現象,而是來自這些記憶模組以不同頻率更新,使模型能形成類似階層化的短期與長期記憶。
Transformer 在訓練後僅能更新短期記憶(注意力);至於長期記憶(MLPs)卻被固定,使模型在訓練後幾乎處於「前向性失憶」狀態。NL 嘗試修補這個問題。
HOPE 是一個可自我調整的模型,內含連續式記憶系統,讓不同部分以不同時間尺度更新,使模型在推論階段也能持續學習而不致遺忘。
在多項測試中,它在相似規模下優於 Transformer 與新型 RNN。
傳統的深度不等於真正的計算深度,NL 引入了另一個維度──更新頻率的階層結構。
這篇論文可能確實是 2017 年以來最具概念性影響力的研究之一。
Grok的普及版:我試著用一個完全沒學過理工、只讀文科的大學生能聽懂的方式,把這篇很火的Google新論文講清楚。
假設你現在在看這篇FB貼文,覺得一堆專有名詞看不懂,沒關係,我把它翻譯成「日常語言」給你聽。
這篇論文在講什麼?簡單說就是:
2017年有一篇超級有名的論文叫《Attention Is
All You Need》,它發明了Transformer這個架構,從此ChatGPT、Grok、Claude這些大模型都靠它活。
現在Google又丟出一篇新論文,很多人直接叫它「Attention Is All You Need 2.0」,意思是:它可能又要再一次改變遊戲規則。
他們到底發現了什麼?
他們說:我們這十年來一直瘋狂把神經網路「越堆越深」(從幾十層堆到上千層),其實搞錯方向了!
這些看起來很深的網路,實際上只是「假深」。
真正厲害的深度,不是堆幾千層,而是「讓模型像人腦一樣,有不同速度的記憶」。
打個比方你就懂了:
想像你的大腦有三種記憶:
- 超短期記憶(幾秒鐘):像你現在眼睛看到的東西、耳朵聽到的聲音(這相當於Transformer裡的「注意力機制」)
- 短期記憶(幾分鐘到幾小時):今天早上吃了什麼、剛剛跟誰聊天
- 長期記憶(好幾年):你媽媽的生日、國小同學的名字、第一次心碎的感覺
現在的Transformer(也就是ChatGPT這類模型)只有第1種記憶很強,第2、第3種記憶在訓練完後就「被鎖死了」,不能再改。
結果就是:它看到新東西時,只能靠「當下注意力」硬記,但一下就忘了(這就是為什麼ChatGPT有時會前言不對後語,或學不會新東西)。
Google這篇論文說:
其實我們可以讓模型同時擁有「快慢不同速度的記憶」,讓它在跟使用者聊天時,還能「邊聊邊真正學到新東西」,而不是裝學。
他們把這個想法取名叫 Nested Learning(巢狀學習),就像俄羅斯娃娃,一層套一層,每一層記憶更新速度不一樣。
他們還真的做出一個新模型叫 HOPE
這個HOPE模型在實驗裡,用差不多大小(參數量差不多),卻打敗了現在最強的Transformer跟新的RNN。
更厲害的是:它在跟人對話的過程中,可以「真的記住你剛教它的東西」,而且不會把以前學過的忘光(這正是現在所有大模型最大的痛點)。
所以這篇論文為什麼被說是「十年最重要」?
因為它告訴大家:
未來的AI不會再比誰的模型「層數比較多、參數比較大」,而是比誰的模型「記憶系統比較像人腦」——能快能慢、能短能長、能邊用邊學。
以前我們比的是「靜態深度」(堆幾千層),現在要開始比「動態深度」(記憶迴圈疊幾層)。
這就像從「死記硬背的書呆子」進化到「活到老學到老的智者」。
一句話總結給文科生聽:
「ChatGPT這類AI以前是過目就忘的短期記憶天才,這篇論文想讓AI變成『過目不忘、越聊越聰明』的長期記憶怪胎。」
如果這篇論文的方向被證實可行, 未來幾年AI可能會從「很會回答問題」進化到「真的會跟每個人變成朋友,因為它記得你的一切」。
這就是為什麼這麼多人激動,覺得這可能是2017年Transformer之後,又一次「改寫歷史」的論文。
改善AI模型學新忘舊,Google提出巢狀學習新解法 李建興@iThome 20251112
Google提出巢狀學習(Nested Learning)方法,將模型拆解為多層次巢狀最佳化問題,各層以不同更新頻率協同運作,讓模型能持續學習新知同時保留舊知,有效減少災難性遺忘並提升長內容理解能力
Google研究人員公開巢狀學習(Nested Learning)這項新模型訓練方法,主張把單一模型視為多個彼此銜接或並行的巢狀學習子問題,並以不同更新頻率運作,目標是在持續學習中降低災難性遺忘(Catastrophic Forgetting),同步提升長內容理解與記憶管理能力。
所謂的災難性遺忘,是模型持續學習時,新資料訓練會把權重往符合新任務的方向調整,結果把原先針對舊任務學到的特徵表示覆寫。
巢狀學習的切入點是重新定義架構與最佳化的關係,研究將模型拆解為多層級的最佳化子問題,各層按照更新頻率排序,並各自擁有脈絡資訊流(Context Glow),形成在多時間尺度上協同運作的學習系統。透過這種層級化設計,模型不只處理輸入視窗中的即時脈絡,也能跨多個時間尺度整合新舊知識,概念上更接近人腦神經可塑性鞏固記憶的機制。
研究人員用一個新的角度重新理解模型內部的運作,他們認為,像反向傳播(Backpropagation)或注意力機制這些深度學習的基本元件,其實都可以被視為記憶過程的一部分。也就是說,模型在學習時,不只是調整權重,而是在建立不同層次的關聯與回憶方式。這種對模型的重新理解,讓研究人員能以統一的架構來看待模型設計。
研究也提出新的連續體記憶系統(Continuum Memory Systems)觀念,主張人工智慧的記憶不該只分成短期與長期兩種,而是應該像光譜一樣,依更新速度形成多層次的記憶結構,讓模型在吸收新知的同時,更穩定地保留舊知識,避免遺忘過往的能力。
Google開發Hope實驗模型來驗證這個想法,Hope可以自行調整記憶方式與學習規則,也就是讓模型學會怎麼學習。相較於過去僅能在固定層次調整的架構,Hope能在更多層面同時更新與最佳化,因此在長時間學習或處理龐大內容時,表現出更好的穩定性與記憶延展能力。
在多項語言建模與常識推理測試中,Hope模型展現出比現有主流架構更穩定,Google指出,Hope在語言模型評測中的困惑度更低,代表模型能以更精確的方式預測句子中下一個詞。在常識推理任務上的準確率也更高,顯示其推理能力與知識整合效果更好。
在更具挑戰性的長上下文任務中,例如大海撈針(Needle-in-a-Haystack)測試,Hope展現出良好的記憶管理能力。官方比較顯示,在不同難度等級的長上下文任務上,Hope與Titans皆明顯優於TTT與Mamba2。
沒有留言:
張貼留言
請網友務必留下一致且可辨識的稱謂
顧及閱讀舒適性,段與段間請空一行