GPT-4 離成為「天網」有多遠?微軟最新論文大膽預測:初具雛形
愛范兒@科技新報 20230328
很多科幻電影都有會思考、自動執行任務的 AI 系統或智慧機器人角色,如〈2001:太空漫遊〉有超級電腦 HAL 9000 管理太空任務、〈魔鬼終結者〉的自我學習人工智慧系統天網,能控制美國核武和國防系統。
這些像人類思考和推理,還有海量知識能力的 AI 系統稱為通用人工智慧(Artificial General Intelligence,AGI)。AGI 不限特定領域,有推理、規劃、解決問題、抽象思考、理解複雜想法、快速學習和經驗學習能力等。雖然 AlphaGo 圍棋獨步天下,但不算 AGI,〈瓦力〉的主角瓦力更符合 AGI 定義。
AGI 概念在人工智慧領域已存在幾十年,許多研究人員一直嘗試開發新演算法、模型和方法做出 AGI,而我們距離 AGI 還有多遠?微軟研究院最近論文指出,OpenAI 最新大型語言模型 GPT-4 已有 AGI 雛形。
GPT-4 廣泛能力與許多功能以及許多任務有人類水準以上表現,可放心說 GPT-4 是邁向 AGI 的重要一步。
人工智慧的火花
微軟研究院論文共 154 頁,滿滿是研究人員給 GPT-4 的考題。論文篇幅很長,YouTuber
AI Explained 有拍影片摘要供有興趣者參考。微軟研究人員於 GPT-4 早期開發階段就有接觸模型,並做了約 6 個月實驗。他們使用未限制開發版,而不是現在有安全限制的最終版,因此論文結論是針對 GPT-4 原始模型。
論文指 GPT-4 的重要新能力是很少指示或無示範時也能正確使用工具,如使用計算機,這是 GPT-3.5 版 ChatGPT(簡稱舊 ChatGPT)做不到的。
研究人員發現,GPT-4 可與 Stable Diffusion 結合,根據文字提示輸出細節豐富的圖片,並會根據文字提示排列物件,提高效率。人類和動物的差異就在人類會發現並使用工具,如今 AI 也朝這方向慢慢進化。
研究人員還讓 GPT-4 參加 LeetCode 軟體工程師模擬考。以五次考試最佳結果為樣本,GPT-4 於簡單、中等和困難三級考試分別取得 86.4%、60%、14.3% 成績。論文謙虛說 GPT-4 寫程式能力接近人類,那人類表現又如何?
LeetCode 資料庫顯示人類簡單、中等和困難考試平均成績為 72.2%、38.7%、7%,這還是排除一題都沒回答者的數據。可說程式設計能力而言,GPT-4 已比很多軟體工程師優秀了。
GPT-4 不僅可寫簡單程式,還能勝任複雜的 3D 遊戲開發。GPT-4 零樣本下用 JavaScript 在 HTML 產生躲避障礙物的遊戲 Demo,只要在此基礎上稍為修改,Demo 就能變成正式產品。當研究人員用同樣提示測試舊 ChatGPT,它卻說做不到。
為了測試 GPT-4 推理程度,研究人員拿 2022 年國際數學奧林匹克競賽題目給它做,但GPT-4 資料庫只更新到 2021 年(雖然是開發版,但沒有連網),這題目答案不在它的資料庫裡,因此 GPT-4 要全靠自己數學邏輯推理能力完成。而 GPT-4 解題邏輯正確,但計算錯誤所以答案錯了,研究人員表示這是基礎計算錯誤(如考試時把乘法寫成除法的人);ChatGPT 只能產生邏輯不通的答案,還差得遠。
問到「一座游泳池可塞進多少高爾夫球」等很難回答的問題時,GPT-4 也能合乎邏輯回答。研究人員發現 GPT-4 可調用其他應用 API,完成檢索使用者信件、日曆、座標等,幫忙訂餐、訂機票、回信等助理工作。這點 OpenAI 最近公布的 ChatGPT 外掛程式集功能已能看到,GPT-4 模型能做的事絕對不只文字產生這麼簡單,與其他應用 API 結合,可成為近似 AI 系統的真‧AI 助理。
研究人員還發現用戶難發現的功能,就是 GPT-4 可建立人類心智模型。研究人員設立場景,GPT-4 能完美分析人物心理及可能有的行動。也就是說,GPT-4 能像人類解讀其他人行為與心理關聯,而不是只看到表面舉動,這是 AI 的大進步。
One More Thing?
論文分為十章節,介紹 GPT-4 多模組能力(與視覺產生內容相關)、生成和理解程式能力、數學能力、與世界互動能力、與人類互動能力、判斷力,以及 GPT-4 局限性、社會影響、未來方向。全文抽絲剝繭解讀 GPT-4,發表後馬上受到網路關注。
但有網友於論文 LaTeX 原始程式碼註釋發現作者隱藏部分資訊。
如 GPT-4 名稱實際為 DV-3,也是論文「第三作者」,也許考慮到隱私問題,被第一作者藏起來了。
網友還發現作者也不太清楚 GPT-4 實際成本,也好像錯把 GPT-4 稱為純文本模型,而不是多模組模型。有毒性相關部分也刪除了,或許考慮到會造成 OpenAI 不必要的負面影響。
總體來說,如果讀者對 GPT-4 能做什麼、還有什麼限制,或對 AI 進展有興趣,可研究此論文更了解目前最強大的大型語言模型。
沒有留言:
張貼留言
請網友務必留下一致且可辨識的稱謂
顧及閱讀舒適性,段與段間請空一行