国产麻豆精品久久一二三,日韩av高清在线看片,日本人妻视频一区二区乱码天码,亚洲一区二区三区香蕉

當(dāng)前位置:首頁 > 百科 > 正文內(nèi)容

Noam Brown早已預(yù)示o1強(qiáng)大推理能力,演講深度解析AI推理研究脈絡(luò)

宿遷名片打印1年前 (2024-09-14)百科39
印刷廠直印●彩頁1000張只需要69元●名片5元每盒-更多報價?聯(lián)系電話:138-1621-1622(微信同號)

不久之前,OpenAI 發(fā)布了 o1 系列模型,其強(qiáng)大的推理能力讓我們看見了 AI 發(fā)展的新可能。近日,OpenAI 著名研究科學(xué)家 Noam Brown 一份 5 月的演講上線網(wǎng)絡(luò),或可揭示 o1 背后的研究發(fā)展脈絡(luò)。

在這個題為「關(guān)于 AI 規(guī)劃力量的寓言:從撲克到外交」的演講中, Brown 介紹了撲克、圍棋和外交等游戲領(lǐng)域的研究突破,并尤其強(qiáng)調(diào)了搜索/規(guī)劃算法在這些成就中的關(guān)鍵作用。之后,他也指出了搜索/規(guī)劃研究在改進(jìn)機(jī)器學(xué)習(xí)模型方面的潛在未來。

Noam Brown,如果你還不熟悉這個名字:他是 OpenAI 的一位著名研究科學(xué)家,主攻方向是推理和自博弈,曾參與創(chuàng)造了首個在雙玩家和多玩家無限注德州撲克上擊敗人類頂級職業(yè)玩家的 AI:Libratus 和 Pluribus。其中 Pluribus 曾被 Science 評選為 2019 年十大科學(xué)突破之一。此外,他也領(lǐng)導(dǎo)開發(fā)了 Cicero 系統(tǒng),這是首個在自然語言策略外交游戲 Diplomacy 上達(dá)到人類水平的 AI。憑借在 AI 領(lǐng)域的卓越貢獻(xiàn),他獲得過馬文·明斯基獎?wù)拢∕arvin Minsky Medal)等許多獎項。

021yin.com/watch?v=eaAonE58sLU

來自 Paul G. Allen School

機(jī)器之心詳細(xì)梳理了 Noam Brown 的演講內(nèi)容,以饗讀者:

演講開篇,Brown 談到了自己剛開始研究生生涯的時候。那是在 2012 年,他開始研究打撲克的 AI。當(dāng)時人們已經(jīng)研究了撲克 AI 多年時間。很多人的感覺就是系統(tǒng)的問題已經(jīng)解決,剩下的問題就是規(guī)模擴(kuò)展(scaling)了。

下圖左下展示了那幾年模型參數(shù)量的變化情況。

那幾年,各個研究撲克 AI 的實驗室都會訓(xùn)練更大的新模型來互相競賽。這就是當(dāng)時的年度計算機(jī)撲克競賽。

什么意外,每一年的新模型都會變得比之前的模型更強(qiáng)大。

2014 年時,Brown 與其導(dǎo)師一起開發(fā)了當(dāng)前最強(qiáng)大的撲克 AI,取得了競賽第一名。那時候他們開始嘗試在實際的比賽中與專家級人類對抗。于是在 2015 年,他們舉辦了?cè)四X與 AI 撲克競賽。

他們讓自己的 AI 挑戰(zhàn)了 4 位頂尖職業(yè)玩家,玩了 8 萬手。最終,他們開發(fā)的名為 Claudico 的 AI 牌手慘敗收場。

搜索與規(guī)劃開始彰顯力量

在這場比賽中,他注意到一些有趣的現(xiàn)象。他們的 AI 之前已經(jīng)使用了大約 1 萬億手對局?jǐn)?shù)據(jù)進(jìn)行了訓(xùn)練。在這場比賽之前幾個月時間里,這個 AI 一直在數(shù)千臺 GPU 上不間斷地玩撲克。

而到了真正與職業(yè)玩家比賽的時候,它會在很快的時間里做出決定,幾乎是立即完成。但如果是人類面對同樣的任務(wù),則通常會深思熟慮。

Brown 在那時候便想到了,這或許就是 AI 所缺少的東西。這也成了其之后的重要研究方向之一。

2017 年時,他們發(fā)布了一篇論文給出了初步的研究結(jié)果(這是當(dāng)年的 NeurIPS 最佳論文)。如下圖所示,藍(lán)線是不做任何搜索或規(guī)劃的結(jié)果,橙色則是執(zhí)行了搜索和規(guī)劃的結(jié)果(越低越好)。X 軸是模型的參數(shù)量。所以這算是中等大小的撲克 AI 的擴(kuò)展律(scaling law):模型越大,表現(xiàn)越好。而從圖中可以看到,搜索所帶來的受益比模型增大要大得多——同等模型大小下能帶來近 7 倍的提升!

簡單來說,這里的搜索就是讓模型在行動之前「思考」大約半分鐘。

Brown 表示,在研究撲克 AI 的三四年間,他將模型的大小提升了 100 倍,但所帶來的提升遠(yuǎn)不及采用搜索策略。而如果要讓藍(lán)線代表的無搜索策略成功擴(kuò)展到橙色線的水平,還需要將模型繼續(xù)擴(kuò)展 10 萬倍。換句話說,搜索策略能帶來 10 萬倍的增益!

這讓他不禁感嘆:「與添加搜索相比,我在博士學(xué)位之前所做的一切都將成為腳注。」

之后,他轉(zhuǎn)變了研究方向,將重點放在了擴(kuò)展搜索能力方面。

2017 年,他們再次舉辦人腦與 AI 撲克競賽。這一次,AI 大勝,并且每位職業(yè)玩家都輸給了這個名叫 Libratus 的模型。

這一結(jié)果同時震驚了撲克和 AI 兩個圈子,更何況 AI 的獲勝優(yōu)勢還如此之大。對此事件的詳細(xì)報道可參閱文章《德?lián)淙藱C(jī)大戰(zhàn)收官,Libratus 擊敗世界頂尖撲克選手》。

2019 年,他們開發(fā)了一個能玩六人德州撲克的 AI 并與人類職業(yè)玩家進(jìn)行了對抗。

同樣,AI 獲勝了,并且其訓(xùn)練成本還很低,也沒有使用 GPU,參閱《AI攻陷多人德?lián)湓俚荢cience,訓(xùn)練成本150美元,每小時贏1000刀》。

Brown 表示,如此低的成本意味著,如果當(dāng)時就能發(fā)現(xiàn)這種方法,那么 AI 社區(qū)在 90 年代應(yīng)該就能取得這一成就。

但為什么沒有出現(xiàn)這樣的研究呢?Brown 總結(jié)了幾點原因和經(jīng)驗教訓(xùn)。(請注意,這里他強(qiáng)調(diào)并不會對「搜索」和「規(guī)劃」這兩個概念做明確區(qū)分,因為它們存在很大的共同點。)

文化因素,當(dāng)時很多人是從博弈論的角度研究撲克 AI。

實驗的計算成本高。

人們沒有很好的動力去有效地探索這些方法,因為當(dāng)時的競賽設(shè)置難以支撐這些方法(比如可用算力低,要求每一手牌必須在短時間內(nèi)完成)。

最重要的是:人們低估了新范式所能取得的成就(誰能想到其實可達(dá) 10 萬倍?)。

規(guī)劃也有助于其它游戲任務(wù)

實際上,這種使用規(guī)劃和搜索的方法并非撲克 AI 所獨有的。許多圍棋和象棋 AI 都使用了這些技術(shù)。下面這張圖來自 AlphaGo Zero 論文。

圖中的 AlphaGo Lee 是指擊敗了李世石的版本,而 AlphaGo Zero 僅使用非常少的人類知識就取得了好得多的表現(xiàn)。

AlphaGo Zero 并不是一個原始的神經(jīng)網(wǎng)絡(luò),而是神經(jīng)網(wǎng)絡(luò)+蒙特卡洛樹搜索(MCTS)的組合系統(tǒng)。實際上,其原始神經(jīng)網(wǎng)絡(luò)的 Elo 分?jǐn)?shù)僅有 3000 左右,不及人類。

實際上,從 2016 年到 2024 年,8 年過去了,現(xiàn)在依然沒有人訓(xùn)練出超越人類職業(yè)棋手的原始神經(jīng)網(wǎng)絡(luò)。也許有人會說,就算如此,只要訓(xùn)練出更大的神經(jīng)網(wǎng)絡(luò),最終就能超越人類吧。但就算理論上可以,實際上這個網(wǎng)絡(luò)需要多大呢?

Brown 根據(jù)經(jīng)驗給出了一個大致估計:Elo 分?jǐn)?shù)每增加 120 都需要 2 倍的模型大小和訓(xùn)練量或 2 倍的測試時搜索量。

基于此,如果僅使用原始神經(jīng)網(wǎng)絡(luò),要將 Elo 分?jǐn)?shù)從 3000 提升到 AlphaGo Zero 那樣的 5200,則需要將模型擴(kuò)展大約 10 萬倍。當(dāng)然,Brown 提到 AlphaGo Zero 的 5200 分其實存在爭議,考慮爭議的話模型的擴(kuò)展倍數(shù)可能在 1000 倍到 1 萬倍之間。

不管怎樣,模型都需要大幅擴(kuò)展才行。

另外,這還是假設(shè)訓(xùn)練過程中可以使用 MCTS。要是再從訓(xùn)練階段剔除 MCTS,那么所需的擴(kuò)展倍數(shù)更是天文數(shù)字。

那么,具體來說該如何進(jìn)行規(guī)劃呢?

合作策略桌游 Hanabi(花火)是一個很好的示例,這是一種不完全信息博弈。

2019 年 2 月,DeepMind 為 Hanabi 提出了一個新基準(zhǔn),并且他們提出了一種可取得 58.6% 勝率的強(qiáng)化學(xué)習(xí)算法。

六個月后,Noam Brown 當(dāng)時就職的 FAIR 提出的一種算法就在兩玩家場景中取得了 75% 的勝率,達(dá)到了超越人類的水平。并且他表示這其中僅使用了一種非常簡單的技術(shù)。他說:「我們并沒有在強(qiáng)化學(xué)習(xí)方面做什么全新的事情,就只是執(zhí)行了搜索。」并且這種搜索很簡單。

簡單來說,就是搜索后續(xù)步驟執(zhí)行不同動作時的情況,然后選擇預(yù)期結(jié)果最好的一個。

實驗結(jié)果證明這種簡單方法確實有效。

不管是哪種方法,在添加了搜索之后都取得了顯著更好的表現(xiàn)。之前表現(xiàn)最差的基于啟發(fā)式方法的 SmartBot 在添加了搜索之后也超過了未使用搜索的基于強(qiáng)化學(xué)習(xí)的最佳方法 SAD。

這一巨大提升甚至讓 Brown 及其團(tuán)隊一度懷疑實驗出 bug 了。要知道 Hanabi 游戲本質(zhì)上不可能取得 100% 勝率,經(jīng)過搜索加持的強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的勝率可能趨近于飽和。

同時,多智能體搜索的表現(xiàn)也優(yōu)于單智能體搜索。這或許就是 Noam Brown 最近正在積極為 OpenAI 網(wǎng)羅多智能體研究者的原因。

Brown 提到他們并不是唯一一個發(fā)現(xiàn)這一趨勢的團(tuán)隊。目前就職于 Anthropic 的 Andy Jones 也曾在棋盤游戲 Hex 上發(fā)現(xiàn)了這一點。

該研究發(fā)現(xiàn),測試時間計算量增加 15 倍的效果相當(dāng)于訓(xùn)練時間計算量增加 10 倍的效果。考慮到訓(xùn)練時的計算量遠(yuǎn)高于測試時的計算量。因此讓測試時間計算量增加 15 倍要劃算得多。

接下來,Brown 介紹了一個在國際象棋比賽上模仿人類專家數(shù)據(jù)的研究。這個名叫 MAIA 的國際象棋 AI 在 Elo 較高時比目標(biāo) Elo 分?jǐn)?shù)低 100-300 分。也就是說,如果使用 2000 分的人類數(shù)據(jù)來訓(xùn)練它,它自己卻只能得到 1700 分。但 MAIA 在有一種情況下能與人類專家持平,也就是快棋賽——這時候人類沒有足夠的思考時間。因此,這可能表明神經(jīng)網(wǎng)絡(luò)難以近似人類的規(guī)劃能力。

之后,Brown 團(tuán)隊的一篇 ICML 2022 論文研究了在監(jiān)督模型上添加規(guī)劃的效果。可以看到不管是圍棋還是國際象棋,搜索都大有助益。

也許很多人都認(rèn)為,要在某個數(shù)據(jù)集上最大限度地提高預(yù)測準(zhǔn)確性,方法就是使用大量數(shù)據(jù)訓(xùn)練一個超大模型,但這些研究卻給出了不一樣的見解:在適當(dāng)?shù)某瑓?shù)下添加搜索能力,就可以極大提升預(yù)測準(zhǔn)確度。如下圖所示。

用于外交的人工智能

接下來,Brown 介紹了他在 FAIR 時開發(fā)的一個用于外交游戲 Diplomacy 的 AI 智能體 Cicero,這是首個在外交策略博弈任務(wù)上達(dá)到人類水平的 AI。參閱機(jī)器之心報道《爭取盟友、洞察人心,最新的Meta智能體是個談判高手》。

外交是一種非常復(fù)雜的自然語言策略博弈。Cicero 以匿名方式參與到了有許多人類玩家參與的游戲中。它玩了 40 局都沒有被發(fā)現(xiàn),并且平均每一局要收發(fā) 292 條消息。

一些參與游戲的人類玩家在獲知 Cicero 是 AI 之后都發(fā)出了類似下圖的驚嘆之語!

Cicero 的表現(xiàn)如下,在參與游戲至少 5 局的玩家中,它取得了第 2 名的成績。在所有玩家中也名列前 10%。整體優(yōu)于人類玩家的平均水平。

下面來看看 Cicero 的工作方式。它的輸入包括游戲棋盤和對話歷史,其條件動作模型需要基于此預(yù)測所有玩家在當(dāng)前回合會做什么,然后將這些動作輸入到一個規(guī)劃引擎中。

Brown 表示規(guī)劃引擎是Cicero 的一大創(chuàng)新,現(xiàn)今的許多語言模型都還不具備這一點。

這個規(guī)劃引擎會迭代式地預(yù)測所有玩家的動作以及所有玩家可能預(yù)測的Cicero 的動作。

最終,這會得到一個輸出動作,還會得到一些意圖——用于調(diào)節(jié)對話模型。也就是說,在執(zhí)行了規(guī)劃,搞清楚了我們應(yīng)該在本回合中采取哪些行動以及我們認(rèn)為其他玩家在本回合中會采取哪些行動之后,將這些規(guī)劃輸入對話模型,使對話模型以此為條件輸出消息。

Brown 也提到這個過程非常耗時,通常每一次都需要至少 10 秒才能生成一個消息(他們使用了幾十臺 GPU)。但這種時間成本是值得的,能大幅提升性能。

規(guī)劃為何有效?

規(guī)劃為什么能帶來如此巨大的性能提升?Brown 提到了「生成器-驗證器差距」現(xiàn)象。簡單來說,在許多領(lǐng)域,生成一個好解決方案的難度通常大于驗證一個解決方案的難度。舉個例子,玩數(shù)獨游戲肯定比驗證已經(jīng)填入的數(shù)值更難。

但在另一些領(lǐng)域,情況卻并非如此。比如對于信息檢索任務(wù),如果問不丹的首都是哪里,模型可以一口氣生成幾十個候選項,但我們還要費一番功夫去驗證它。圖像生成也是如此:生成圖像很簡單,但要驗證生成的圖像是否滿足要求會更困難。

因此,當(dāng)存在「生成器-驗證器差距」且具有比較好的驗證器時,我們可以將更多計算放在生成上,然后驗證結(jié)果。

在語言模型中使用規(guī)劃

之后,Noam Brown 開始討論語言模型。有趣的是他在此時強(qiáng)調(diào):「我只能談?wù)撘寻l(fā)表的研究。」這似乎在暗示他參與了或至少知道一些未發(fā)表的相關(guān)研究——或許就是 OpenAI ο1 及未來模型用到的技術(shù)。

他認(rèn)為人們依然低估了這些技術(shù)所能帶來的增益。

有一種名為 Consensus(共識)的算法是這樣執(zhí)行驗證的:讓 LLM 生成多個解,然后選擇出現(xiàn)次數(shù)最多的那個。

方法很簡單,但僅憑此方法,Minerva 模型在 MATH 數(shù)據(jù)集上的表現(xiàn)就從 33.6% 提升到了 50.3%。這里 Minerva 對每個問題采樣 1000 次。

但這種方法也有缺點,那就是只適合答案只有數(shù)值等簡單結(jié)果的問題。對于證明題之類的任務(wù),就沒辦法了,因為這些任務(wù)很難每次都有一樣的結(jié)果,難以達(dá)成共識。

另一種方法是 Best of N。這需要用到一個獎勵模型來為生成的 N 個答案打分,然后返回最佳結(jié)果。這種方法的表現(xiàn)依賴于獎勵模型的質(zhì)量。如果獎勵模型質(zhì)量不行,就可能出現(xiàn)在錯誤上過擬合的問題。

我們還可以做到更好。接下來Brown 介紹了那篇著名的論文《Let's Verify Step By Step》。機(jī)器之心也曾報道過這項研究,參閱《OpenAI要為GPT-4解決數(shù)學(xué)問題了:獎勵模型指錯,解題水平達(dá)到新高度》。

這篇論文發(fā)布于大概一年前,其中提出了「過程獎勵模型」這一思路。簡單來說,就是不再只是驗證最終解答,而是驗證每一步求解過程。只要過程中存在任何不正確的步驟,就判定最終結(jié)果是錯誤的,即便最終結(jié)果看起來是正確的。

這種方法的表現(xiàn)如何呢??cè)缦聢D所示,橙色線是過程獎勵模型的表現(xiàn),可以看到,其顯著優(yōu)于Best of N 和結(jié)果導(dǎo)向的獎勵模型,并且其優(yōu)勢會隨著求解數(shù)量 N 的提升而提升。

Brown 舉了一個非常有趣的例子。讓LLM 解決這個數(shù)學(xué)問題:化簡 tan100° + 4sin100°。

原始 GPT-4 模型正確解答這個數(shù)學(xué)問題的可能性僅有千分之一,而逐步驗證法可將其提升一大截。

當(dāng)今的 AI 圖景和未來方向

接著,Brown 話鋒一轉(zhuǎn),分享了當(dāng)今的 AI 圖景。請注意,由于這次演講發(fā)生于 2024 年 5 月 23 日,因此其中并沒有最新的模型。但他談到的發(fā)展趨勢依然很有價值。

他說,在他研究生階段研究撲克 AI 時,人們自認(rèn)為找到了實現(xiàn)超人級撲克 AI 的方法:使用已有的算法,每一年都提升其計算和數(shù)據(jù)規(guī)模即可,然后就能擊敗前一年的模型。

他認(rèn)為當(dāng)今的 AI 領(lǐng)域也非常相似:有一種有效的技術(shù),然后用更大的模型在更多的數(shù)據(jù)上訓(xùn)練更長時間,讓其不斷變得更好。與此同時,推理成本依然很低。Brown 表示未來不一定還是如此。

(當(dāng)然,我們知道 o1 的出現(xiàn)已經(jīng)開始扭轉(zhuǎn)這一趨勢,讓人們更加注重研究推理時間的計算,即 inference-time compute 或 test-time compute)。

對于編程輔助和翻譯這樣的任務(wù),我們可能并不愿意等待很長時間,但對于另一些重要問題,我們甘心等待幾個小時乃至很多天,比如解決黎曼猜想或發(fā)現(xiàn)救命藥物,又或者生成一部優(yōu)質(zhì)的小說。

他介紹了自己的「下一個目標(biāo)」:通用性。

我們能否開發(fā)出用于擴(kuò)展推理計算的真正通用的方法?

通過提升測試時間的計算成本來打造更強(qiáng)大的模型(我們愿意為解決黎曼猜想或發(fā)現(xiàn)救命藥物付出多少推理成本?)

這些研究能讓我們大致窺見未來遠(yuǎn)遠(yuǎn)更加強(qiáng)大的模型。(或許就是 OpenAI CEO 山姆?奧特曼所說的「超級智能」?)。

他也給學(xué)術(shù)界的研究者提了一點建議:

規(guī)劃是一個相對較好的研究領(lǐng)域,對資源不豐富的學(xué)術(shù)研究者來說,這個方向避開了與大公司的正面競爭,或許更容易出成果。因為大公司基于利益考慮,更愿意訓(xùn)練超大模型,同時盡可能地降低推理成本,以便為大量用戶提供服務(wù)。

另一個頗具潛力的研究方向是「外部驗證器」,因為這樣可以避免受到獎勵模型質(zhì)量瓶頸的限制。

最后,Brown 提到了 Richard Sutton 那篇著名的文章《苦澀的教訓(xùn)》。

他引用了這兩句:「70 年的人工智能研究史告訴我們,利用計算能力的一般方法最終是最有效的方法。……搜索和學(xué)習(xí)似乎正是兩種以這種方式隨意擴(kuò)展的方法。」

收藏0

發(fā)表評論

訪客

看不清,換一張

◎歡迎參與討論,請在這里發(fā)表您的看法和觀點。