国产麻豆精品久久一二三,日韩av高清在线看片,日本人妻视频一区二区乱码天码,亚洲一区二区三区香蕉

當(dāng)前位置：首頁 > 百科 > 正文內(nèi)容

Noam Brown早已預(yù)示o1強(qiáng)大推理能力，演講深度解析AI推理研究脈絡(luò)

宿遷名片打印1年前 (2024-09-14)百科39

印刷廠直印●彩頁1000張只需要69元●名片5元每盒-更多報價?聯(lián)系電話：138-1621-1622（微信同號）

不久之前，OpenAI 發(fā)布了 o1 系列模型，其強(qiáng)大的推理能力讓我們看見了 AI 發(fā)展的新可能。近日，OpenAI 著名研究科學(xué)家 Noam Brown 一份 5 月的演講上線網(wǎng)絡(luò)，或可揭示 o1 背后的研究發(fā)展脈絡(luò)。

在這個題為「關(guān)于 AI 規(guī)劃力量的寓言：從撲克到外交」的演講中， Brown 介紹了撲克、圍棋和外交等游戲領(lǐng)域的研究突破，并尤其強(qiáng)調(diào)了搜索/規(guī)劃算法在這些成就中的關(guān)鍵作用。之后，他也指出了搜索/規(guī)劃研究在改進(jìn)機(jī)器學(xué)習(xí)模型方面的潛在未來。

Noam Brown，如果你還不熟悉這個名字：他是 OpenAI 的一位著名研究科學(xué)家，主攻方向是推理和自博弈，曾參與創(chuàng)造了首個在雙玩家和多玩家無限注德州撲克上擊敗人類頂級職業(yè)玩家的 AI：Libratus 和 Pluribus。其中 Pluribus 曾被 Science 評選為 2019 年十大科學(xué)突破之一。此外，他也領(lǐng)導(dǎo)開發(fā)了 Cicero 系統(tǒng)，這是首個在自然語言策略外交游戲 Diplomacy 上達(dá)到人類水平的 AI。憑借在 AI 領(lǐng)域的卓越貢獻(xiàn)，他獲得過馬文·明斯基獎?wù)拢∕arvin Minsky Medal）等許多獎項。

021yin.com/watch?v=eaAonE58sLU

來自 Paul G. Allen School

機(jī)器之心詳細(xì)梳理了 Noam Brown 的演講內(nèi)容，以饗讀者：

演講開篇，Brown 談到了自己剛開始研究生生涯的時候。那是在 2012 年，他開始研究打撲克的 AI。當(dāng)時人們已經(jīng)研究了撲克 AI 多年時間。很多人的感覺就是系統(tǒng)的問題已經(jīng)解決，剩下的問題就是規(guī)模擴(kuò)展（scaling）了。

下圖左下展示了那幾年模型參數(shù)量的變化情況。

那幾年，各個研究撲克 AI 的實驗室都會訓(xùn)練更大的新模型來互相競賽。這就是當(dāng)時的年度計算機(jī)撲克競賽。

什么意外，每一年的新模型都會變得比之前的模型更強(qiáng)大。

2014 年時，Brown 與其導(dǎo)師一起開發(fā)了當(dāng)前最強(qiáng)大的撲克 AI，取得了競賽第一名。那時候他們開始嘗試在實際的比賽中與專家級人類對抗。于是在 2015 年，他們舉辦了?cè)四X與 AI 撲克競賽。

他們讓自己的 AI 挑戰(zhàn)了 4 位頂尖職業(yè)玩家，玩了 8 萬手。最終，他們開發(fā)的名為 Claudico 的 AI 牌手慘敗收場。

搜索與規(guī)劃開始彰顯力量

在這場比賽中，他注意到一些有趣的現(xiàn)象。他們的 AI 之前已經(jīng)使用了大約 1 萬億手對局?jǐn)?shù)據(jù)進(jìn)行了訓(xùn)練。在這場比賽之前幾個月時間里，這個 AI 一直在數(shù)千臺 GPU 上不間斷地玩撲克。

而到了真正與職業(yè)玩家比賽的時候，它會在很快的時間里做出決定，幾乎是立即完成。但如果是人類面對同樣的任務(wù)，則通常會深思熟慮。

Brown 在那時候便想到了，這或許就是 AI 所缺少的東西。這也成了其之后的重要研究方向之一。

2017 年時，他們發(fā)布了一篇論文給出了初步的研究結(jié)果（這是當(dāng)年的 NeurIPS 最佳論文）。如下圖所示，藍(lán)線是不做任何搜索或規(guī)劃的結(jié)果，橙色則是執(zhí)行了搜索和規(guī)劃的結(jié)果（越低越好）。X 軸是模型的參數(shù)量。所以這算是中等大小的撲克 AI 的擴(kuò)展律（scaling law)：模型越大，表現(xiàn)越好。而從圖中可以看到，搜索所帶來的受益比模型增大要大得多——同等模型大小下能帶來近 7 倍的提升！

簡單來說，這里的搜索就是讓模型在行動之前「思考」大約半分鐘。

Brown 表示，在研究撲克 AI 的三四年間，他將模型的大小提升了 100 倍，但所帶來的提升遠(yuǎn)不及采用搜索策略。而如果要讓藍(lán)線代表的無搜索策略成功擴(kuò)展到橙色線的水平，還需要將模型繼續(xù)擴(kuò)展 10 萬倍。換句話說，搜索策略能帶來 10 萬倍的增益！

這讓他不禁感嘆：「與添加搜索相比，我在博士學(xué)位之前所做的一切都將成為腳注。」

之后，他轉(zhuǎn)變了研究方向，將重點放在了擴(kuò)展搜索能力方面。

2017 年，他們再次舉辦人腦與 AI 撲克競賽。這一次，AI 大勝，并且每位職業(yè)玩家都輸給了這個名叫 Libratus 的模型。

這一結(jié)果同時震驚了撲克和 AI 兩個圈子，更何況 AI 的獲勝優(yōu)勢還如此之大。對此事件的詳細(xì)報道可參閱文章《德?lián)淙藱C(jī)大戰(zhàn)收官，Libratus 擊敗世界頂尖撲克選手》。

2019 年，他們開發(fā)了一個能玩六人德州撲克的 AI 并與人類職業(yè)玩家進(jìn)行了對抗。

同樣，AI 獲勝了，并且其訓(xùn)練成本還很低，也沒有使用 GPU，參閱《AI攻陷多人德?lián)湓俚荢cience，訓(xùn)練成本150美元，每小時贏1000刀》。

Brown 表示，如此低的成本意味著，如果當(dāng)時就能發(fā)現(xiàn)這種方法，那么 AI 社區(qū)在 90 年代應(yīng)該就能取得這一成就。

但為什么沒有出現(xiàn)這樣的研究呢？Brown 總結(jié)了幾點原因和經(jīng)驗教訓(xùn)。（請注意，這里他強(qiáng)調(diào)并不會對「搜索」和「規(guī)劃」這兩個概念做明確區(qū)分，因為它們存在很大的共同點。）

文化因素，當(dāng)時很多人是從博弈論的角度研究撲克 AI。

實驗的計算成本高。

人們沒有很好的動力去有效地探索這些方法，因為當(dāng)時的競賽設(shè)置難以支撐這些方法（比如可用算力低，要求每一手牌必須在短時間內(nèi)完成）。

最重要的是：人們低估了新范式所能取得的成就（誰能想到其實可達(dá) 10 萬倍？）。

規(guī)劃也有助于其它游戲任務(wù)

實際上，這種使用規(guī)劃和搜索的方法并非撲克 AI 所獨有的。許多圍棋和象棋 AI 都使用了這些技術(shù)。下面這張圖來自 AlphaGo Zero 論文。

圖中的 AlphaGo Lee 是指擊敗了李世石的版本，而 AlphaGo Zero 僅使用非常少的人類知識就取得了好得多的表現(xiàn)。

AlphaGo Zero 并不是一個原始的神經(jīng)網(wǎng)絡(luò)，而是神經(jīng)網(wǎng)絡(luò)+蒙特卡洛樹搜索（MCTS）的組合系統(tǒng)。實際上，其原始神經(jīng)網(wǎng)絡(luò)的 Elo 分?jǐn)?shù)僅有 3000 左右，不及人類。

實際上，從 2016 年到 2024 年，8 年過去了，現(xiàn)在依然沒有人訓(xùn)練出超越人類職業(yè)棋手的原始神經(jīng)網(wǎng)絡(luò)。也許有人會說，就算如此，只要訓(xùn)練出更大的神經(jīng)網(wǎng)絡(luò)，最終就能超越人類吧。但就算理論上可以，實際上這個網(wǎng)絡(luò)需要多大呢？

Brown 根據(jù)經(jīng)驗給出了一個大致估計：Elo 分?jǐn)?shù)每增加 120 都需要 2 倍的模型大小和訓(xùn)練量或 2 倍的測試時搜索量。

基于此，如果僅使用原始神經(jīng)網(wǎng)絡(luò)，要將 Elo 分?jǐn)?shù)從 3000 提升到 AlphaGo Zero 那樣的 5200，則需要將模型擴(kuò)展大約 10 萬倍。當(dāng)然，Brown 提到 AlphaGo Zero 的 5200 分其實存在爭議，考慮爭議的話模型的擴(kuò)展倍數(shù)可能在 1000 倍到 1 萬倍之間。

不管怎樣，模型都需要大幅擴(kuò)展才行。

另外，這還是假設(shè)訓(xùn)練過程中可以使用 MCTS。要是再從訓(xùn)練階段剔除 MCTS，那么所需的擴(kuò)展倍數(shù)更是天文數(shù)字。

那么，具體來說該如何進(jìn)行規(guī)劃呢？

合作策略桌游 Hanabi（花火）是一個很好的示例，這是一種不完全信息博弈。

2019 年 2 月，DeepMind 為 Hanabi 提出了一個新基準(zhǔn)，并且他們提出了一種可取得 58.6% 勝率的強(qiáng)化學(xué)習(xí)算法。

六個月后，Noam Brown 當(dāng)時就職的 FAIR 提出的一種算法就在兩玩家場景中取得了 75% 的勝率，達(dá)到了超越人類的水平。并且他表示這其中僅使用了一種非常簡單的技術(shù)。他說：「我們并沒有在強(qiáng)化學(xué)習(xí)方面做什么全新的事情，就只是執(zhí)行了搜索。」并且這種搜索很簡單。

簡單來說，就是搜索后續(xù)步驟執(zhí)行不同動作時的情況，然后選擇預(yù)期結(jié)果最好的一個。

實驗結(jié)果證明這種簡單方法確實有效。

不管是哪種方法，在添加了搜索之后都取得了顯著更好的表現(xiàn)。之前表現(xiàn)最差的基于啟發(fā)式方法的 SmartBot 在添加了搜索之后也超過了未使用搜索的基于強(qiáng)化學(xué)習(xí)的最佳方法 SAD。

這一巨大提升甚至讓 Brown 及其團(tuán)隊一度懷疑實驗出 bug 了。要知道 Hanabi 游戲本質(zhì)上不可能取得 100% 勝率，經(jīng)過搜索加持的強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的勝率可能趨近于飽和。

同時，多智能體搜索的表現(xiàn)也優(yōu)于單智能體搜索。這或許就是 Noam Brown 最近正在積極為 OpenAI 網(wǎng)羅多智能體研究者的原因。

Brown 提到他們并不是唯一一個發(fā)現(xiàn)這一趨勢的團(tuán)隊。目前就職于 Anthropic 的 Andy Jones 也曾在棋盤游戲 Hex 上發(fā)現(xiàn)了這一點。

該研究發(fā)現(xiàn)，測試時間計算量增加 15 倍的效果相當(dāng)于訓(xùn)練時間計算量增加 10 倍的效果。考慮到訓(xùn)練時的計算量遠(yuǎn)高于測試時的計算量。因此讓測試時間計算量增加 15 倍要劃算得多。

接下來，Brown 介紹了一個在國際象棋比賽上模仿人類專家數(shù)據(jù)的研究。這個名叫 MAIA 的國際象棋 AI 在 Elo 較高時比目標(biāo) Elo 分?jǐn)?shù)低 100-300 分。也就是說，如果使用 2000 分的人類數(shù)據(jù)來訓(xùn)練它，它自己卻只能得到 1700 分。但 MAIA 在有一種情況下能與人類專家持平，也就是快棋賽——這時候人類沒有足夠的思考時間。因此，這可能表明神經(jīng)網(wǎng)絡(luò)難以近似人類的規(guī)劃能力。

之后，Brown 團(tuán)隊的一篇 ICML 2022 論文研究了在監(jiān)督模型上添加規(guī)劃的效果。可以看到不管是圍棋還是國際象棋，搜索都大有助益。

也許很多人都認(rèn)為，要在某個數(shù)據(jù)集上最大限度地提高預(yù)測準(zhǔn)確性，方法就是使用大量數(shù)據(jù)訓(xùn)練一個超大模型，但這些研究卻給出了不一樣的見解：在適當(dāng)?shù)某瑓?shù)下添加搜索能力，就可以極大提升預(yù)測準(zhǔn)確度。如下圖所示。

用于外交的人工智能

接下來，Brown 介紹了他在 FAIR 時開發(fā)的一個用于外交游戲 Diplomacy 的 AI 智能體 Cicero，這是首個在外交策略博弈任務(wù)上達(dá)到人類水平的 AI。參閱機(jī)器之心報道《爭取盟友、洞察人心，最新的Meta智能體是個談判高手》。

外交是一種非常復(fù)雜的自然語言策略博弈。Cicero 以匿名方式參與到了有許多人類玩家參與的游戲中。它玩了 40 局都沒有被發(fā)現(xiàn)，并且平均每一局要收發(fā) 292 條消息。

一些參與游戲的人類玩家在獲知 Cicero 是 AI 之后都發(fā)出了類似下圖的驚嘆之語！

Cicero 的表現(xiàn)如下，在參與游戲至少 5 局的玩家中，它取得了第 2 名的成績。在所有玩家中也名列前 10%。整體優(yōu)于人類玩家的平均水平。

下面來看看 Cicero 的工作方式。它的輸入包括游戲棋盤和對話歷史，其條件動作模型需要基于此預(yù)測所有玩家在當(dāng)前回合會做什么，然后將這些動作輸入到一個規(guī)劃引擎中。

Brown 表示規(guī)劃引擎是Cicero 的一大創(chuàng)新，現(xiàn)今的許多語言模型都還不具備這一點。

這個規(guī)劃引擎會迭代式地預(yù)測所有玩家的動作以及所有玩家可能預(yù)測的Cicero 的動作。

最終，這會得到一個輸出動作，還會得到一些意圖——用于調(diào)節(jié)對話模型。也就是說，在執(zhí)行了規(guī)劃，搞清楚了我們應(yīng)該在本回合中采取哪些行動以及我們認(rèn)為其他玩家在本回合中會采取哪些行動之后，將這些規(guī)劃輸入對話模型，使對話模型以此為條件輸出消息。

Brown 也提到這個過程非常耗時，通常每一次都需要至少 10 秒才能生成一個消息（他們使用了幾十臺 GPU）。但這種時間成本是值得的，能大幅提升性能。

規(guī)劃為何有效？

規(guī)劃為什么能帶來如此巨大的性能提升？Brown 提到了「生成器-驗證器差距」現(xiàn)象。簡單來說，在許多領(lǐng)域，生成一個好解決方案的難度通常大于驗證一個解決方案的難度。舉個例子，玩數(shù)獨游戲肯定比驗證已經(jīng)填入的數(shù)值更難。

但在另一些領(lǐng)域，情況卻并非如此。比如對于信息檢索任務(wù)，如果問不丹的首都是哪里，模型可以一口氣生成幾十個候選項，但我們還要費一番功夫去驗證它。圖像生成也是如此：生成圖像很簡單，但要驗證生成的圖像是否滿足要求會更困難。

因此，當(dāng)存在「生成器-驗證器差距」且具有比較好的驗證器時，我們可以將更多計算放在生成上，然后驗證結(jié)果。

在語言模型中使用規(guī)劃

之后，Noam Brown 開始討論語言模型。有趣的是他在此時強(qiáng)調(diào)：「我只能談?wù)撘寻l(fā)表的研究。」這似乎在暗示他參與了或至少知道一些未發(fā)表的相關(guān)研究——或許就是 OpenAI ο1 及未來模型用到的技術(shù)。

他認(rèn)為人們依然低估了這些技術(shù)所能帶來的增益。

有一種名為 Consensus（共識）的算法是這樣執(zhí)行驗證的：讓 LLM 生成多個解，然后選擇出現(xiàn)次數(shù)最多的那個。

方法很簡單，但僅憑此方法，Minerva 模型在 MATH 數(shù)據(jù)集上的表現(xiàn)就從 33.6% 提升到了 50.3%。這里 Minerva 對每個問題采樣 1000 次。

但這種方法也有缺點，那就是只適合答案只有數(shù)值等簡單結(jié)果的問題。對于證明題之類的任務(wù)，就沒辦法了，因為這些任務(wù)很難每次都有一樣的結(jié)果，難以達(dá)成共識。

另一種方法是 Best of N。這需要用到一個獎勵模型來為生成的 N 個答案打分，然后返回最佳結(jié)果。這種方法的表現(xiàn)依賴于獎勵模型的質(zhì)量。如果獎勵模型質(zhì)量不行，就可能出現(xiàn)在錯誤上過擬合的問題。

我們還可以做到更好。接下來Brown 介紹了那篇著名的論文《Let's Verify Step By Step》。機(jī)器之心也曾報道過這項研究，參閱《OpenAI要為GPT-4解決數(shù)學(xué)問題了：獎勵模型指錯，解題水平達(dá)到新高度》。

這篇論文發(fā)布于大概一年前，其中提出了「過程獎勵模型」這一思路。簡單來說，就是不再只是驗證最終解答，而是驗證每一步求解過程。只要過程中存在任何不正確的步驟，就判定最終結(jié)果是錯誤的，即便最終結(jié)果看起來是正確的。

這種方法的表現(xiàn)如何呢？?cè)缦聢D所示，橙色線是過程獎勵模型的表現(xiàn)，可以看到，其顯著優(yōu)于Best of N 和結(jié)果導(dǎo)向的獎勵模型，并且其優(yōu)勢會隨著求解數(shù)量 N 的提升而提升。

Brown 舉了一個非常有趣的例子。讓LLM 解決這個數(shù)學(xué)問題：化簡 tan100° + 4sin100°。

原始 GPT-4 模型正確解答這個數(shù)學(xué)問題的可能性僅有千分之一，而逐步驗證法可將其提升一大截。

當(dāng)今的 AI 圖景和未來方向

接著，Brown 話鋒一轉(zhuǎn)，分享了當(dāng)今的 AI 圖景。請注意，由于這次演講發(fā)生于 2024 年 5 月 23 日，因此其中并沒有最新的模型。但他談到的發(fā)展趨勢依然很有價值。

他說，在他研究生階段研究撲克 AI 時，人們自認(rèn)為找到了實現(xiàn)超人級撲克 AI 的方法：使用已有的算法，每一年都提升其計算和數(shù)據(jù)規(guī)模即可，然后就能擊敗前一年的模型。

他認(rèn)為當(dāng)今的 AI 領(lǐng)域也非常相似：有一種有效的技術(shù)，然后用更大的模型在更多的數(shù)據(jù)上訓(xùn)練更長時間，讓其不斷變得更好。與此同時，推理成本依然很低。Brown 表示未來不一定還是如此。

（當(dāng)然，我們知道 o1 的出現(xiàn)已經(jīng)開始扭轉(zhuǎn)這一趨勢，讓人們更加注重研究推理時間的計算，即 inference-time compute 或 test-time compute）。

對于編程輔助和翻譯這樣的任務(wù)，我們可能并不愿意等待很長時間，但對于另一些重要問題，我們甘心等待幾個小時乃至很多天，比如解決黎曼猜想或發(fā)現(xiàn)救命藥物，又或者生成一部優(yōu)質(zhì)的小說。

他介紹了自己的「下一個目標(biāo)」：通用性。

我們能否開發(fā)出用于擴(kuò)展推理計算的真正通用的方法？

通過提升測試時間的計算成本來打造更強(qiáng)大的模型（我們愿意為解決黎曼猜想或發(fā)現(xiàn)救命藥物付出多少推理成本？）

這些研究能讓我們大致窺見未來遠(yuǎn)遠(yuǎn)更加強(qiáng)大的模型。（或許就是 OpenAI CEO 山姆?奧特曼所說的「超級智能」？）。

他也給學(xué)術(shù)界的研究者提了一點建議：

規(guī)劃是一個相對較好的研究領(lǐng)域，對資源不豐富的學(xué)術(shù)研究者來說，這個方向避開了與大公司的正面競爭，或許更容易出成果。因為大公司基于利益考慮，更愿意訓(xùn)練超大模型，同時盡可能地降低推理成本，以便為大量用戶提供服務(wù)。

另一個頗具潛力的研究方向是「外部驗證器」，因為這樣可以避免受到獎勵模型質(zhì)量瓶頸的限制。

最后，Brown 提到了 Richard Sutton 那篇著名的文章《苦澀的教訓(xùn)》。

他引用了這兩句：「70 年的人工智能研究史告訴我們，利用計算能力的一般方法最終是最有效的方法。……搜索和學(xué)習(xí)似乎正是兩種以這種方式隨意擴(kuò)展的方法。」

☆收藏0

標(biāo)簽: Brown AI Cicero OpenAI AlphaGo

返回列表

上一篇：AI大模型對勞動力市場影響幾何？這份報告指出……

下一篇：第一個爆款A(yù)I游戲來了！數(shù)千萬玩家徹夜硬肝做卷餅？

国产麻豆精品久久一二三,日韩av高清在线看片,日本人妻视频一区二区乱码天码,亚洲一区二区三区香蕉

Noam Brown早已預(yù)示o1強(qiáng)大推理能力，演講深度解析AI推理研究脈絡(luò)

發(fā)表評論

Copyright ?吉印通,Inc.All rights reserved. 滬ICP備19036597號-2 Powered by 上海印刷廠電話:021-63063076 ｜廣告合作QQ:546790004｜免責(zé)聲明 / 網(wǎng)站制作維護(hù)

Powered By 吉印通. Theme by JIYINTONG.

国产麻豆精品久久一二三,日韩av高清在线看片,日本人妻视频一区二区乱码天码,亚洲一区二区三区香蕉

Noam Brown早已預(yù)示o1強(qiáng)大推理能力，演講深度解析AI推理研究脈絡(luò)

發(fā)表評論取消回復(fù)

Copyright ?吉印通,Inc.All rights reserved. 滬ICP備19036597號-2 Powered by 上海印刷廠 電話:021-63063076 ｜廣告合作QQ:546790004｜免責(zé)聲明 / 網(wǎng)站制作維護(hù)

Powered By 吉印通. Theme by JIYINTONG.

Noam Brown早已預(yù)示o1強(qiáng)大推理能力，演講深度解析AI推理研究脈絡(luò)

發(fā)表評論

Copyright ?吉印通,Inc.All rights reserved. 滬ICP備19036597號-2 Powered by 上海印刷廠電話:021-63063076 ｜廣告合作QQ:546790004｜免責(zé)聲明 / 網(wǎng)站制作維護(hù)