AI程序攻克圍棋的算法秘密（五）

發布時間：2020-10-06 01:41 原文鏈接： AI程序攻克圍棋的算法秘密（五）

在本節中，大家應該對MCTS算法的工作原理擁有更為深入的理解。請別擔心，迄今為止提到的全部內容應該足以支持您順利掌握相關內容。惟一需要注意的是我們如何使用策略概率與估值方法。我們在鋪展過程中將二者結合在一起，從而縮小每次落子時需要探索的具體范圍。Q（s，a）表示估值函數，u（s，a）則代表該位置的已保存概率。下面我將具體作出解釋。

另外需要注意的是，策略網絡是使用監督學習來預測專業棋手落子判斷的。其不僅能夠提供概率最高的落子選項，同時也會提供各個選項的具體概率。這一概率可被存儲在各個落子判斷當中。在這里，DeepMind方面將其稱為“先驗概率”，并利用其選擇有必要進行探索的落子選項。基本上，要決定是否需要對某一特定落子選項進行探索，我們需要考慮以下兩點：首先，通過這步棋，我們有多大概率獲勝？是的，我們已經擁有了能夠回答這個問題的“估值網絡”。第二個問題是，專業棋手有多大概率會考慮這一棋步？（如果專業棋手不太可能考慮這步棋，那么我們為什么要浪費時間進行探索？這部分結論由策略網絡負責提供。）

接下來，讓我們聊聊“混合參數”。如前文所述，為了評估各個盤面位置，我們有兩種選擇：其一，直接利用一直用于評估盤面狀態的估值網絡。第二，我們也可以使用現有策略網絡快速推導對弈情況（假定對方選手也采取符合預測的下法），從而判斷我們是輸還是贏。一般來講，估值函數的效果要比常規鋪展更好。在這里，將二者結合將能夠提供每項預測的權重估值，例如五五開、四六開等等。如果大家以百分比形式對估值X進行處理，則另一項就是（100－X）％。這就是混合參數的意義所在。后文中將對其實際效果進行說明。

在每一次鋪展之后，大家都可以利用在模擬當中獲得的任何信息對搜索樹進行更新，從而進一步提升未來模擬的明智度。在所有模擬結束之后，您從中選擇最佳落子選項即可。

下面來看有趣的結論！

大家應該還記得，RL微調策略神經網絡擁有比SL人力訓練策略神經網絡更好的判斷效果。但在將其添加至AlphaGo的MCTS算法中時，使用人工訓練的神經網絡反過來超越了微調神經網絡。與此同時，在估值函數（可以理解成以無限趨近方式提供完美判斷）方面，利用RL策略進行Foma訓練能夠帶來超越使用SL策略的實際效果。

“執行上述評估需要耗費大量計算資源，我們必須拿出壓箱底的硬貨才能搞定這些該死的程序。”

但DeepMind的言下之意其實是……

“吼吼，跟我們的程序相比，以前的那些圍棋程序簡直就是唐氏兒童級別。”

這里再說回“混合參數（mixing parameter）”。在評估位置時，對估值函數及鋪展二者的重視程度要高于其中任意一者。其余部分是DeepMind方面的深入解釋，可以看到其中昭示了一項有趣的結論！

請再讀一次標有紅色下劃線的句子。相信大家已經能夠理解，這句話基本就是對整個研究項目的全面總結。

更多與 AI程序攻克圍棋的算法秘密（五）相關的新聞