• <table id="caaaa"><source id="caaaa"></source></table>
  • <td id="caaaa"><rt id="caaaa"></rt></td>
  • <table id="caaaa"></table><noscript id="caaaa"><kbd id="caaaa"></kbd></noscript>
    <td id="caaaa"><option id="caaaa"></option></td>
  • <noscript id="caaaa"></noscript>
  • <td id="caaaa"><option id="caaaa"></option></td>
    <td id="caaaa"></td>
  • 發布時間:2020-10-06 01:41 原文鏈接: AI程序攻克圍棋的算法秘密(四)

    不過這樣的訓練方式其實存在一個問題。

    如果其只在練習中對抗同一個對手,且該對手也一直貫穿訓練始終,那么可能無法獲得新的學習經驗。換言之,該網絡所學到的只是如何擊敗對方,而非真正掌握圍棋的奧秘。沒錯,這就是過度擬合問題:你在對抗某一特定對手時表現出色,但卻未必擁有對付各類選手的能力。那么,我們該如何解決這個問題?

    答案很簡單,當我們對一套神經網絡進行微調時,其就會變成另一個風格上略有不同的選手。如此一來,我們可以將各個版本的神經網絡保存在一份“選手”列表當中,并確保每位選手的表現都有所區別。很好,在接下來的神經網絡訓練過程中,我們可以從列表中隨機選擇不同的版本作為對抗對象。它們雖然源自同一套神經網絡,但表現卻略有區別。而且訓練得越多,選手的版本也就越多。問題就此解決!

    在這樣的訓練過程中,惟一指導訓練過程的只有最終目標 ——即贏得比賽。到這里,我們已經不再需要對網絡進行針對性訓練,例如捕捉盤面上的更多位置等。我們只需要為其提供所有可能的合理選項,并下面目標“你必須獲勝”。也正因為如此,強化學習才如此強大——其能夠被用于訓練任何游戲策略或估值網絡,而絕不僅限于圍棋。

    到這里,DeepMind的研究人員們測試了這套RL策略網絡的準確性——不使用任何MCTS算法。之前我們曾經提到,這套網絡能夠直接獲取盤面位置并思考專業棋手的判斷概率。到這里,它已經能夠獨立進行對弈了。結果是,強化學習微調后的網絡戰勝了僅利用人類棋譜進行訓練的監督學習網絡。不僅如此,它還能夠戰勝其它強大的圍棋程序。

    必須強調的是,即使是在訓練這套強化學習策略網絡之前,監督學習策略網絡也已經擁有了超越現有技術的對弈水平——而如今我們又更進一步!更重要的是,我們甚至不需要使用估值網絡這類其它輔助方案。

    到這里,我們終于完成了對Lusha的訓練。接下來重新回到Foma這邊,它代表的是最優估值函數v*(s)——即只有兩位選手皆完美執行其預期內的落子判斷時,她才能提供在目前盤面局勢下獲得優勝的可能性。很明顯,為了訓練神經網絡充當我們的估值函數,這里需要一位完美的對手……遺憾的是,目前我們還沒有這樣一位對手。因此,我們派出了最強大的選手——RL策略網絡。

    其會提取當前盤面狀態state_s,而后輸出您贏得本場對弈的概率。每一項游戲狀態都將充當數據樣本,并以標簽的形式用于注釋游戲結果。因此,在經過 50次落子之后,我們就獲得了50份估值預測樣本。

    但這種作法實際上非常幼稚——畢竟我們不可能也不應該將對弈中的全部50次落子全部添加到數據集當中。

    換言之,我們必須認真選擇訓練數據集以避免過度擬合的發生。由于每次落子都會與一個新位置對應,因此圍棋中的每一次落子都非常相似。如果將所有落子選擇的狀態都添加到具有相同標簽的訓練數據當中,那么其內容將存在大量“重復”,并必然導致過度擬合。為了防止這種情況的發生,我們只能選擇那些更具代表性的游戲狀態。舉例來說,我們可以只選擇對弈過程中的五個狀態——而非全部50個狀態——添加到訓練數據集內。DeepMind從3000萬盤不同對弈過程中提取了3000萬種狀態,從而減少重復數據的出現可能性。事實證明,這種作法效果極佳!

    現在,我們談談概念: 我們可以通過兩種方法評估盤面位置的價值。第一是選擇最佳估值函數(即之前訓練完成的函數)。另一種則是使用現有策略(Lusha)直接推導盤面局勢,并預測本次落子帶來的最終結果。很明顯,真正的對弈很少會完全按照我們的計劃推進。但DeepMind仍然比較了這兩種方法的實際效果。此外,大家也可以將這兩種選項混合使用。稍后,我們將了解這一“混合參數”,請各位記住這個重要概念。

    在這里,我們的一套神經網絡會嘗試給出最近似的最優估值函數,其效果甚至優于經過數千次模擬而得出的鋪展策略!Foma在這里的表現真的超贊。在另一方面,DeepMind方面也嘗試使用了準確度翻倍但速度極慢的Lusha RL策略,其需要進行成千上萬次模擬以得出結論——最終效果略好于Foma。但也只是略好,而速度卻慢了太多。因此,Foma在這場比拼中勝出,她證明自己擁有著不可替代的價值。

    現在,我們已經完成了策略與估值函數的訓練,接下來可以將其與MCTS結合起來,從而帶來我們的前任世界冠軍、大師中的大量、一個世代的突破、體重268磅的……Alphaaaa GO!


    人体艺术视频