代码拉取完成,页面将自动刷新
该代码主要基于Alpha Zero paper提供的伪代码 [Alpha Go Zero paper](https://www.nature.com/articles/nature24270?sf123103138=1) [Alpha Zero paper](https://science.sciencemag.org/content/362/6419/1140) 参考 [Lczero](https://lczero.org/dev/backend/nn/) 棋盘:15*15*2【stones-self, stones-opponent】 环境tensorflow2.0 ## hmolGUI.py: 定义界面主函数运行 MCTS.py:作为AI玩家,具有选择,扩展,模拟,反向传播,定义UCB(Upper Confidence Bounds) #RNG.py 神经网络策略价值网络给出当前局面,返回当前局面action概率已经当前局面胜率评分。 selfplay收集数据训练该网络,而训练更新的价值网络也会应用到MCTS中进行self-play train.py train 中run()大致流程是:收集 self_play 数据。当数据数量大于一定数目时,运行 policy_update() 函数,更新神经网络的权值。每进行一定数量的游戏,需要对当前神经网络的模型进行保存并评估。 如果评估效果非常好(与纯蒙特卡罗搜索树算法对弈10局,胜率100%),则将此模型保存为最佳模型, 并提升评估算法(纯蒙特卡罗搜索树)的算力,如将搜索次数提高1000。回到1,直到训练次数到达设定值
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。