加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README
该代码主要基于Alpha Zero paper提供的伪代码
[Alpha Go Zero paper](https://www.nature.com/articles/nature24270?sf123103138=1)  
[Alpha Zero paper](https://science.sciencemag.org/content/362/6419/1140)

参考 [Lczero](https://lczero.org/dev/backend/nn/)
棋盘:15*15*2【stones-self, stones-opponent】
环境tensorflow2.0
## hmolGUI.py: 定义界面主函数运行
MCTS.py:作为AI玩家,具有选择,扩展,模拟,反向传播,定义UCB(Upper Confidence Bounds)

#RNG.py 神经网络策略价值网络给出当前局面,返回当前局面action概率已经当前局面胜率评分。
selfplay收集数据训练该网络,而训练更新的价值网络也会应用到MCTS中进行self-play
train.py
train 中run()大致流程是:收集 self_play 数据。当数据数量大于一定数目时,运行 policy_update()
函数,更新神经网络的权值。每进行一定数量的游戏,需要对当前神经网络的模型进行保存并评估。
如果评估效果非常好(与纯蒙特卡罗搜索树算法对弈10局,胜率100%),则将此模型保存为最佳模型,
并提升评估算法(纯蒙特卡罗搜索树)的算力,如将搜索次数提高1000。回到1,直到训练次数到达设定值

空文件

简介

基于alpha-zero五子棋项目,2022计算机博弈大赛季军 展开 收起
取消

发行版

暂无发行版

贡献者

全部

近期动态

加载更多
不能加载更多了
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化