用深度学习预测专业棋手走法 (2)

日期：2021-05-17 栏目：程序人生浏览：次

我从他们的想法中借鉴了两个卷积神经网络。第一个，从网络移动，将被训练成采用768元素数组表示并输出专业棋手移动的方格（在方块0和方块63之间）。第二个网络：移动到网络，将做同样的事情，除了输出层将是专业棋手移动到的地方。我没有考虑谁赢了，因为我认为训练数据中的所有移动都是相对最优的，无论最终结果如何。

我选择的架构是两个128卷积层，带有2x2滤波器，后面是两个1024神经元完全连接层。我没有应用任何池，因为池提供位置不变性。图片左上角的猫就像图片右下角的猫一样。然而,对于国际象棋，,棋子国王的值是完全不同于车兵。隐藏图层的激活功能是RELU，而我将softmax应用到最后一层，因此我基本上得到一个概率分布，其中所有方格的概率总和加起来达到100％。

用深度学习预测专业棋手走法

我的训练数据是训练集的600万个位置，其余130万个位置用于验证集。在训练结束时，我从网络上获得了34.8％的验证准确率，并且在转移到网络时获得了27.7％的验证准确率。这并不意味着70％的时间它没有学习合法的走子，这只意味着AI没有像验证数据中的专业玩家那样做出相同的举动。相比之下，Oshri和Khandwala的网络平均验证准确率为37％。

将深度学习与Minimax结合起来

因为现在这是一个分类问题，其中输出可以是64个类之一，这就留下了很大的错误空间。关于训练数据（来自高级别玩家的比赛）的一个警告是，优秀的棋手很少会玩到“将军”。他们知道什么时候输了，通常没有必要跟进整场比赛。这种缺乏平衡的数据使得网络在最终游戏结束时非常混乱。它会选择车来移动，并试图沿对角线移动。如果失败，网络甚至会试图指挥对手的棋子（厚颜无耻！）。

为了解决这个问题，我命令输出的概率。然后，我使用python-chess库获取给定位置的所有合法走子的列表，并选择具有最高结果概率的合法走子。最后，我应用了一个带有惩罚的预测分数方程式，用于选择较不可能的走子：400（选择的走子指数之和）。名单上的合法走子越远，其预测得分就越低。例如，如果从网络移动的第一个索引（索引0）与移动到网络的第一个索引相结合是合法的，那么预测分数是400（0 + 0），这是最高可能分数：400。

用深度学习预测专业棋手走法

在与材料分数结合使用数字后，我选择了400作为最大预测分数。材料分数是一个数字，可以判断所做的走子是否会捕获一个棋子。根据捕获的棋子，走子的整体得分将得到提升。我选择的材料价值如下：

兵:10,马:500,象:500,车:900,后:5000,王:50000。

这特别有助于残局。在将杀走子将是第二个最可能的合法行动且预测得分较低的情况下，国王的物质价值将超过它。兵的分数如此之低，因为网络在早期比赛中考虑得足够充分，所以如果它是战略举措，它将会采用兵。

然后我将这些分数结合起来，以返回给定任何潜在走子的棋盘的评估。我通过深度为3的minimax算法（使用alpha-beta修剪）提供了这个，并得到了一个可以将杀的可运行国际象棋引擎！

使用Flask和Heroku进行部署

我在Youtube上使用了Bluefever Software的指南，展示了如何通过向flask服务器发出AJAX请求来制作javascript国际象棋UI并通过它来路由我的引擎。我使用Heroku将python脚本部署到Web并将其连接到我的自定义域：Sayonb.com。

结论

虽然引擎的性能没有我希望的那么好，但是我学到了很多关于AI的基础知识，将机器学习模型部署到web上，以及为什么AlphaZero不使用卷积神经网络来玩游戏!

可以通过以下方式进行改进：

1.通过使用bigram模型LSTM将从网络移动和移动到网络中的时间序列组合在一起。这可能有助于将移出和移动到决策中，因为每个目前都是独立接近的。

2.通过添加夺取的棋子的位置来改进棋子的赋值（夺取棋盘中心的兵比它在边缘时夺取更有利）。

转载注明出处：https://www.heiqu.com/wpwxdw.html

用深度学习预测专业棋手走法 (2)

相关推荐