”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 使用DQN建立国际象棋代理

使用DQN建立国际象棋代理

发布于2025-03-24
浏览:602

我最近尝试实施基于DQN的国际象棋代理。

现在,任何知道DQN和国际象棋工作方式的人都会告诉您这是一个愚蠢的想法。

而且...是的,但是作为初学者,我仍然喜欢它。在本文中,我将分享我在研究此工作时学到的见解。


了解环境。

在我开始实施代理本身之前,我必须熟悉我要使用的环境,并在训练过程中与代理商进行自定义包装器。

  • 我使用了Kaggle_environments Library中的国际象棋环境。



    来自kaggle_environments Import Make env = make(“国际象棋”,debug = true)

     from kaggle_environments import make
     env = make("chess", debug=True)
    
    我还使用了Chessnut,这是一个轻巧的Python库,可帮助解析和验证国际象棋游戏。
  • 摘自Chessnut Import Game onitire_fen = env.State [0] ['观察'] ['板'] game = game(Env.State [0] ['观察'] ['板'])



    在这种环境中,董事会状态以FEN格式存储。
     from Chessnut import Game
     initial_fen = env.state[0]['observation']['board']
     game=Game(env.state[0]['observation']['board'])
    
    它提供了一种紧凑的方式来表示板上的所有作品和当前活动的播放器。但是,由于我计划将输入馈送到神经网络,因此我必须修改状态的表示。
将FEN转换为矩阵格式

[2

由于板上有12种不同类型的作品,因此我创建了12个频道的8x8网格,以表示板上每种类型的状态。

Building a Chess Agent using DQN 为环境创建包装器

类环境: def __init __(自我): self.env = make(“国际象棋”,debug = true) self.game = game(env.State [0] ['observation'] ['board']) 打印(self.env.state [0] ['observation'] ['board']) self.action_space = game.get_moves(); self.obs_space =(self.env.state [0] ['observation'] ['board']) def get_action(self): 返回游戏(self.env.state [0] ['observation'] ['board'])。get_moves(); def get_obs_space(self): 返回fen_to_board(self.env.state [0] ['observation'] ['board']) def步骤(自我,动作): 奖励= 0 g = game(self.env.state [0] ['observation'] ['board']); if(g.board.get_piece(game.xy2i(action [2:4]))=='q'): 奖励= 7 Elif G.board.get_piece(game.xy2i(action [2:4]))=='n'或g.board.get_piece(game.xy2i(action [2:4]))=='b'或g.board.get.get_piece(game.xy.xy.xy2i(action.xy2i) 奖励= 4 elif G.board.get_piece(game.xy2i(action [2:4]))=='p': 奖励= 2 g = game(self.env.state [0] ['observation'] ['board']); G.Apply_move(动作) 完成= false 如果(g.status == 2): 完成= true 奖励= 10 Elif G.Status == 1: 完成= true 奖励= -5 self.env.Step([[动作,'none']) self.action_space = list(self.get_action()) if(self.action_space == []): 完成= true 别的: self.env.Step([['none',random.choice(self.action_space)]) g = game(self.env.state [0] ['observation'] ['board']); 如果G.Status == 2: 奖励= -10 完成= true self.action_space = list(self.get_action()) 返回self.env.State [0] ['observation'] ['board'],奖励,完成


此包装器的重点是为代理提供奖励策略,并在训练过程中与环境交互。

我试图创建一个奖励策略,以给校友给出积极的观点,并取出敌人的零件,而负面的积分失去了游戏。

创建重播缓冲区 Building a Chess Agent using DQN [2

在培训期间使用重播缓冲区来保存(状态,操作,奖励,下一个状态)输出,然后随机使用用于反向传播的目标网络

辅助功能

[2 [2
我知道,并非所有64*64的动作都是合法的,但是我可以使用Chessnut处理合法性,并且模式很简单。


神经网络结构

导入火炬 导入Torch.nn作为nn 导入Torch.optim作为最佳 DQN类(nn.Module): def __init __(自我): super(dqn,self).__ init __() self.conv_layers = nn.Sequepential( nn.conv2d(12,32,kernel_size = 3,大步= 1,padding = nn.relu(), nn.conv2d(32,64,kernel_size = 3,步幅= 1,填充= 1), nn.relu() ) self.fc_layers = nn.Sequepential( nn.flatten(), nn.linear(64 * 8 * 8,256), nn.relu(), nn.linear(256,128), nn.relu(), nn.linear(128,4096) ) def向前(self,x): x = x.unsqueeze(0) x = self.conv_layers(x) x = self.fc_layers(x) 返回x def预测(自我,状态,有效_ACTION_INDICES): 使用Torch.no_grad(): q_values = self.forward(状态) q_values = q_values.squeeze(0) 有效_Q_VALUES = q_values [有效_ACTION_INDICES] best_action_relative_index =有效_Q_VALUES.ARGMAX()。项目() max_q_value =有效_Q_VALUE.ARGMAX()() BEST_ACTION_INDEX =有效_ACTION_INDICES [BEST_ACTION_RELATITY_INDEX] 返回max_q_value,best_action_index
class EnvCust:
    def __init__(self):
        self.env = make("chess", debug=True)
        self.game=Game(env.state[0]['observation']['board'])
        print(self.env.state[0]['observation']['board'])
        self.action_space=game.get_moves();
        self.obs_space=(self.env.state[0]['observation']['board'])

    def get_action(self):
        return Game(self.env.state[0]['observation']['board']).get_moves();


    def get_obs_space(self):
        return fen_to_board(self.env.state[0]['observation']['board'])

    def step(self,action):
        reward=0
        g=Game(self.env.state[0]['observation']['board']);
        if(g.board.get_piece(Game.xy2i(action[2:4]))=='q'):
            reward=7
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='n' or g.board.get_piece(Game.xy2i(action[2:4]))=='b' or g.board.get_piece(Game.xy2i(action[2:4]))=='r':
            reward=4
        elif g.board.get_piece(Game.xy2i(action[2:4]))=='P':
            reward=2
        g=Game(self.env.state[0]['observation']['board']);
        g.apply_move(action)
        done=False
        if(g.status==2):
            done=True
            reward=10
        elif g.status == 1:  
            done = True
            reward = -5 
        self.env.step([action,'None'])
        self.action_space=list(self.get_action())
        if(self.action_space==[]):
            done=True
        else:
            self.env.step(['None',random.choice(self.action_space)])
            g=Game(self.env.state[0]['observation']['board']);
            if g.status==2:
                reward=-10
                done=True

        self.action_space=list(self.get_action())
        return self.env.state[0]['observation']['board'],reward,done
这个神经网络使用卷积层进行12个通道输入,还使用有效的操作索引来过滤奖励输出预测。

实现代理

): 休息 a_index = action_index(action) 如果random.random() batch_size: mini_batch = replay_buffer.sample(batch_size) 对于mini_batch中的e: 状态,行动,奖励,next_state,完成= e g = game(next_state) act = g.get_moves(); ind_a = action_index(ACT) input_state = TORCH.TENSOR(fen_to_board(next_state),dtype = type = turch.float32,需要 tpred,_ = target_network.predict(input_state,ind_a) target =奖励伽玛 * tpred *(1-完成) act_ind = uci_to_action_index(Action) input_state2 = torch.tensor(fen_to_board(state),dtype = type = terch.float32,quirens_grad = true)。 current_q_value =模型(input_state2)[0,act_ind] 损失=(current_q_value-目标)** 2 优化器.zero_grad() loss.backward() 优化器.step() 如果EP%5 == 0: target_network.load_state_dict(model.state_dict()) 这显然是一个非常基本的模型,没有机会实际上表现良好(但事实并非如此),但是它确实有助于我理解DQN的工作方式。 [2

版本声明 本文转载于:https://dev.to/ankit_upadhyay_1c38ae52c0/building-a-chess-agent-using-dqn-40po?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 切换到MySQLi后CodeIgniter连接MySQL数据库失败原因
    切换到MySQLi后CodeIgniter连接MySQL数据库失败原因
    无法连接到mySQL数据库:故障排除错误消息要调试问题,建议将以下代码添加到文件的末尾.//config/database.php并查看输出: ... ... 回声'... echo '<pre>'; print_r($db['default']); echo '</pr...
    编程 发布于2025-05-03
  • 左连接为何在右表WHERE子句过滤时像内连接?
    左连接为何在右表WHERE子句过滤时像内连接?
    左JOIN CONUNDRUM:WITCHING小时在数据库Wizard的领域中变成内在的加入很有趣,当将c.foobar条件放置在上面的Where子句中时,据说左联接似乎会转换为内部连接。仅当满足A.Foo和C.Foobar标准时,才会返回结果。为什么要变形?关键在于其中的子句。当左联接的右侧值...
    编程 发布于2025-05-03
  • 如何将MySQL数据库添加到Visual Studio 2012中的数据源对话框中?
    如何将MySQL数据库添加到Visual Studio 2012中的数据源对话框中?
    在Visual Studio 2012 尽管已安装了MySQL Connector v.6.5.4,但无法将MySQL数据库添加到实体框架的“ DataSource对话框”中。为了解决这一问题,至关重要的是要了解MySQL连接器v.6.5.5及以后的6.6.x版本将提供MySQL的官方Visual...
    编程 发布于2025-05-03
  • Spark DataFrame添加常量列的妙招
    Spark DataFrame添加常量列的妙招
    在Spark Dataframe ,将常数列添加到Spark DataFrame,该列具有适用于所有行的任意值的Spark DataFrame,可以通过多种方式实现。使用文字值(SPARK 1.3)在尝试提供直接值时,用于此问题时,旨在为此目的的column方法可能会导致错误。 df.withCo...
    编程 发布于2025-05-03
  • Python高效去除文本中HTML标签方法
    Python高效去除文本中HTML标签方法
    在Python中剥离HTML标签,以获取原始的文本表示 仅通过Python的MlStripper 来简化剥离过程,Python Standard库提供了一个专门的功能,MLSTREPERE,MLSTREPERIPLE,MLSTREPERE,MLSTREPERIPE,MLSTREPERCE,MLST...
    编程 发布于2025-05-03
  • eval()vs. ast.literal_eval():对于用户输入,哪个Python函数更安全?
    eval()vs. ast.literal_eval():对于用户输入,哪个Python函数更安全?
    称量()和ast.literal_eval()中的Python Security 在使用用户输入时,必须优先确保安全性。强大的Python功能Eval()通常是作为潜在解决方案而出现的,但担心其潜在风险。本文深入研究了eval()和ast.literal_eval()之间的差异,突出显示其安全性含义...
    编程 发布于2025-05-03
  • 在Pandas中如何将年份和季度列合并为一个周期列?
    在Pandas中如何将年份和季度列合并为一个周期列?
    pandas data frame thing commans date lay neal and pree pree'和pree pree pree”,季度 2000 q2 这个目标是通过组合“年度”和“季度”列来创建一个新列,以获取以下结果: [python中的concate...
    编程 发布于2025-05-03
  • 如何使用“ JSON”软件包解析JSON阵列?
    如何使用“ JSON”软件包解析JSON阵列?
    parsing JSON与JSON软件包 QUALDALS:考虑以下go代码:字符串 } func main(){ datajson:=`[“ 1”,“ 2”,“ 3”]`` arr:= jsontype {} 摘要:= = json.unmarshal([] byte(...
    编程 发布于2025-05-03
  • 如何使用组在MySQL中旋转数据?
    如何使用组在MySQL中旋转数据?
    在关系数据库中使用mySQL组使用mySQL组进行查询结果,在关系数据库中使用MySQL组,转移数据的数据是指重新排列的行和列的重排以增强数据可视化。在这里,我们面对一个共同的挑战:使用组的组将数据从基于行的基于列的转换为基于列。 Let's consider the following ...
    编程 发布于2025-05-03
  • C++20 Consteval函数中模板参数能否依赖于函数参数?
    C++20 Consteval函数中模板参数能否依赖于函数参数?
    [ consteval函数和模板参数依赖于函数参数在C 17中,模板参数不能依赖一个函数参数,因为编译器仍然需要对非contexexpr futcoriations contim at contexpr function进行评估。 compile time。 C 20引入恒定函数,必须在编译时进行...
    编程 发布于2025-05-03
  • 在UTF8 MySQL表中正确将Latin1字符转换为UTF8的方法
    在UTF8 MySQL表中正确将Latin1字符转换为UTF8的方法
    在UTF8表中将latin1字符转换为utf8 ,您遇到了一个问题,其中含义的字符(例如,“jáuòiñe”)在utf8 table tabled tablesset中被extect(例如,“致电。为了解决此问题,您正在尝试使用“ mb_convert_encoding”和“ iconv”转换受...
    编程 发布于2025-05-03
  • 如何使用Python的请求和假用户代理绕过网站块?
    如何使用Python的请求和假用户代理绕过网站块?
    如何使用Python的请求模拟浏览器行为,以及伪造的用户代理提供了一个用户 - 代理标头一个有效方法是提供有效的用户式header,以提供有效的用户 - 设置,该标题可以通过browser和Acterner Systems the equestersystermery和操作系统。通过模仿像Chro...
    编程 发布于2025-05-03
  • 同实例无需转储复制MySQL数据库方法
    同实例无需转储复制MySQL数据库方法
    在同一实例上复制一个MySQL数据库而无需转储在同一mySQL实例上复制数据库,而无需创建InterMediate sqql script。以下方法为传统的转储和IMPORT过程提供了更简单的替代方法。 直接管道数据 MySQL手动概述了一种允许将mysqldump直接输出到MySQL clie...
    编程 发布于2025-05-03
  • 如何在JavaScript对象中动态设置键?
    如何在JavaScript对象中动态设置键?
    在尝试为JavaScript对象创建动态键时,如何使用此Syntax jsObj['key' i] = 'example' 1;不工作。正确的方法采用方括号: jsobj ['key''i] ='example'1; 在JavaScript中,数组是一...
    编程 发布于2025-05-03
  • 哪种方法更有效地用于点 - 填点检测:射线跟踪或matplotlib \的路径contains_points?
    哪种方法更有效地用于点 - 填点检测:射线跟踪或matplotlib \的路径contains_points?
    在Python Matplotlib's path.contains_points FunctionMatplotlib's path.contains_points function employs a path object to represent the polygon.它...
    编程 发布于2025-05-03

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3