基于强化学习的自动化网络攻防模拟：从CyberBattleSim入门到实战

张

张建站

2026/4/25 5:13:58

10分钟阅读

1. 项目概述当攻击模拟遇上强化学习如果你和我一样长期在网络安全领域摸爬滚打那你一定对“红蓝对抗”和“攻击模拟”这些词不陌生。传统的安全演练要么是手动搭建靶场费时费力要么是依赖脚本化的攻击路径缺乏智能和变化对手稍微换个姿势防御体系就可能被打个措手不及。几年前当我第一次听说微软开源了CyberBattleSim这个项目时我的第一反应是这会不会又是一个华而不实的“玩具”但深入研究后我发现它完全颠覆了我对自动化攻击模拟的认知。简单来说CyberBattleSim是一个基于强化学习Reinforcement Learning, RL的开源研究项目它构建了一个高度抽象但逻辑完备的模拟网络环境。在这个环境里一个自主的智能体你可以把它想象成一个AI黑客会尝试从一个初始节点出发通过利用模拟的漏洞比如弱密码、未授权访问等逐步扩大战果最终达成预设目标比如窃取特定文件或获得域控权限。而另一边一个同样由算法驱动的“蓝队”防御者则会尝试检测并遏制攻击。整个项目的核心不是提供一个现成的渗透测试工具而是为安全研究社区提供一个沙盒用以探索和研究自动化、自适应的网络攻击与防御策略。为什么说它特别因为它把网络安全攻防这个动态博弈过程形式化成了一个标准的强化学习问题。攻击者的每一步行动例如利用某个漏洞都会带来环境状态的变化例如获得新节点的访问权和一个相应的“奖励”或“惩罚”。智能体通过不断试错学习如何制定最优的攻击路径。这对于我们理解高级持续性威胁APT的横向移动模式、评估安全控制措施的有效性、甚至是训练下一代安全运营中心SOC的自动化响应系统都有着巨大的潜在价值。无论你是安全研究员、机器学习工程师还是想提升自家企业安全演练水平的从业者这个项目都值得你花时间深挖。2. 核心架构与抽象模型拆解要玩转 CyberBattleSim首先得理解它那套精巧的抽象模型。它没有去模拟真实的操作系统、真实的漏洞利用代码而是将复杂的网络攻防提炼成几个核心概念这让实验的可控性和可重复性大大增强。2.1 环境建模节点、漏洞与权限整个模拟网络被建模为一个有向图。图中的每个节点代表网络中的一个计算实体比如一台工作站、一台服务器或一个网络设备。每个节点都有三个关键属性服务节点上运行的服务例如SSH,HTTP,SMB,SQL。这决定了攻击面。漏洞该服务上存在的已知安全弱点例如WeakPassword弱密码、CVE-2020-XXXX。漏洞是攻击者得以行动的“钥匙”。权限攻击者成功利用漏洞后在该节点上获得的访问级别。CyberBattleSim 定义了三种核心权限本地用户仅能访问当前节点部分资源。管理员完全控制当前节点。系统权限最高权限通常意味着可以完全掌控节点并以此为基础进行更深度的攻击。这种抽象非常巧妙。它剥离了具体漏洞利用的技术细节比如缓冲区溢出具体的shellcode怎么写聚焦于攻击的逻辑本质通过利用某个服务上的某个漏洞将当前节点的权限从A提升到B。例如一个攻击者可能通过猜测SSH服务的弱密码WeakPassword漏洞从一个无权限状态获得该Linux服务器的“本地用户”权限。2.2 智能体动作空间攻击链的原子操作攻击者智能体可以执行的动作是离散且定义明确的主要包括以下几类本地攻击针对当前已控制节点自身的动作。例如ExploitLocalVulnerability利用本地漏洞提权、DiscoverNetworkServices扫描发现本机其他服务。远程攻击针对网络中发现的其他节点的动作。这是横向移动的核心。例如ExploitRemoteService利用远程服务漏洞如SMB的永恒之蓝漏洞抽象。信息收集如ScanNetwork扫描网段发现存活节点。这通常需要一定的权限才能执行。目标行动达成最终目标的动作如StealFile窃取文件这通常需要在拥有特定权限的特定节点上执行。每一个动作的执行都有前提条件。比如你想利用远程节点的一个漏洞前提是你必须已经通过扫描发现了那个节点并且你当前控制的节点有网络连通性到达它同时你拥有利用该漏洞所需的权限或凭据。这种设计迫使智能体学习规划而不是盲目乱试。2.3 蓝队防御者模型CyberBattleSim 的早期版本主要聚焦于攻击者智能体但后续版本引入了基础的蓝队模型这使得模拟更贴近真实的攻防对抗。蓝队的主要动作包括重新部署节点将已被攻陷的节点“重置”到干净状态同时修补其上的漏洞例如修改弱密码。这模拟了系统重建和补丁修复。阻断连接在网络层面阻断两个节点之间的通信阻止攻击者的横向移动。蓝队的行动同样有成本和延迟。你不能无限制地瞬间重置所有节点这体现了真实世界中安全运维的资源有限性。攻击与防御的博弈就此展开攻击者要赶在关键节点被重置前达成目标防御者则要在资源约束下最有效地遏制攻击蔓延。注意CyberBattleSim 的蓝队模型目前还相对简单主要是基于规则例如检测到异常登录就重置节点。这正是项目的开放性所在——你可以基于这个框架设计更复杂的基于机器学习的动态防御策略并与攻击者智能体进行对抗训练。3. 从零开始环境搭建与第一个实验理论说得再多不如亲手跑一遍。下面我就带你一步步搭建环境并运行一个最简单的攻击模拟实验。我的实验环境是 Ubuntu 22.04但 Windows 和 macOS 通过 WSL 或 Docker 也能顺利进行。3.1 基础环境准备与依赖安装CyberBattleSim 主要基于 Python并依赖一些强化学习库。首先强烈建议使用虚拟环境来管理依赖避免污染系统环境。# 1. 克隆项目仓库 git clone https://github.com/microsoft/CyberBattleSim.git cd CyberBattleSim # 2. 创建并激活 Python 虚拟环境使用 Python 3.8 或 3.93.10可能有兼容性问题 python3.9 -m venv .venv source .venv/bin/activate # Linux/macOS # 如果是 Windows使用 .venv\Scripts\activate # 3. 升级 pip 并安装核心依赖 pip install --upgrade pip pip install -e .安装-e .会以“可编辑”模式安装当前目录的包这方便我们后续修改代码。安装过程会自动处理依赖主要包括gym强化学习环境接口、numpy、pandas以及绘图库matplotlib等。这里有个关键点项目默认的requirements.txt可能不会包含所有强化学习算法库。如果你想运行示例中的 Q-Learning 或 DQN 算法还需要额外安装torch和stable-baselines3或你喜欢的其他RL库。pip install torch stable-baselines33.2 理解并运行入门示例项目在samples/目录下提供了几个很好的起点。我们以samples/run_random_agent.py为例看看一个完全随机的攻击者在一个预设网络里能做什么。python samples/run_random_agent.py运行后控制台会输出大量日志描述智能体每一步的动作、观察到的结果以及获得的奖励。最终它会输出一个总结包括攻击是否成功、用了多少步、探索了多少节点等。但光看日志不够直观。CyberBattleSim 内置了基于matplotlib的可视化功能。你可以修改示例代码在模拟结束后生成攻击路径图。关键代码如下片段# 在模拟循环结束后添加可视化代码 from cyberbattle.simulation.visualization import plot_attack_graph # 假设你的环境实例叫 env攻击者的历史动作记录在 episode_history 中 plot_attack_graph( environmentenv, episode_historyepisode_history, title随机智能体攻击路径 )这张图会以节点和箭头的形式清晰展示攻击者从初始节点通常标为绿色开始如何一步步攻陷其他节点红色并最终尝试攻击目标节点黄色或特殊图标。箭头上的标签就是利用的漏洞名称。第一次看到这张图时你会对抽象模型的运作方式有恍然大悟的感觉。3.3 自定义你的第一个模拟网络跑通示例后下一步就是创建自己的网络环境。环境定义在cyberbattle.simulation.model中。一个最简单的网络可以这样定义from cyberbattle.simulation.model import Environment, VulnerabilityInfo, VulnerabilityType from cyberbattle.simulation.model import FirewallConfiguration, Machine, Service, Agent # 1. 定义漏洞类型 weak_ssh VulnerabilityInfo( vulnerability_typeVulnerabilityType.LOCAL, descriptionSSH弱密码, # 定义利用此漏洞后获得的权限提升从无到本地用户 outcomePrivilegeEscalation(local_privilegePrivilegeLevel.User) ) # 2. 定义节点 web_server Machine( node_idwebserver01, services[Service(nameHTTP, port80)], vulnerabilities[weak_ssh], # 这个节点有SSH弱密码漏洞 firewallFirewallConfiguration(incoming[], outgoing[]), # 无防火墙规则 value5 # 节点价值影响奖励计算 ) client_pc Machine( node_idclient01, services[Service(nameSMB, port445)], vulnerabilities[], firewallFirewallConfiguration(incoming[], outgoing[]), value3 ) # 3. 定义攻击者初始位置和网络拓扑 initial_agent Agent(node_idclient01, privilegePrivilegeLevel.User) # 攻击者初始已控制client01具有用户权限 network [web_server, client_pc] # 定义连接性client01 可以访问 webserver01 connections [(client01, webserver01)] # 4. 创建环境 env Environment( machinesnetwork, initial_agentinitial_agent, connectionsconnections, goalGoal(conditionNodeOwned(node_idwebserver01)) # 目标是完全控制 webserver01 )这个环境描述了一个简单的场景攻击者已经控制了客户端电脑client01他的目标是攻陷网络服务器webserver01。他发现服务器开放了SSH服务且存在弱密码漏洞于是利用该漏洞获得了服务器的用户权限从而达成了目标。虽然简单但这已经包含了攻击链的核心要素初始立足点、漏洞利用、权限提升、目标达成。4. 强化学习智能体训练实战让随机智能体去攻击只是热身CyberBattleSim 的真正魅力在于让智能体自己学会攻击。这里我们以最经典的 Q-Learning 算法为例手把手教你训练一个初具“智能”的攻击者。4.1 Q-Learning 算法原理与CyberBattleSim适配Q-Learning 是一种无模型的强化学习算法其核心是学习一个“Q表”。这个表的行代表环境状态State列代表可能的行为Action每个单元格的值 Q(s, a) 代表在状态 s 下执行动作 a 所能获得的长期期望回报。智能体的目标就是学习到一张最优的Q表从而在任何状态下都知道该做什么动作收益最高。在 CyberBattleSim 中“状态”的表示是个挑战。原始的环境状态所有节点的属性、连接关系、攻击者权限等非常庞大且复杂。直接将其作为Q表的索引是不现实的。因此我们需要进行状态特征工程提取关键信息。一个简单有效的特征是创建一个向量表示攻击者当前在每个节点上的权限等级例如0无权限1用户2管理员3系统。这样状态空间就大大缩小了。动作也需要编码。我们可以将所有可能的动作如ExploitRemoteService(‘node1’ ‘CVE-xxx’)映射为一个唯一的整数ID。4.2 实现一个定制的Q-Learning智能体下面是一个高度简化的自定义Q-Learning智能体框架用于说明核心思路import numpy as np import random from collections import defaultdict class SimpleQLearningAgent: def __init__(self, action_space, state_extractor, learning_rate0.1, discount_factor0.95, exploration_rate0.1): self.q_table defaultdict(lambda: np.zeros(action_space.n)) # 使用默认字典惰性初始化Q表 self.lr learning_rate self.gamma discount_factor self.epsilon exploration_rate self.state_extractor state_extractor # 一个函数用于从原始环境观察中提取状态特征 def get_state_key(self, observation): 将提取的特征状态转换为可哈希的键用于Q表索引 features self.state_extractor(observation) return tuple(features) # 例如将权限向量转为元组 def choose_action(self, observation, action_mask): observation: 环境返回的原始观察 action_mask: 一个布尔列表表示当前哪些动作是合法的True state_key self.get_state_key(observation) valid_actions np.where(action_mask)[0] # 获取所有合法动作的索引 # 探索以 epsilon 概率随机选择一个合法动作 if random.uniform(0, 1) self.epsilon: return random.choice(valid_actions) # 利用从合法动作中选择Q值最高的那个 else: q_values self.q_table[state_key] # 只考虑合法动作的Q值 valid_q_values q_values[valid_actions] best_action_idx np.argmax(valid_q_values) return valid_actions[best_action_idx] def learn(self, observation, action, reward, next_observation, done): state_key self.get_state_key(observation) next_state_key self.get_state_key(next_observation) current_q self.q_table[state_key][action] # 如果回合结束下一个状态的未来价值为0 if done: target_q reward else: # 使用下一个状态的最大Q值作为未来价值估计 max_future_q np.max(self.q_table[next_state_key]) target_q reward self.gamma * max_future_q # Q-Learning 更新公式 self.q_table[state_key][action] self.lr * (target_q - current_q)这个智能体会在探索尝试新动作和利用使用已知最佳动作之间做权衡。你需要自己实现state_extractor函数将环境的observation一个复杂的对象转换为你定义的特征向量。action_mask是 CyberBattleSim 环境提供的一个非常好用的特性它直接告诉你当前状态下哪些动作是可执行的避免了智能体选择无效动作。4.3 训练循环与效果评估有了智能体就可以构建训练循环了def train_agent(env, agent, episodes1000): episode_rewards [] episode_steps [] success_rate [] for episode in range(episodes): obs env.reset() total_reward 0 steps 0 done False while not done: # 获取当前合法动作掩码 action_mask env.get_valid_action_mask() # 智能体选择动作 action agent.choose_action(obs, action_mask) # 执行动作 next_obs, reward, done, info env.step(action) # 智能体学习 agent.learn(obs, action, reward, next_obs, done) obs next_obs total_reward reward steps 1 episode_rewards.append(total_reward) episode_steps.append(steps) success_rate.append(info.get(goal_achieved, False)) # 假设info中包含是否达成目标 # 每100轮输出一次进度 if episode % 100 0: avg_reward np.mean(episode_rewards[-100:]) avg_success np.mean(success_rate[-100:]) * 100 print(fEpisode {episode}, Avg Reward (last 100): {avg_reward:.2f}, Success Rate: {avg_success:.2f}%) return episode_rewards, episode_steps, success_rate训练完成后你可以绘制奖励曲线和成功率曲线直观看到智能体是否在学习。通常你会看到前期奖励波动大探索期后期奖励逐渐稳定在一个较高水平学会了高效攻击策略。你也可以用训练好的智能体在环境中“跑”一遍并生成攻击路径图与随机智能体的结果对比你会发现它的路径通常更短、更直接。实操心得在 CyberBattleSim 中应用 Q-Learning特征工程是成败的关键。简单的权限向量可能不够。我尝试过加入“是否已扫描过该节点”、“节点上已知但未利用的漏洞数量”等特征效果有提升。此外对于稍复杂的网络Q表可能会变得非常大导致学习缓慢。这时就需要考虑使用函数逼近方法比如神经网络DQN这也是项目示例中run_dqn.py所演示的。5. 高级应用与研究方向探索当你掌握了基础训练后CyberBattleSim 这片“沙盒”能让你玩的还有很多。以下是一些值得深入的方向。5.1 设计复杂的网络拓扑与攻防场景默认的示例网络比较简单。你可以借鉴 ATTCK 矩阵中的战术设计更贴近真实企业网络的拓扑。例如分层网络设计 DMZ 区、办公网、生产网、核心数据区区域间通过模拟的防火墙用FirewallConfiguration实现访问控制列表隔离。多阶段目标目标不再是控制单一节点。可以设置为“先窃取财务服务器上的文件A再在域控上执行特定命令”。这需要智能体学会规划复杂的多步骤任务。动态环境让蓝队更活跃。不只是被动响应可以设置蓝队定期进行漏洞扫描和修补随机修复网络中某个节点的某个漏洞模拟真实的补丁管理周期。这要求攻击者智能体必须更快、更隐蔽。5.2 实现与评估蓝队智能体目前的蓝队模型主要是规则基的。一个激动人心的研究方向是训练一个强化学习蓝队。蓝队智能体的状态可以是整个网络的“安全态势”摘要如已失陷节点比例、异常连接数量动作则是选择重置哪个节点或阻断哪条连接。奖励函数可以设计为负的失陷节点价值总和与负的操作成本之和。这样你就建立了一个完整的双智能体对抗环境。可以尝试自我对抗训练Self-Play让攻击者和防御者智能体在博弈中共同进化这可能会涌现出非常有趣和复杂的攻防策略。5.3 迁移学习与策略泛化性测试在一个特定网络拓扑中学到的攻击策略能否迁移到另一个结构相似但不同的网络上这是评估智能体是否真正“理解”了攻击逻辑而非仅仅记忆了特定路径的关键。你可以设计一组训练网络和一组测试网络在训练集上训练智能体然后在测试集上评估其表现。通过调整网络规模、节点类型分布、漏洞分布等可以系统性地研究策略的泛化能力。这对于开发通用的自动化渗透测试AI至关重要。6. 常见问题、调试技巧与局限性认知在实际操作中你肯定会遇到各种问题。这里分享一些我踩过的坑和解决办法。6.1 环境与依赖问题问题安装依赖时出现Microsoft C Build Tools相关错误在Windows上常见。解决这是编译某些Python原生扩展如pycryptodome所需。去微软官网下载并安装 “Build Tools for Visual Studio”安装时务必勾选 “C 桌面开发” 工作负载。问题运行示例时提示gym版本不兼容或找不到cyberbattle模块。解决首先确认虚拟环境已激活并且是在项目根目录下运行。其次检查gym版本CyberBattleSim 可能对较新的gym如0.26.0支持不佳可以尝试固定版本pip install gym0.21.0。使用-e .安装可以确保正确链接本地包。6.2 强化学习训练相关难题问题智能体奖励一直不增长或者波动巨大学不到东西。排查奖励函数设计检查环境的奖励设置是否合理。达成目标是否有足够大的正奖励每一步的探索是否有微小的负奖励时间成本奖励稀疏是强化学习的经典难题。状态表示你的state_extractor是否包含了足够区分不同状态的信息尝试打印出不同步骤的状态特征看看它们是否有明显变化。探索率初始探索率epsilon不宜过低例如0.1否则智能体无法充分探索。可以尝试使用衰减策略训练初期高探索后期逐渐降低。动作掩码确保在choose_action函数中正确使用了action_mask防止智能体选择无效动作导致环境报错或学习停滞。问题训练速度慢特别是网络规模稍大时。解决Q-Learning 在状态-动作空间大时确实效率低。这是转向深度强化学习如DQN的信号。DQN使用神经网络来近似Q函数能处理高维状态输入。参考项目中的run_dqn.py示例它使用了stable-baselines3库。6.3 理解项目的局限性认识到工具的边界和项目的初衷同样重要。CyberBattleSim 不是也无意成为一个真实的漏洞利用框架或入侵检测系统。高度抽象它不模拟具体的网络协议栈、操作系统交互或真实的漏洞利用代码。一个WeakPassword漏洞抽象了所有基于凭证猜解的攻击这与现实千差万别。确定性模拟环境是确定性的除非你主动加入随机性这与真实网络中存在的不确定性如网络延迟、工具执行失败不同。研究导向它的核心价值在于为“自动化网络攻击决策”这个研究问题提供一个可控、可度量的实验平台。它的结论更多是概念性和方向性的不能直接等同于现实世界的安全效能。因此最好的使用方式是将其作为思想实验的加速器和原型验证平台。当你有一个关于自动化攻击策略的新想法时先用 CyberBattleSim 快速建模、训练、验证其基本逻辑是否可行然后再考虑如何在更真实的仿真环境如 Caldera、Metasploit 框架或可控的实网靶场中去进一步测试。这种从抽象到具体的递进能极大地提升你的研究效率和想法质量。

从软件测试到Web3漏洞猎人：专业转型与技术跃迁之路

新纪元的职业新边疆对于长期与软件质量、功能边界打交道的测试工程师而言，一个融合了尖端技术与高价值回报的领域正展现出前所未有的吸引力——Web3安全，尤其是其中的漏洞猎人（Bug Bounty Hunter）角色。这不仅是职业赛道的转换&am…...

2026/4/25 5:13:41 阅读更多 →

我用 Hermes Agent 组建了一支AI研发军团

Hermes Agent 多智能体研发军团 — 完整部署指南版本: v1.0 | 模型: GLM-5.1 (glm-5.1) | 适用平台: Feishu / Lark / CLI 本文档包含从零搭建 6 个独立 Agent Profile（研发军团）的完整步骤。在任意安装过 Hermes Agent 的环境中，按本文档操…...

2026/4/25 5:13:25 阅读更多 →