Herqles架构:量子比特读取的硬件高效判别器设计与FPGA实现
1. 项目概述量子比特读取的精度与速度困局在量子计算的世界里有一个操作看似基础却直接决定了整个系统的上限量子比特的读取。你可以把它想象成计算机的“内存读取”指令但这里读取的不是0或1的确定性电压而是一个处于叠加或纠缠态的量子比特。我的工作长期与超导量子比特打交道一个深刻的体会是无论你的量子门保真度做到多高算法设计得多精妙如果最后一步“读”错了一切归零。当前主流的超导量子处理器上读取误差普遍在1%到10%之间而一次读取操作耗时动辄数百纳秒这成了制约量子计算实用化的关键瓶颈之一。误差从哪来根源在于量子世界的脆弱性。当你用一个微波脉冲去“询问”一个量子比特的状态时这个测量过程本身就会引入干扰。串扰Crosstalk就像在嘈杂的派对上听不清一个人的话因为相邻量子比特的测量信号混在了一起。弛豫Relaxation则是量子比特自身的“能量泄漏”一个本该是“1”的激发态可能在测量完成前就自发地掉回了“0”态。此外测量脉冲也可能意外地将“0”态激发成“1”态产生激发误差。这些非理想因素交织在一起使得从复杂的模拟信号中准确分辨出“0”和“1”成为一项极具挑战性的信号处理任务。传统的解决方案面临一个两难选择。一方面是使用简单的硬件判别器比如在FPGA上实现的匹配滤波器。它速度快、延迟低能实时处理数据但精度有限尤其难以应对多比特读取时的串扰问题。另一方面是采用强大的软件判别器比如在经典计算机上运行的大型深度神经网络。它能从原始的、高维的读取信号中挖掘出深层特征显著提升精度但代价是巨大的延迟——需要将海量的ADC原始数据从控制硬件传输到主机进行运算这严重拖慢了整个量子电路的执行速度对于需要实时反馈或高吞吐量的应用来说是致命的。因此我们面临的核心问题就是能否设计一种判别器架构既能达到甚至超越软件神经网络的精度又能像简单硬件滤波器一样快速、低延迟并且易于在控制硬件如FPGA上规模化实现这正是我们提出herqles架构的初衷在硬件效率与读取精度之间找到那个最优的平衡点。2. 核心思路分层处理与特征工程面对上述困局herqles的设计哲学非常清晰不做单一的、臃肿的“巨无霸”模型而是构建一个分工明确、各司其职的“流水线”。其核心思路可以拆解为两个关键层次高效的维度压缩与精准的特征增强。2.1 第一层用匹配滤波器进行智能压缩大型神经网络判别器的根本问题在于输入维度太高。对于一个持续1微秒的读取信号以2GS/s采样I、Q两路就是4000个数据点。直接用这些数据训练一个全连接网络参数量巨大根本无法部署到资源有限的FPGA上。我们的第一个洞察是并非所有数据点都同等重要。匹配滤波器Matched Filter, MF在这里扮演了“数据提炼师”的角色。它的原理是基于最大信噪比准则为每个量子比特学习一个最优的滤波模板。这个模板本质上是一个权重向量其形状与在无噪声、无弛豫的理想情况下“0”态和“1”态读取信号的差值波形相匹配。注意匹配滤波器的训练需要标注数据。我们通过标准的量子态制备和测量流程收集大量已知为“0”态和“1”态的读取信号轨迹。计算这两类信号均值向量的差再除以它们的协方差矩阵或简化处理为方差就得到了最优的MF权重。这个过程计算量小且为每个量子比特独立进行线性可扩展。在推理即实时读取时操作变得极其高效将实时采集到的读取信号轨迹与预先生成的MF权重模板进行点积乘累加运算。这个操作在硬件上只需要一系列乘法器和累加器即可实现最终将一个长达数千维的时间序列压缩成一个单一的标量值。这个标量值已经最大程度地汇聚了区分“0”和“1”的信息。2.2 第二层引入弛豫探测弥补信息损失然而简单的维度压缩是有代价的。MF在最大化信噪比时隐含的假设是信号波形是稳定的。但弛豫过程破坏了这一假设——一个量子比特在测量中途从“1”翻转到“0”其信号轨迹是时变的。标准的MF会将其视为一种强烈的噪声导致分类错误这是其精度上限不及大型神经网络的主要原因。我们的第二个关键创新就是专门针对弛豫过程进行特征工程。我们意识到发生弛豫的轨迹其形态既不同于稳定的“1”态也不同于稳定的“0”态。它更像是一个从“1”态区域向“0”态区域过渡的路径。因此我们为每个量子比特引入了第二个匹配滤波器——弛豫匹配滤波器。它的训练目标不再是区分“0”和“1”而是区分“稳定的0态”和“从1弛豫到0的轨迹”。训练这个RMF需要一个挑战如何获得大量标注好的“弛豫轨迹”数据在实验中主动诱发并精确标记弛豫发生的时刻是极其困难的。我们提出了一种巧妙的半监督标注算法。其核心思想基于一个观察在IQ平面上大量“1”态制备的测量结果中总有一部分点落在了“0”态簇的中心区域。这些点很可能对应着在测量开始前或测量过程中就已弛豫的量子比特。我们通过计算“0”态和“1”态轨迹平均值的中心点并以两点距离的一半为半径画圆将落在“0”态中心圆内的“1”态标签数据重新标记为“弛豫候选轨迹”。用这些数据与纯净的“0”态数据一起就能训练出专用于探测弛豫特征的RMF。2.3 第三层轻量级神经网络的决策融合经过前两层处理我们为每个量子比特得到了两个高度凝练的特征值一个来自标准MF主要编码稳态区分信息一个来自RMF主要编码弛豫探测信息。对于一组N个频率复用的量子比特我们就得到了2N个特征。现在输入到神经网络的数据维度从几千骤降到了2N例如5个比特就是10维。我们可以使用一个非常小的前馈神经网络例如10-20-40-20-32的结构来接收这些特征。这个网络的作用不再是艰难地从原始噪声中提取特征而是成为一个智能的“决策融合器”。它学习如何权衡来自MF和RMF的证据并同时处理多个比特之间的串扰关联。因为输入维度极低这个网络小到可以轻松地集成到FPGA的逻辑资源中实现真正的硬件原位推理彻底消除了数据传输的延迟。3. 架构实现与硬件部署细节理论设计需要扎实的工程实现来落地。下面我详细拆解herqles从数据处理到FPGA部署的全流程其中包含了许多在论文中一笔带过、但对实际复现至关重要的细节。3.1 数据处理与训练管线完整的herqles训练是一个分阶段的过程必须严格按顺序进行数据采集与预处理使用量子处理器对每个量子比特分别制备到|0⟩和|1⟩态并进行多次测量收集数万条原始的I、Q时间序列数据。每条数据都带有制备态的标签。对数据进行数字解调。对于频率复用读取需要将ADC采到的复合信号分别与每个量子比特对应的谐振腔频率进行混频和下变频分离出各个比特的独立轨迹。进行时间对齐和归一化。由于仪器响应和路径延迟每次测量的起点可能轻微漂移需要用互相关等方法进行对齐。归一化可以消除放大器增益波动带来的整体幅度变化。标准匹配滤波器训练对于每个量子比特将其所有“0”态轨迹和“1”态轨迹分别求平均得到平均轨迹mean_tr0和mean_tr1。计算差值轨迹delta_tr mean_tr1 - mean_tr0。MF的权重向量W_mf理论上应为inv(C) * delta_tr其中C是噪声的协方差矩阵。在实际中为了简化且当不同时间点的噪声近似独立时常采用W_mf delta_tr / var(delta_tr)即用差值轨迹除以自身的方差一个标量。这相当于对差值轨迹进行了幅度归一化。弛豫轨迹标注与RMF训练执行前面提到的半监督标注算法Algorithm 1。这里有一个关键参数是划分“弛豫”的半径。论文采用两中心点距离的一半这是一个启发式阈值。在实践中我们可以通过观察“1”态数据在IQ平面的分布手动调整这个半径或者采用更鲁棒的聚类方法如高斯混合模型来获得更干净的弛豫标签。使用标注出的“弛豫轨迹”和纯净的“0”态轨迹按照同样的公式训练RMF权重W_rmf。此时delta_tr_rmf mean(relax_traces) - mean(ground_traces)。特征提取与神经网络训练用训练好的所有MF和RMF对整个训练数据集进行特征提取。对于每条数据每个量子比特产生两个特征值feature_mf dot(tr, W_mf)feature_rmf dot(tr, W_rmf)。将N个比特的2N个特征值拼接成一个向量作为神经网络的输入。神经网络采用全连接层激活函数推荐使用ReLU输出层为softmax对应所有可能的2^N个计算基态对于5比特是32个输出。损失函数使用分类任务标准的交叉熵损失。实操心得神经网络的训练数据需要做shuffle并且确保来自不同量子态制备的数据分布均衡。由于MF和RMF已经完成了大部分特征提取工作这个网络通常收敛得非常快过拟合的风险也较低因此不需要设计得特别深或特别宽。3.2 FPGA硬件实现要点将herqles部署到FPGA如Xilinx的RFSoC系列上是实现低延迟的关键。以下是核心模块的实现考量解调与MF/RMF滤波模块数字下变频在FPGA上实现数字混频器Numerically Controlled Oscillator, NCO和低通滤波器将中频信号解调到基带得到每个比特的I、Q时序数据。乘累加流水线MF和RMF的点积运算是典型的乘累加MAC操作。需要为每个量子比特实例化两个并行的MAC流水线。考虑到读取轨迹长度例如500个时间点可以设计一个深度为500的流水线每个时钟周期完成一次乘法和累加。使用FPGA的DSP Slice资源可以高效实现。权重存储MF和RMF的权重向量W_mf,W_rmf可以预先计算好存储在FPGA的Block RAM或分布式RAM中。它们只在量子芯片标定更新时才需要重写。轻量级神经网络模块定点量化这是硬件实现的核心。神经网络的输入MF/RMF输出、权重和激活值都必须从浮点数转换为定点数。我们需要进行量化感知训练或训练后量化以确定最优的位宽如8位整数。这能极大减少DSP和BRAM的消耗。层实现全连接层的计算本质是矩阵向量乘法。对于小规模的网络如10-20可以直接展开为并行乘法器。也可以采用时分复用的方式用一个较大的MAC单元循环计算。选择哪种方式取决于对吞吐量和资源消耗的权衡。激活函数ReLU函数在硬件上实现成本极低就是一个比较器和多路选择器。Softmax层在硬件上实现较为复杂但对于分类任务通常取输出层中最大值对应的索引作为结果可以避免复杂的指数和除法运算。资源评估与时序收敛根据论文数据用于5比特的herqlesmf-rmf-nn设计在类似Zynq UltraScale的器件上仅使用了不到8%的LUT资源。这为系统集成留下了巨大空间。我们可以将多个这样的判别器模块集成到同一块FPGA上同时处理多组频率复用的量子比特实现真正的规模化。整个数据通路从ADC数据输入到神经网络判别结果输出必须在下一个读取操作开始前完成。这意味着我们需要进行精确的时序分析确保流水线的每一级都满足时钟周期要求。通常这需要数百纳秒的量级对于微秒级的读取操作是完全可以接受的。重要提示在将模型部署到FPGA之前一定要在软件环境中如Python搭建一个完整的、使用定点数计算的仿真模型并与浮点模型的结果进行逐位对比验证。这是确保硬件功能正确的关键一步可以避免在硬件调试中陷入困境。4. 性能优势与可扩展性分析Herqles并非只是一个理论上的改进它在精度、延迟和灵活性上都带来了实质性的提升。我们基于一个真实的五比特超导量子芯片数据集进行了全面对比测试。4.1 读取精度对比我们对比了多种判别器架构Baseline (FNN-large)文献[26]中的大型前馈神经网络直接处理1000维原始数据。mf仅使用标准匹配滤波器阈值分类。mf-svmMF输出作为特征送入支持向量机分类。mf-nnMF输出作为特征送入我们的小型神经网络。mf-rmf-svmMF和RMF输出作为特征送入支持向量机。mf-rmf-nn (Herqles)MF和RMF输出作为特征送入我们的小型神经网络。结果清晰地展示了分层设计的威力。相比于直接使用MF增加一个小型神经网络mf-nn能有效缓解串扰带来一定的精度提升。但最大的飞跃来自于引入RMF特征。mf-rmf-nn设计在几乎所有比特上都取得了显著优于基线大型FNN的精度。对于5比特系统的累积保真度F5Qherqles达到了92.7%比基线的91.2%提升了1.5个百分点。不要小看这1.5%在量子读取领域这相当于将读取错误率相对降低了超过16%。如果排除其中一个由于实验设置导致信噪比极差的比特Qubit 2仅看其他四个比特的累积保真度相对错误率的降低更是达到了惊人的42.9%。4.2 延迟与硬件复杂度优势这是herqles设计的核心目标。我们将三种方案的硬件复杂度与延迟进行对比判别器类型硬件实现位置关键操作延迟主要来源硬件资源消耗 (示例)可扩展性软件判别器 (如Baseline FNN)主机CPU/GPU数据传输、大型矩阵运算1. 原始数据从FPGA到主机的传输延迟~10-100 μs。2. 神经网络前向传播时间。不占用FPGA逻辑资源但需要强大的主机。差。数据带宽和主机计算成为瓶颈比特数增加时延迟线性增长。简单硬件判别器 (如MF阈值)FPGA逻辑乘累加(MAC)、比较仅FPGA内部流水线延迟~0.1-0.5 μs。极低。主要为MAC单元和寄存器。优秀。每个比特独立资源线性增长。Herqles (mf-rmf-nn)FPGA逻辑MAC、小型神经网络计算FPGA内部流水线延迟~0.2-1 μs。小型神经网络增加了一些计算深度。低。论文显示5比特系统仅占用约8%的LUT。神经网络因输入维度低而非常小。优秀。MF/RMF模块可并行复制小型神经网络随输入维度2N线性增长远低于原始数据维度增长。从上表可以清晰看出herqles在硬件复杂度上远低于需要实现大型FNN的方案使其能够轻松部署在现有的量子控制平台如基于RFSoC的QICK系统上。在延迟上它保持了硬件判别的优势所有计算在FPGA上实时完成无需与主机通信这对于量子纠错中的实时译码等应用至关重要。4.3 动态读取时长调整一个被忽略的实用特性在实验和实际应用中我们常常希望优化读取时间。更短的读取时间意味着更低的弛豫错误概率和更快的电路循环时间。但传统判别器面临一个尴尬如果你训练了一个针对1微秒读取数据的神经网络当你想尝试0.8微秒的读取时就必须重新收集数据、重新训练模型。Herqles的架构天然支持动态读取时长调整。因为MF和RMF的权重是基于整个读取时长训练的但它们的点积运算是可累加的。在推理时如果我们决定只使用前T个时间点T 总时长我们只需要简单地将MAC运算提前终止在T时刻即可。MF和RMF的输出值会发生变化但它们所代表的特征信号与模板的匹配程度仍然是有效的。后续的小型神经网络已经学会了如何根据这些特征值的变化来做出判断。这意味着我们可以用一套训练好的herqles模型支持多种不同的读取时长。我们在实验中验证将读取时长缩短25%herqles的性能依然优于在完整时长上训练的基线大型FNN。这为系统优化提供了巨大的灵活性允许我们针对不同的量子算法或比特特性动态调整读取参数而无需付出重新训练的成本。5. 实际部署挑战与调优经验将herqles从论文搬到真实的量子测控系统会遇到一系列预料之中和预料之外的挑战。这里分享一些我们实践中总结的经验。5.1 数据质量与标注算法的稳定性herqles的性能基石是高质量的MF和RMF。这高度依赖于初始训练数据的质量。状态制备保真度用于生成“0”和“1”标签数据的量子门操作必须具有高保真度。如果制备的初始态就有误差会污染整个训练集。在数据采集前务必对所用量子比特的X门实现|0到|1翻转进行严格标定。弛豫标注的敏感性Algorithm 1中用于识别弛豫轨迹的半径参数是关键。如果设置得太小会漏掉很多真实的弛豫如果设置得太大会将一些噪声大的“1”态误判为弛豫导致RMF学习到错误的特征。一个实用的技巧是先用该算法得到一个初步的弛豫数据集然后人工检查这些轨迹在时间维度上的形态确认其是否呈现从高能级向低能级衰减的典型特征。可以基于此对算法进行微调。环境漂移量子系统的参数如谐振腔频率、qubit频率会随时间发生漂移。这会导致之前训练的MF权重失效。解决方案是建立定期的重标定流程。可以设计一个简单的自动化脚本每天或每半天运行一次标准态|0和|1的测量快速计算新的MF权重并更新到FPGA中。RMF的更新频率可以更低一些。5.2 硬件实现的量化误差与精度损失在FPGA上使用定点数运算是必然选择但这会引入量化误差。权重与数据位宽选择MF/RMF的权重和输入数据I、Q需要确定位宽。通常ADC输出是12-16位。权重可以量化为12-18位定点数。位宽太低保真度损失大位宽太高消耗资源多。需要通过仿真绘制“位宽-分类精度”曲线找到精度开始饱和的拐点作为硬件实现的位宽。神经网络量化这是更大的挑战。小型网络对量化相对鲁棒。建议采用“训练后量化”流程先在浮点上训练好网络然后使用TensorFlow Lite或PyTorch的量化工具模拟定点运算对权重和激活进行量化。观察精度下降是否在可接受范围内例如0.5%。如果下降严重则需要采用“量化感知训练”在训练过程中模拟量化噪声让网络适应低精度计算。累加器位宽MAC运算中的累加器位宽必须足够大以防止溢出。对于长度为L的轨迹累加器位宽至少需要log2(L) 输入位宽 权重位宽。5.3 系统集成与实时性保障将herqles模块集成到现有的量子测控软件栈中需要关注接口和时序。控制流集成需要开发FPGA的IP核并为其提供配置接口如通过AXI-Lite总线用于更新MF/RMF权重、神经网络参数以及选择读取时长等。上层控制软件如基于Python的量子实验框架需要能够调用这些配置功能。数据流集成ADC数据流需要实时送入herqles处理管道。结果32个输出概率或最终判别的基态索引需要以极低的延迟反馈给控制逻辑用于可能的后继操作如实时重置。时序验证必须使用硬件时序分析工具确保从ADC数据输入到判别结果输出的整个路径满足最坏情况下的时序要求。特别是在高时钟频率下需要精心设计流水线阶段。必要时可以在神经网络层之间插入寄存器以提高时序裕量。5.4 扩展到更多量子比特论文展示了5比特的组。对于规模扩展herqles架构依然清晰组内扩展对于频率复用的N个比特需要N个MF和N个RMF神经网络输入层为2N。只要N不过大例如20神经网络的增长是线性的FPGA资源完全可以承受。组间扩展大型量子处理器通常有多个独立的读取通道。每个通道可以部署一个独立的herqles实例。它们之间没有关联因此扩展是并行的。跨组串扰当前设计主要解决组内频率复用串扰。如果存在跨通道的串扰可能需要将不同组的特征合并到更大的神经网络中但这会迅速增加复杂度。更实用的方法是在硬件和脉冲层面优化隔离度。6. 未来展望与潜在优化方向Herqles为高精度、低延迟的量子读取打开了一扇门但这条路还可以走得更远。结合社区的发展和我们自己的思考有几个方向值得深入探索自适应滤波与在线学习目前的MF和RMF是静态的。能否让滤波器具备一定的自适应能力例如根据实时监测的系统噪声谱微调MF的权重模板。更进一步能否设计一个极简的在线学习循环让小型神经网络能够根据近期测量结果的统计特性轻微调整其权重以补偿系统的慢速漂移这需要在硬件上实现微量的梯度计算和更新是一个有趣的挑战。与纠错码的深度结合herqles输出的不再是简单的0/1硬判决而是32种可能状态的概率分布对于5比特。这些“软信息”对于量子纠错译码器来说是黄金。传统的译码器只接收硬判决的综合征信息。未来可以将herqles的软输出直接馈入更先进的基于置信度传播的译码算法中有望显著降低逻辑错误率。探索更高效的神经网络结构我们目前使用的是简单的全连接网络。对于更多的比特数输入维度增长网络大小也会增长。是否可以探索其他硬件友好的网络结构例如使用二值化权重网络Binary Neural Networks或加法网络AdderNets来进一步压缩模型降低功耗和延迟。或者利用比特间串扰的局部性采用卷积层来提取特征可能用更少的参数获得更好的效果。面向应用的定制化读取herqles支持动态读取时长的特性尚未被充分挖掘。在复杂的量子算法中不同比特、不同算法步骤对读取速度和精度的要求可能是不同的。未来可以开发一套API允许算法层根据当前需求动态地为每个比特或每组比特选择最优的读取时长在速度和精度之间进行实时、精细的权衡。这个领域正在飞速发展硬件高效的机器学习架构无疑将是推动量子计算从实验室走向实际应用的关键拼图之一。Herqles是一个起点它证明了通过巧妙的算法与硬件协同设计我们完全可以在不牺牲性能的前提下将强大的智能推到离量子比特最近的地方。