毕设:基于融合注意力机制的单目深度估计算法(纯小白钻研历程记录)-Day1 介绍基本情况
一.基本概念融合注意力注意力机制是让模型在处理信息时自动分配权重对关键内容赋予更高关注度、忽略无关信息通过计算查询Q、键K的相似度得到注意力权重再对值V加权融合实现高效聚焦重要信息、长距离关联是 Transformer 与大模型的核心基础。而融合注意力机制则是叠加两层以上的权重赋能设计一套流程把两个注意力机制融合起来采用串行的方法先A后B进一步提升细节捕捉等能力。单目深度估计单目深度估计是指仅利用一张普通 RGB 图像在没有双目视差、激光雷达等额外信息的情况下通过深度学习或视觉算法预测图像中每个像素到相机的距离深度值从而恢复场景三维空间结构的技术。其中深度值就是图片的 “第三维信息”没有它就是平面照片有它就能知道远近、还原 3D、重建空间、编辑场景。二.论文出发点及实际意义融合注意力机制对单目深度估计的核心意义就是让模型精准聚焦对深度最有用的局部细节、捕捉全局空间 / 几何依赖、消除单目固有的深度歧义最终输出更清晰、更准、几何更一致的深度图。单目深度天生缺绝对尺度、易混淆纹理相似但远近不同的区域、CNN 只能抓局部邻域、长距离关系比如远处地平线、物体遮挡建模弱加入空间 / 通道 / 自注意力后模型能自适应给每个像素 / 通道 / 区域分配权重重点强化物体边界、纹理、遮挡处的深度特征弱化纯色 / 无意义背景同时建立像素间长距离关联、对齐多尺度深浅层特征、保持深度在边缘 / 平面 / 时序上的一致性大幅减少深度模糊、跳变、几何失真提升精度与鲁棒性。三.毕设思路