在高分辨率遥感图像识别中,由于高清遥感图像的高分辨率和复杂性,以及不同场景中目标的多样性,现有的基于深度学习的目标检测方法在处理这些图像时面临着许多挑战。例如,目标的尺度、形状和外观变化较大,图像中存在遮挡、光照变化和噪声等因素,这些因素会导致传统算法的准确性和鲁棒性下降。尤其是在YOLO等主流检测框架中,模型对纹理和细粒度特征的过度依赖导致其对目标上下文信息的利用不足,进而影响检测效果。此外,现有模型对小目标检测能力较弱,难以在城市规划、土地利用等遥感应用中满足高精度识别需求。
针对上述问题,中国地质大学(北京)信息工程学院研究生张俊瑜、副教授龙腾等提出了一种融合模块的YOLOv5增强型遥感目标检测方法,主要创新点如下:
1)提出了一种增强型YOLOv5结构,专为遥感图像中小尺寸、低分辨率目标的检测需求而设计。该结构通过引入空间转深度模块增强了原YOLOv5的特征融合能力,从而扩展了感知层对图像细节特征的保留能力,提升了图像的特征表示学习效果。
2)设计了上下文变换集中卷积模块,并应用于YOLOv5的主干网络与颈部网络。该模块显著增强了模型对邻域上下文信息的感知能力,优化了特征表示,从而有效提升了检测精度。
3)对YOLOv5中的传统损失函数进行了优选替换,并在NWPU VHR-10数据集上进行了消融实验验证。结果显示,车辆和桥梁类别的检测精度分别提升了10.1%和11.3%,其他类别的检测效果也有显著提升。
4)分别在DOTA、DIOR和NWPU VHR-10三个遥感图像数据集上开展了实验。实验结果表明,相比原始YOLOv5模型,所提出的新模型在检测精度上有显著提升,其在DOTA、DIOR和NWPU VHR-10数据集上的平均准确率分别达到了71.2%、88.1%和93.5%。(表1,图1)
表 1 不同模型实验结果对比


图 1 检测模型热力图的对比。图中从上至下的三行分别对应NWPU VHR-10、DOTA 和 DIOR 三个数据集。(a) 原始图像;(b) YOLOv5生成的热力图;(c) YOLOv8生成的热力图;(d) DS-YOLOv8生成的热力图;(e) 本文方法生成的热力图
本研究提出的YOLOv5增强模型兼顾了小目标精度识别与上下文信息融合两大难题,显著提升了遥感图像中小尺度目标的检测能力。该方法不仅拓展了YOLOv5在遥感领域的应用边界,也为融合Transformer机制与卷积网络结构提供了新思路。在遥感图像智能解译、自动目标识别、城市监管与应急响应等领域具有广泛的推广价值。
上述研究成果得到了国家自然科学基金(62002332), 全国重点实验室开放课题(RAO2025K04)的资助。发表于遥感领域国际权威期刊《IEEE Transactions on Geoscience and Remote Sensing》:Zhang J., Li S., Long T*. Enhanced Target Detection: Fusion of SPD and CoTC3 Within YOLOv5 Framework. IEEE Transactions on Geoscience and Remote Sensing, Vol. 63, 2025, 3000114. [IF2023 =7.5]
全文链接:https://ieeexplore.ieee.org/document/10781434