• 微信
  • 抖音

基于改进YOLOv8的交通标志检测算法论文

理工论文 7℃ 0
SCI发表中的作者贡献度评估与署名规则

  关键词:YOLOv8算法,交通标志,注意力机制,幻影卷积

  0引言

基于改进YOLOv8的交通标志检测算法论文

  交通标志的识别[1]作为智能交通系统中的重要一环,在城市智能交通系统中扮演着非常重要的角色,实现高效率和高精确度的交通标志检测对无人驾驶和辅助驾驶等智能驾驶至关重要[2]。为此对交通标志检测的精度和速度都应提出更高的要求,实际交通标志检测受遮挡、光照强度、采集尺度和视角变化等影响使交通标志检测出现误检和漏检的问题。因此,设计一个准确且实时的交通标志检测方法具有重要现实意义[3]。

  自2014年,Girshick等[4]首次将R-CNN网络用于目标检测后,卷积神经网络凭借强大的特征提取和表征能力,可以自动提取目标特征,实现高精准的检测性能,被广泛应用于交通标志检测任务中。

  针对基于深度学习的交通标志检测方法,Li等[5]提出了一种改进的Faster R-CNN[6]复杂环境交通检测方法,针对复杂环境和小目标遮挡等问题,通过VGG16和多尺度融合获取更多的特征信息;Liu等[7]针对野外交通标志背景复杂和遮挡问题,提出了一种交通标志检测网络模型,通过构建注意力驱动的双边特征金字塔子网络和引入自适应感受野融合模块,提高了对野外交通标志检测的精确率;王卜等[8]针对交通标志图像小目标多和定位困难等问题,提出了一种引入空间金字塔池化和多尺度特征融合模块的YOLOv3[9]网络结构,提高网络对小目标的检测精度;韩岩江等[10]针对不同光照条件下的交通标志图像,提出了一种改进的YOLOv5[11]算法,通过引入CA(坐标注意力机制)提升网络对重要特征的关注,降低光照的影响,同时通过BiFPN(双向加权特征金字塔)提升网络的特征融合能力。

  对此,本文提出了一种改进的YOLOv8交通标志检测算法,通过引入全局注意力机制,提升网络对重要特征的关注,引入幻影卷积替换原网络中普通卷积,降低模型的大小,减少网络的参数量,针对交通标志图像中的小目标,添加一个小目标检测层,提升模型检测的精确率,改善原算法的误检和漏检问题。

  1 YOLOv8n模型

  YOLOv8算法是由Ultralytics LCC公司在YOLOv5模型上改进的单阶段检测模型[12],其网络结构如图1所示,YOLOv8网络由主干网络Backbone、网络颈部Neck和网络头部Head组成,主干网络负责对图像的特征提取,颈部对提取的特征图进行特征融合处理,头部对生成的特征图进行预测。

  2 YOLOv8n算法改进

  在YOLOv8n骨干网络加入GAM模块,在关注输入数据全局上下文信息的同时,还减少了对特定区域的依赖,提高了模型的鲁棒性;引入幻影卷积替换掉原网络中普通卷积,在减轻网络模型地同时也提高了模型的检测速度;添加了一个小目标检测层,提高了模型对小目标的检测效果,改进后模型的网络结构如图2所示。

  2.1注意力机制

  注意力机制[13]的核心在于通过对全局信息的观察,精确定位需要提取的关键信息,并削弱或过滤掉与任务无关的背景和冗余信息,从而提高模型的性能和效果。本文检测的交通标志数据集多为城市图像,环境背景干扰多且复杂,在进行中远距离检测的时候不容易提取到图像特征,因此为了提高网络对交通标志图像的特征表达能力,如图2所示,本文在YOLOv8的骨干网络中引入全局注意力机制(Global Attention Mechanism,GAM)[14]模块用来学习交通标志的特征。

  GAM模块是由通道注意力模块子模块和空间注意力子模块组成,通道注意力机制[15]关注特征通道之间的关系,判断每个特征通道的重要程度,它可以帮助模型自动地选择和加权不同的特征通道,提取信息和关键的特征,空间注意力机制[16]主要通过特征图中的位置关系,来帮助模型捕捉不同位置之间的关联性和空间结构,从而提取像素级的特征信息。通过结合空间注意力和通道注意力,模型可以在不同的维度上进行特征选择和加权。空间注意力可以突出重要的空间位置,而通道注意力可以强调重要的特征通道[17]。

  全局注意力机制的核心思想是根据每个输入序列元素与当前上下文之间的相似度计算来获取注意力权重,GAM不仅关注了序列中每个元素对当前上下文的贡献,还考虑了元素之间的整体关联性,通过全局加权处理,能够在特定任务中选择性的关注所有元素,从而更充分的利用输入信息[18]。GAM模块结构如图3所示,F1∈ℝC×H×W,F2为过度特征图、F3为输出特征图,公式如式(1)、式(2)所示:

  通道注意力子模块如图4所示,对输入的特征图进行维度转换,转换后的特征图输入到MLP(Multi-Layer Perceptron),再转换到原来的维度,将最终获取的数据使用sigmoid函数进行处理输出。空间注意力子模块如图5所示,使用2个7×7大小的卷积层进行空间融合,减少通道数量的同时加强了对空间信息的提取。

  2.2轻量化模型

  从图1中可以看出,YOLOv8网络中存在大量的卷积模块,卷积模块能够消除图像的噪声,提取图像的特征,但过多的卷积操作会增加网络的计算量和推理的时间。以YOLOv8主干网络中的第三层卷积为例,卷积操作输出的全通道特征图如图6所示,卷积输出的各通道特征图中,存在多组相似的图像,表明在卷积高计算量消耗下并没有输出特征更为丰富的特征图。

  为了减少模型的计算量,同时保持网络输出和传递特征图的特征不受影响,本文使用幻影卷积(Ghost Con‐volution)[19]替换网络中的普通卷积,改进后的网络结构如图2所示。幻影卷积模块通过计算量更为经济的卷积运算和线性变换,能够在减少计算量的同时,保证输出特征图尺度的统一性和特征的丰富性[20],其结构如图7所示。

  普通卷积如图7(a)所示,当输入数据为X∈ℝC×H×W,其操作过程和计算量如式(3)、式(4)所示:

  Y=X*f+b(3)

  Cconv=n×h'×w'×c×k×k(4)

  式中:∗f∈ℝc×k×k×n为卷积操作,Y∈ℝH'×W'×n为通道数为n的输出特征图;b为偏置项。

  幻影卷积如图7(b)所示,先使用普通卷积得到本征特征图Y'如式(5),然后对Y'使用廉价线性运算Φi,j,其操作过程如式(5)、式(6)所示,计算量如式(7)所示:

  式中:卷积核f'=ℝc×k×k×m中m≤n;

  征图;yij为第i个特征图通过运算,生成第j个幻影特征图。

  网络中加入Ghost模块的结构如图8所示,由2个堆叠的Ghost模块组成,第一个Ghost模块的功能是增加通道数,第二个Ghost模块的功能是减少通道数,使其与输出的通道数相匹配。上述的Ghost模块仅适用于步长为1的情况,当步长为2时,残差路径由下采样层和步长为2的深度卷积完成功能的实现。

  2.3增加小目标检测层

  在交通标志检测中,把交通标志数据集通过距离大小分为大、中和小目标3种情况。在车辆行驶的过程中,大部分交通标志都是由远及近,导致交通标志图像中存在较多的小目标,本文使用数据集中交通标志目标的位置与大小分布如图9所示,可以看出数据集中小目标的交通标志占比较大,所以提升模型对小目标的检测效果对交通标志检测具有重要意义。

  YOLOv8继续沿用了YOLOv5的三尺度特征层进行检测,其输入图片经过骨干网络的5次下采样,输出特征图的大小分别为20×20、40×40和80×80,它在大目标的数据集上有不错的检测效果,但是对于远距离的小目标交通标志图像,由于多倍的下采样操作使更高层级上丢失细节信息,导致模型的检测效果不佳。

  因此,为了解决特征提取网络过度采样导致的小目标检测效果不佳的问题,如图2所示,本文在YOLOv8n3个检测层的基础上,添加了一个小目标检测层P2,与其他3个检测层组成新的检测头,其检测特征图尺寸和对应感受野如表1所示。改进后网络可以有效地利用浅层的特征信息,减少了因多倍下采样导致的小目标区域特征信息的丢失,有效改善网络对小目标的漏检和误检问题[21]。

  3实验结果及分析
       3.1数据集

  本文使用的数据集为中国交通标志检测数据集2021(Chinese Traffic Sign Detection Benchmark,CCTSDB)[22],由长沙理工大学张建明老师团队制作完成。数据集共有17 856张图像,包括强制、禁止和警告3类。由于数据集中存在部分分辨率低和相似度较高的图片,通过筛选后打乱重组,将选出的10 560张图片分为训练集和测试集进行检测,其中选取8 560张为训练集,2 000张为测试集。

       3.2实验环境

  本文实验所用系统为Windows11操作系统,实验电脑配置为8 GB显存的NVIDIA GeForce RTX 4060显卡,CPU为Intel(R)Core(TM)i7-13700H,在Pytorch框架下进行模型部署[23]。实验参数如下:输入图片尺寸为640×640,批量大小为16,数据加载器数量为8,迭代次数为250,初始学习率为0.01,动量为0.937,优化器为SGD。如图10所示,当训练轮次到达200时,改进前后的模型都开始收敛,其中改进后的模型相比原模型收敛速度更快并具有更低的损失。

  3.3消融实验

  本文实验使用精确率P、召回率R和平均精确率RmAP作为模型检测性能的评价指标,其定义如式(8)~(11)所示:

  其中,NTP为真阳性,表示模型正确检测到目标物体;NFP为假阳性,表示模型将其他物体误检成目标物体;NFN为假阴性,表示模型未正确检测到目标物体;P(r)为精确率和召回率平滑曲线;Pi中的i为第i个类别;C表示总类别。

  为了验证本文所提出的改进对交通标志检测性能的影响,增加单个改进或组合多个改进的消融实验如表2所示。

  从表2中可以看出,仅添加GAM注意力模块时,模型的参数增加,但精确率和平均精确率有所提升;仅添加Ghost模块时,模型的召回率和平均精确率都得到提升的同时,参数量仅为原模型的86%;仅添加小目标检测层时,模型的精确率、召回率和平均精确率都有明显提高。在组合改进的实验中,除GAM模块与Ghost模块组合的召回率下降外,其他组合改进的模型在精确率、召回率和平均精确率上都得到了提高,整合所有改进后,与原模型相比,改进后的模型仅增加小部分参数量,但在精确率、召回率和平均精确率上提升效果显著,分别提升2.6%、1.1%和1.5%。

  3.4检测效果对比

  为了检验本文算法改进后的实际检测效果,实验使用改进前后的模型分别对不同场景下的交通标志进行检测,对比结果如图11所示,其中上方图片为原模型检测,下方图片为改进后模型检测[24]。

  图11中(a)为雪天下交通标志检测结果,两个模型都能正确检测出交通标志目标,但改进后的模型检测结果具有更高的置信度;图11中(b)为阳光下的检测结果,其中原模型出现漏检的问题,同时检测到目标置信度仅有0.75,而改进后的模型能全部检测到所有小目标的交通标志,检测到的置信度也要远高于原模型;图11中(c)为大雾天气下的检测结果,原模型在漏检的情况下还存在较低的置信度,改进后的模型能有效的检测到漏检目标,同时置信度高于原模型检测结果;图11(d)为夜晚雨天下的检测结果,两种模型都能检测到目标,但原模型存在将红路灯检测为交通标志的情况。综上所述,改进后的模型在交通标志的检测中有较高于原模型的置信度,同时对原模型中存在的交通标志目标漏检和误检现象有所改善。

  3.5目标检测算法对比

  为进一步验证改进后算法的有效性,在不改变实验参数和数据集的情况下,使用相同的实验设备和训练策略,以P、R、RmAP和RFPS为评价指标,将改进算法与现阶段主流目标检测算法Faster R-CNN、SSD[25]、YO‐LOv3、YOLOv5、YOLOX[26]和YOLOv7[27]等进行对比,实验结果见表3。

  实验结果表明,改进后的算法相较于主流目标检测算法Faster R-CNN、SSD、YOLOv3、YOLOv5、YOLOX和YOLOv7等有着更好的检测精度和检测速度。由于模型骨干网络引入GAM模块和颈部增加小目标检测层的缘故导致网络模型体积增大和计算量增加,因此将原网络中的普通卷积替换为幻影卷积减小网络模型大小的同时降低网络计算量。综上所述,改进后模型在体积仅增加8%的情况下,对精确率、召回率、平均精确率和帧率得到更大的提升。

  4结束语

  本文介绍了关于改进的YOLOv8交通标志检测模型,针对CCTSDB数据集中存在的背景内容复杂,特征信息不利于提取的问题,提出了一种结合通道注意力和空间注意力优点的注意力机制:全局注意力机制(GAM),它能有效地捕捉到全局上下文信息,使得模型可以在全局范围内关注到输入数据的重要信息,同时可以减少对特定区域的过度依赖,提高模型的鲁棒性;引入幻影卷积替换掉原网络中普通卷积,在减轻网络模型地同时也提高了模型的检测速度;同时针对交通标志检测里小目标图像占比较多的问题,在原网络模型中加入了一个小目标检测层,使其保留更多的图片信息防止小目标信息丢失,更加有效地利用浅层的特征信息,提高模型检测地精确率。实验结果表明,本文改进后的算法在小目标检测、精度上有所提升,针对原模型的漏检和误检有所改善,并在速度上可以达到实用性的检测。

  参考文献:

  [1]杨力川.基于深度学习的交通标志识别研究综述[J].现代计算机,2021(15):3-5,11.

  [2]茅智慧,朱佳利,吴鑫,等.基于YOLO的自动驾驶目标检测研究综述[J].计算机工程与应用,2022,58(15):68-77.

  [3]尹靖涵,瞿绍军,姚泽楷,等.基于YOLOv5的雾霾天气下交通标志识别模型[J].计算机应用,2022,42(9):2876-2884.

  [4]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Pro‐ceedings of the IEEE Conference on Computer Vision and Pat‐tern recognition,2014:580-587.

  [5]Li Cuijin,Qu Zhong,Wang Sheng ye,et al.A method of cross-layer fusion multi-object detection and recognition based on im‐proved faster R-CNN model in complex traffic env-ironment[J].Pattern Recognition Letters,2021,145:127-134.

  [6]Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time ob‐ject detection with region proposal networks[J].Advances in neu‐ral information processing systems,2015,28.

  [7]Liu Yuanyuan,Peng Jiyao,Xue Jinghao,et al.TSingNet:Scale-aware and context-rich feature learning for traffic sign detection and recognition in the wild[J].Neurocomputing,2021,447:10-22.

  [8]王卜,何扬.基于改进YOLOv3的交通标志检测[J].四川大学学报(自然科学版),2022,59(1):51-61.

  [9]Redmon J,Farhadi A.YOLOv3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018.

  [10]韩岩江,王伟,王峰萍.融合坐标注意力和BiFPN的YOLOv5s交通标志检测方法[J].国外电子测量技术,2022,41(11):170-179.

  [11]Jocher G,Chaurasia A,Stoken A,et al.ultr-alytics/YOLOv5:V7.0-YOLOv5 SOTA realtime instance segmentation[J].Zenodo,2022.

  [12]王静,孙紫雲,郭苹,等.改进YOLOv5的白细胞检测算法[J].计算机工程与应用,2022,58(4):134-142.

  [13]Mun H,Yoon S M.A Study on Various Attention for Improving Performance in Single Image Super Resolution[J].Journal of Broadcast Engineering,2020,25(6):898-910.

  [14]Liu Y,Shao Z,Hoffmann N.Global attention mechanism:Retain information to enhance channel-spatial interactions[J].arXiv preprint arXiv:2112.05561,2021.

  [15]Hu J,Shen L,Sun G.Squeeze-and-excitationnetworks[C]//Pro‐ceedings of the IEEE Conference on Computer Vision and Pat‐tern Recognition.2018:7132-7141.

  [16]Rizzolatti G,Craighero L.Spatial attention:Mechanisms and the‐ories[J].Advances in Psychological Science,1998,2:171-198.

  [17]黄志强,李军.基于空间通道注意力机制与多尺度融合的交通标志识别研究[J].南京邮电大学学报(自然科学版),2022,42(2):93-102.

  [18]肖粲俊,潘睿志,李超,等.基于改进YOLOv-5s绝缘子缺陷检测技术研究[J].电子测量技术,2022,45(24):137-144.

  [19]Han K,Wang Y,Tian Q,et al.Ghostnet:More features from cheap operations[C]//Proceedings of the IEEE/CVF Conference On Computer Vision and Pattern Recognition.2020:1580-1589.

  [20]周孟然,李学松,朱梓伟,等.井下矿工多目标检测与跟踪联合算法[J].工矿自动化,2022,48(10):40-47.

  [21]李娇,葛艳,刘玉鹏.基于改进YOLOv5的昏暗小目标交通标志识别[J].计算机系统应用,2023,32(5):172-179.

  [22]Zhang J,Zou X,Kuang L D,et al.CCTSDB 2021:a more compre‐hensive traffic sign detection benchmark[J].Human-centric Computing and Information Sciences,2022,12.

  [23]朱开.基于改进YOLOv5的交通标志识别模型[J].信息技术与信息化,2023(2):30-33.

  [24]胡昭华,王莹.改进YOLOv5的交通标志检测算法[J].计算机工程与应用,2023,59(1):82-91.

  [25]Liu W,Anguelov D,Erhan D,et al.Ssd:Single shot multibox detec‐tor[C]//Computer Vision-ECCV 2016:14th European Conferen-ce,Amsterdam,The Netherlands,October 11-14,2016,Proceed‐ings,Part I 14.Springer International Publishing,2016:21-37.

  [26]Ge Z,Liu S,Wang F,et al.Yolox:Exceedi-ng yolo series in 2021[J].arXiv preprint arX-iv:2107.08430,2021.

  [27]Wang C Y,Bochkovskiy A,Liao H Y M.YOLOv7:Trainable bag-of-freebies sets new s-tate-of-the-art for real-time object de‐tectors[C]//Proceedings of the IEEE/CVF Conference on Com‐puter Vision and Pattern Recognition.2023:7464-7475.

学术期刊发表-留言咨询

免费咨询 高端品质服务 专业学术顾问为您解答!