关键词:
深度学习
细粒度图像分类
注意力机制
嵌入式系统
摘要:
在深度学习技术的疾速演进下,细粒度图像分类在近年来备受关注和重视。与早期一些较为基础的图像分类任务相比,细粒度图像分类目标的不同子类间差异小,相同子类内差异大,这要求对目标图像中的细小特征和图像间的微小差异进行更加具体、精细的识别,即不仅需要关注物体的整体外观特征,更需要捕捉到细节和差异。然而,现有部分分类方法的特征提取能力仍存在不足,多数方法忽视了目标图像浅层有效特征的作用,无法很好地利用有利的信息。同时,为了获得更好的分类性能,许多方法复杂度逐步提升,导致时空开销剧增,这无疑是对嵌入式部署工作的考验。此外,在实践中,细粒度图像分类嵌入式系统方面的研究较为有限,受限于深度学习开发工具在不同架构的适配情况,一些技术仍处于模拟阶段,而真正实现落地应用的系统案例则较少或存在短板。
为了解决上述问题,本文从细粒度图像分类算法的设计和嵌入式部署这两个角度进行了分析、研究与实现,并最终形成了一套功能完整、逻辑自洽的,基于深度学习的细粒度图像分类嵌入式系统。
一方面,本文创新设计了一种基于Swin Transformer的新型网络架构SFRSwin。SFRSwin在保留了Swin Transformer的低时空开销优势的同时,通过引入新的设计改进,能够更好地捕获图像中的细微差异。具体而言,本文在SFRSwin的架构中设计了一个全新分支,用于保留来自图像的浅层显著特征,并利用卷积与最大池化来实现这一目标。通过将这些显著特征与Swin Transformer单元的输出相加,增强了网络对细微差异的识别能力。同时,引入了随机数据增强技术,如随机缩放和水平翻转,以解决小样本数据集的训练不足问题,并提高了模型的鲁棒性。SFRSwin在公用数据集Stanford Dogs以及小规模数据集Shark species上进行了训练和测试,验证集上的准确率达到93.8%与84.3%,较改进前网络分别提高0.1%以及0.3%。而在代价方面,FLOPs仅增加2.7%,参数量仅增加0.15%。可以说,SFRSwin在公共数据集上达到了领先水平,并在小型数据集上展现出了较好的适应性,具备了广泛的实际应用潜力。
另一方面,本文对自拟的细粒度图像分类网络SFRSwin进行了嵌入式部署,将类Transformer网络成功部署到运行Ubuntu系统的树莓派4B上。搭建了算法的推理环境,包括编译安装ARMv8架构的Torch和Torchvision,同时,通过替换深度可分离卷积,实现了对SFRSwin的部署优化。在此基础上,进行了算法推理。结果表明,部署的算法达到了同x86架构下进行推理的相同准确率。
在上述研究的保障下,本文设计搭建了一套嵌入式系统。系统旨在采集环境图像,对图像进行处理以确定环境中是否存在及存在何种类型的特定目标。在系统硬件方面,设计了独立供电模块和采集摄像头补光模块,以确保系统的独立、稳定运行。在系统软件方面,设计并实现了定时运行逻辑,包括图像采集、图像增强、分类推理和结果保存等功能。实验结果表明,嵌入式系统能够顺利运行,并成功实现了所设计的功能,具备了较好的鲁棒性。这进一步提升了SFRSwin算法在嵌入式设备上的可用性,也使本文的研究内容能够在更多领域得到应用。