关键词:
手动提取特征
深度网络
残差特征
组特征
映射
摘要:
行为识别作为人工智能的一个分支,因其潜在的应用价值受到不少研究人员与研究机构的广泛关注。行为识别的根本目的是让机器利用学习算法自动分析视频中有什么人、在什么地方做了什么事情。行为识别的研究成果已经在智能监控系统、基于视频的检索、人机交互系统、辅助医疗等诸多方面发挥出广大的社会效益和经济效益。本文从行为识别的理论研究和实际应用出发,在对行为识别的发展趋势和国内外研究现状综述基础上,主要做了如下几方面工作:(1)回顾了行为识别的发展历程,按照特征提取方式将行为识别方法分为传统手动提取特征方法和基于深度网络学习特征的方法;梳理了自2001年以来行为识别中较常用的数据集,并统计了各数据集近三年的引用次数,侧面分析佐证行为识别的发展趋势;在若干个比较经典的数据集上分析比较了一些具有代表性的行为识别方法并对未来行为识别的发展趋势做了讨论分析。(2)针对单一特征描述符在描述视频空间信息的不足,提出了一种将位置信息映射到视觉特征中的融合方式。该方法通过为采样点分配残差特征和组特征并对这两个特征按照位置信息的聚类原则进行聚类,从而将位置信息传递到视觉特征中,然后将视觉特征和映射了位置信息的残差特征和组特征融合作为视频的表示。为了改进传统VLAD编码方法中聚类中心表现力不足的问题,还对VLAD编码方法做了改进。在UCF101及HMDB51两个大型数据集上的实验结果表明,本文所提算法在识别准确度上有一定提升。(3)针对改进稠密轨迹特征视频表征能力强,但数据维度高,计算量大的问题,本文提出将改进稠密轨迹特征按照描述符种类划分分割成四个子特征。将处理高维数据的问题转化为处理四个低维数据的问题。为了解决特征数据中的冗余问题,本文还提出在编码前对特征数据进行降维白化预处理,去除数据间的相关性。在UCF101及HMDB51数据集上的实验结果表明,本文算法得到了较好效果。