随着社会的发展,以深度学习为代表的人工智能技术近年来被广泛应用于科学技术的研究和日常生活的各个方面,如人脸识别、指纹识别、违章拍照和智能汽车自动驾驶等方面。由于人类很多信息来源于视觉,因此图像识别是深度学习领域的一个重要组成部分。如何进行图像识别是深度学习系统应用的关键问题之一。传统的图像识别是将图像的特征提取和图像分类分开操作的,这就使得对于图像的特征提取需要人为构建。这样做不仅仅加大了人的工作量,而且大大的降低了对图像特征提取的效率。在面临一些复杂图像的特征提取时,人们往往会忽略对大部分细节的处理,如图像的颜色、纹理和明暗度等一些浅层特征,这样也大大限制了传统图像识别的应用场景。近年来,卷积神经网络的应用开始普及,从2012年Alex Net卷积神经网络的出现直到Mask-rcnn算法,卷积神经网络开始变得实用化。卷积神经网络最大的特点在于特征提取和分类被整合到了一个单独的神经网络中。卷积神经网络是多层感知机的变体。它通过重新组织结构、减轻自身重量和在识别之前省去了复杂的图像特征提取过程,将特征提取功能集成到多层感知机中。在卷积神经网络中,层与层之间紧密的连接使其适用于对图像的处理和理解,同时它还可以自动从图像中提取一些丰富的相关特征。本文深入研究了卷积神经网络下的图像识别问题,研究主要内容包括:(1)改进Alex Net网络算法,并应用于大规模图像识别。通过修改网络框架、增加批量归一化算法、用最大均值池化核代替最大池化核和使用全局均值池化卷积核代替全连接层等方式对传统Alex Net卷积神经网络进行改进,成功的提升了原有基于Alex Net卷积神经网络对图像的识别效果。在图像识别领域能够提高识别精度无疑是重要的,因此本章的工作也就具备了一定的实际意义。(2)深入研究多帧VGGNet卷积神经网络,并应用于场景图像识别。多帧VGGNet卷积神经网络模型一方面能够保留住场景图像中的全局信息,另一方面也保留了场景图像中的详细信息。使用该网络模型对场景图像进行识别相比较传统单一的VGGNet卷积神经网络模型得到的识别精度更高,特征图像的提取效果也更好。(3)改进多帧VGGNet卷积神经网络算法,并应用于室内场景图像识别。首先基于多帧VGGNet卷积神经网络对场景图像进行识别,再对多帧VGG网络框架进行改进。通过在每一个卷积核后面增加批量归一化算法以及用max-avg池化核代替原有的max池化核,并用全局平均池化卷积层代替全连接层进行特征提取,最后使用双通道卷积技术对双帧网络进行耦合计算。利用数据集进行了训练和测试时我们使用增强数据的方式来防止模型的过拟合。本文的研究实现了多帧卷积神经网络和批量归一化算法的有效结合,对场景图像的识别具有很好的实践效果。 摘要译文
深度学习; 卷积神经网络; 特征提取; 图像识别; 场景图像
TP391.41[图形图像识别];TP183[人工神经网络与计算]
140502[人工智能];081103[系统工程];081104[模式识别与智能系统];081107[建模仿真理论与技术]
10.26917/d.cnki.ganhu.2020.001292