序
众所周知,人类视觉具有非凡的环境感知能力,似乎毫不费力就可以对周围环境的典型目标进行识别。随着人类对自身视觉系统的深入了解,借助人类视觉的信息处理机制来增强机器视觉的认知能力已是计算机视觉领域的热点研究内容之一。然而,如何模拟大脑视觉系统的典型功能或信息处理机制,使计算机拥有人类所具备的观察和理解世界的能力,却是计算机视觉领域面临的一大挑战。
本书借鉴人类视网膜、视皮层的信息处理机制以及视觉心理认知组织准则,构建具有人类某些视觉功能特性的计算模型或方法,以机器视觉感知的自然环境信息——自然图像[1] 为处理对象,实现自然图像的显著性处理与自然环境的典型目标识别,为机器人自动导航提供视觉环境感知和信息选择性传输机制的可计算方法。
基于视觉认知的自然图像目标识别属于神经生理学、认知心理学、生物物理学、计算机信息学以及自动化等众多学科交叉形成的新兴研究课题。作为交叉领域里的一项基础性研究工作,本书在研究方法与思路上有所突破,主要可概括为以下7个方面:
① 系统、全面地总结了国内外神经科学家在视觉信息处理上取得的功能性实验成果,分析和讨论了视觉信息处理中的层次(初级、中级、高级)功能。在总结国内外相关工作的基础上,重点探讨了基于生物视觉特性的自然图像目标识别所涉及的关键技术与难点。
② 详细分析了人类视网膜感知外部环境的信息处理机制,提出了一种空间可变分辨率的自然图像处理方法。在人类的视觉感知过程中,视网膜成像的分辨率随着注视点空间位置的变化而不同。依据这一生物事实,本书模拟了人类视觉系统视网膜的感知机制。所提出的自然图像显著性处理方法在海量图像数据的远程传输以及基于图像的远程目标识别中具有较高的应用价值。
③ 受生物视觉初级视皮层(V1)环境感知机制的启发,提出了一种以gabor积分模块为核心的自然图像目标轮廓提取模型与方法,以复杂背景的自然图像为处理对象,验证了用该方法提取自然图像显著性轮廓特征的可行性与优越性。
④ 受视觉“what pathway”信息处理机制的启发,提出了一种基于感知不变性特征的自然场景目标识别模型与方法。该方法通过有效提取目标的感知不变性特征与可塑性学习实现自然场景的目标识别。实验结果表明,该方法能有效地分类识别出自然场景中建筑物、树、天空、道路、行人、汽车以及自行车等典型目标,并具有较强的鲁棒性和较高的识别率。
⑤ 受认知心理学有关研究的启发,分析了传统流形认知方法(LLE)在特征学习以及分类识别中的不足,对传统的 LLE 方法进行了一种有监督的扩展。该方法在基于自然图像的数字手写体识别实验中,具有较高的正确识别率。
⑥ 针对自然图像数据的非高斯分布特性,对一种自主心智发育认知方法进行了改进,即在传统的发育方法(HDR)上,提出一种基于独立成分特征空间的分级判别回归树(ICS-HDR)。将改进后的方法用于人脸自然图像的身份识别和机器人导航时障碍物方向判断。实验结果表明,该方法在识别率和消耗时间上都具有一定的优越性。
⑦ 受简单视觉细胞以及非经典感受野的联合启发,本部分将前述的神经信息计算方法用于视频图像的处理。结合视频动态行为分析的难点,本书提出的方法能较好地挖掘出视频信息中的动态行为能量特征,其反应现象与人类大脑特征具有一致性。实验结果表明,该方法通过计算视频帧的能量,能较好地辨识出视频中的动态行为,在基于视频的公共安防领域中有重要的应用价值。由于篇幅限制,特将此部分通过论文形式附在书后,以供参阅。
李作进
2016年2月
[1] 自然图像是一个没有准确定义的概念,是科学家为了研究人对所观察的外部环境产生的一些视觉神经反应而提出的。从信息获取角度来看,自然图像就是人类视觉系统能观测到的信息或者机器所采集到的自然环境信息。因此,用计算机模拟或仿真自然环境下某些视觉功能时所处理的对象就是自然图像。