《机器视觉检测与识别技术及应用:基于深度学习》致力于深入剖析机器视觉检测与识别技术的内在机理、实用策略及其多元化应用,旨在为读者搭建起一个坚实而全面的理论知识与实践经验的桥梁。内容涉猎广泛,既涵盖图像处理、特征提取、目标检测,又深入探索图像分割、人脸识别、物体识别等,从基础概念到高级算法,全面又深入。在深度解读各个主题的同时,本书注重理论与实践的紧密结合,相关章节均配以典型的案例分析,展示这些技术在现实场景中的具体应用。通过阅读本书,读者将深入理解机器视觉技术的运作原理,并学会如何将这些技术灵活运用于解决实际问题。此外,本书还特别关注机器视觉技术所带来的伦理、隐私和社会影响等深层次议题,确保技术的发展既有利于社会进步,又尊重和保护个体的权利与隐私,实现可持续发展。本书适合从事计算机视觉、人工智能、图像处理以及相关领域研究和开发的专业人士阅读,也可作为高等院校计算机相关专业的教材,对机器视觉感兴趣的人群也可以阅读。
当今世界正经历着数字化和智能化的巨大转变,而机器视觉检测与识别技术正是推动这一变革的关键力量之一。随着计算机处理能力的提升、深度学习算法的崛起以及大规模数据集可用性的增加,机器视觉技术在各个领域展现出了惊人的应用潜力。
本书旨在深入探讨机器视觉检测与识别技术的原理、方法和应用,为读者提供全面的理论基础和实践经验。本书覆盖了广泛的主题,从基础概念到高级算法,包括图像处理、特征提取、目标检测、图像分割、人脸识别、物体识别等方面。通过深入剖析每个主题,重在理论联系实际,在关键章节都有典型的案例分析与应用场景介绍。读者将能够理解这些技术的工作原理,并学会如何将它们应用于实际问题中。在阐述技术原理的同时,本书还关注了机器视觉技术的伦理、隐私和社会影响等重要议题。随着技术的不断发展,我们必须认真思考和应对与之相关的伦理挑战,确保这些技术的发展是有益于社会的、可持续的,并且充分尊重个体权利和隐私。
全书共分为11章。第1、2章简要介绍了机器视觉和深度学习的基本概念,包括什么是人工智能、什么是机器视觉,以及什么是深度学习;第3章主要讨论深度学习与机器视觉的关系,以及基于深度学习的机器视觉在不同领域的应用;为了便于读者理解后续内容,在第4、5章引入了图像分类与参数学习相关基础,以及简要介绍了Transformer神经网络的相关基础;第6章介绍基于深度学习的目标检测技术的理论、方法以及应用场景;第7、8章介绍目标识别技术的理论、方法以及应用场景。前八章的简要介绍,能让读者充分了解到机器视觉检测与识别技术在许多领域取得的显著的成果,如自动驾驶、医学影像分析、工业生产、安防监控等领域。第9、10、11章通过典型的案例研究和实际应用示例,向读者展示了这些技术在不同领域的成功应用,这些案例都具有工程应用项目研究的工业实际背景,并且很多都来自科研项目研究的实践,有利于激发读者对于未来创新的思考和探索。
本书适合从事计算机视觉、人工智能、图像处理以及相关领域研究和开发的专业人士阅读,同时也为院校学生和对机器视觉技术感兴趣的初学者提供了一本全面而深入的参考书。希望本书能够成为读者在探索机器视觉领域路上的得力向导,启发更多的创新思维,推动机器视觉技术在各个领域的不断创新与应用。
本书由北京信息科技大学张勤俭教授统筹编写,主要编写人员有:郭娜、李海源、吴雅林、魏建,其他参与编写的人员有:席镯宾、张向燕、晁明辉、郭家承、李星帅、杨浩、伍烯、杨凡帆、褚浩杰、王跃轩等,在此一并感谢。本书内容得到国家重点研发计划项目基于动态补偿与弹性配准的自主缝合手眼协同导航技术研究面向服务和工业领域的实用多指灵巧手研制、国家自然科学基金青年科学基金项目面向异构医疗机器人的技能学习方法研究等项目的支持。
限于笔者水平,书中难免有疏漏之处,敬请读者指正。
编著者
第1章 机器视觉概述
1.1 机器视觉的基本概念 002
1.2 机器视觉的发展历程 005
1.3 机器视觉的发展趋势 008
1.4 机器视觉的应用领域 011
第2章 深度学习基础知识
2.1 基本概念与理论 018
2.2 基本思想 022
2.3 深度学习常用的方法 022
第3章 深度学习与机器视觉
3.1 深度学习应用于机器视觉 028
3.2 深度学习应用于机器视觉的例子 030
3.2.1 基于深度学习的机器视觉在谷歌中的应用 030
3.2.2 基于深度学习的机器视觉在百度中的应用 030
3.2.3 基于深度学习的机器视觉在医疗中的应用 032
3.2.4 基于深度学习的机器视觉在安防中的应用 033
3.2.5 基于深度学习的机器视觉在摄影摄像中的应用 033
3.3 机器视觉的关键深度学习方法和应用 034
第4章 图像分类与参数学习
4.1 图像分类基础 042
4.2 线性分类器 044
4.3 损失函数 047
4.3.1 损失函数的作用 047
4.3.2 常见的损失函数 048
第5章 Transformer
5.1 Transformer背景 052
5.1.1 Transformer简介 052
5.1.2 传统序列模型的局限性 053
5.2 Transformer模型 054
5.2.1 Transformer基本框架 054
5.2.2 输入部分 054
5.2.3 编码器结构 057
5.2.4 解码器结构 059
5.3 Transformer在机器视觉中的应用 060
5.3.1 Detection Transformer(DETR) 060
5.3.2 Unsupervised Pre-training for Object Detection with Transformers(UP-DETR) 062
5.3.3 Deformable DETR 062
第6章 基于深度学习的目标检测
6.1 目标检测技术 066
6.1.1 目标检测概念 066
6.1.2 目标检测评价指标 067
6.1.3 目标检测数据集 070
6.2 目标检测方法 071
6.2.1 传统目标检测算法 071
6.2.2 基于深度学习目标检测算法 073
6.3 基于区域的两阶段目标检测方法 076
6.3.1 R-CNN 076
6.3.2 SPP-Net 080
6.3.3 Fast R-CNN 083
6.3.4 Faster R-CNN 086
6.4 基于区域的单阶段目标检测方法 091
6.4.1 SSD 092
6.4.2 YOLO v3 095
6.4.3 RetinaNet 098
6.5 基于深度学习的目标检测算法应用场景 102
6.5.1 农业领域应用害虫检测 102
6.5.2 航天领域应用遥感监测 103
6.5.3 交通领域应用车辆检测 103
第7章 目标识别
7.1 目标识别技术 108
7.1.1 目标识别概念 108
7.1.2 目标识别评价指标 108
7.2 目标识别方法 109
7.2.1 传统目标识别方法 109
7.2.2 深度学习目标识别方法 112
第8章 深度学习中的目标识别
8.1 图像识别模型介绍 114
8.2 图像识别模型改进算法 118
8.2.1 小加权随机搜索算法 118
8.2.2 E-S判断方法 121
8.2.3 构造小型卷积神经网络 122
8.2.4 残差网络模型 124
8.2.5 融入注意力机制的残差网络识别算法 126
8.3 基于深度学习的目标识别算法应用场景 129
8.3.1 生物信息领域应用人脸识别 129
8.3.2 军事领域应用雷达探测 134
8.3.3 工业领域应用水下作业 134
第9章 前列腺肿瘤检测
9.1 前列腺图像复原、重建与合成 143
9.1.1 医学图像复原与重建 143
9.1.2 前列腺图像合成 145
9.2 医学图像配准与分割 147
9.2.1 医学图像配准 147
9.2.2 医学图像分割 148
第10章 目标检测与识别技术在医疗领域中的应用
10.1 医学图像处理技术及应用价值 152
10.1.1 医学图像的类型 152
10.1.2 医学图像的格式 155
10.1.3 目标检测与识别技术在医疗领域的应用价值 157
10.2 影像图像的疾病诊断与病灶分型 158
10.2.1 典型的疾病诊断网络 159
10.2.2 影像的疾病诊断应用 165
10.3 影像图像的组织器官分割技术 176
10.3.1 通用分割网络 177
10.3.2 专用分割技术 189
10.4 公开数据集 203
10.4.1 影像诊断 203
10.4.2 器官分割 207
10.4.3 病理分析与生物信息 209
10.4.4 竞赛单元/通用数据集 210
第11章 生菜识别及性状分析
11.1 背景介绍 218
11.2 定义问题 219
11.3 数据分析 220
11.3.1 数据内容及结构 220
11.3.2 数据相关性分析 222
11.4 数据处理 226
11.4.1 数据加载及预处理 226
11.4.2 数据增强 228
11.4.3 标签加载 229
11.5 模型搭建 230
11.5.1 三阶段多分支自校正网络设计思路 230
11.5.2 主模型 233
11.5.3 辅助模型 237
11.6 模型训练 241
11.6.1 训练参数设置 241
11.6.2 训练曲线及结果分析 243
11.7 模型评估 247
11.7.1 评估指标 247
11.7.2 评估结果 248
11.8 模型讨论 254
11.8.1 深度图像的数据处理方法讨论 254
11.8.2 辅助模型的设计及选择 256
11.8.3 高通量情形下的生菜性状估计思路设计 258