本书从计算机视觉初学者的视角出发,以Python及其相关框架为工具,以实战为导向,讲述了计算机视觉中关于图像以及多种图像处理的基本概念、理论方法和经典算法,既有对图像基础知识的介绍,也有对现实问题的解决方案和技术详细阐述。通过利用计算机视觉中的图像变换算法解决图像分类、人脸识别、图像增强、图像语义分割、图像风格迁移、图像超分辨率重建和场景文字识别等现实问题,使读者既能了解图像的多种操作原理,又能学会解决实际问题的思路和方法,提高使用计算机视觉方法的能力。
本书可作为各类职业院校人工智能技术应用及相关专业的教材,也可作为人工智能、计算机视觉初学者的参考书。
本书配有电子课件等教学资源,选用本书作为授课教材的教师可从机械工业出版社教育服务网(wwwcmpeducom)免费注册并登录后下载,或联系编辑(010-88379807)咨询。
前言
计算机视觉(Computer Vision,CV)属于计算机科学领域,专注于创建可以像人类一样处理、分析和理解视觉数据(图像或视频)的数字系统。计算机视觉的概念是教会计算机处理像素级别的图像并理解它。从技术上讲,机器尝试通过特殊的软件算法来对视觉信息进行检索、处理并解释其结果。随着人工智能技术的不断发展,各类计算机视觉技术应用到了日常生活中,人们通过计算机视觉技术可以更便捷、高效地来交流、办公和娱乐。同样,计算机视觉的不断发展也吸引了大量的优秀人才和高校毕业生投身其中。但是,现实生活中的问题千奇百怪,计算机视觉也无法完全解决生活中的所有难题,只能通过不同领域的学者一起努力研究和探索。
本书在内容选择上尽量涵盖了计算机视觉中图像处理的各方面知识,采用理论与实践相结合的编写模式,从初学者的角度深入浅出地介绍了计算机视觉中图像处理的基本概念、基础知识以及常用的理论方法和算法,并应用所学方法解决实际案例问题,帮助读者快速理解并掌握计算机视觉中图像处理的理论方法以及实践技能。
本书把“立德树人”作为综合教育理念,让学生在学习的过程中形成协同效应,培养素质高、专业技术全面的高技能人才,助力中国式现代化。
本书为2021年度陕西高等职业教育教学改革研究重点攻关项目《产教融合背景下高职院校产业学校建设运行机制的研究与实践》(项目编号:21GG009)研究成果之一。
本书中所有程序代码都基于Python 37和Tensorflow 27进行开发。
本书共8个学习单元,每个单元都设有单元概述和学习目标,并在学习结束后设有学习评估和单元习题。其中,单元1介绍了计算机视觉中图像的相关概念、基础知识以及一些简单的图像变换处理等;单元2、3介绍了图像分类和人脸识别的基本概念、方法以及应用;单元4介绍了图像增强的分类及方法;单元5介绍了图像语义分割的基本概念、语义分割网络和案例实施;单元6介绍了图像风格迁移的概念、多种风格迁移方法及应用;单元7介绍了图像超分辨率重建基础知识、多种重建方法及应用;单元8介绍了场景文字识别的概念、方法及应用。各单元建议安排的学时如下:
单元名称建议学时单元1图像基础学习4单元2图像分类6单元3人脸识别8单元4图像增强6单元5图像语义分割10单元6图像风格迁移12单元7图像超分辨率重建12单元8场景文字识别6
本书由国基北盛(南京)科技发展有限公司组编,由刘洪海、丁爱萍、张卫婷任主编,王妍、于倩、屈毅、张传勇任副主编,参与编写的还有马晓虎、王春莲、张峰连、李永亮、王秀芳、王靖、劳飞、单杰和魏鹏飞。其中,刘洪海、丁爱萍、王妍、张峰连和魏鹏飞负责编写单元1和单元2,丁爱萍、张卫婷、屈毅和王靖负责编写单元3和单元4,刘洪海、于倩、马晓虎和劳飞负责编写单元5和单元6,张传勇、李永亮、王春莲、王秀芳和单杰负责编写单元7和单元8。
由于编者水平有限,书中难免存在疏漏和不足之处,恳请读者批评指正。
编者
目录
前言
单元1图像基础学习
11图像相关名词概述
12图像基础操作
13图像几何变换
14阈值分割
15图像统计
16图像滤波
单元小结
学习评估
单元习题
单元2图像分类
21图像分类概述
22神经网络
23卷积神经网络
24实战案例——基于卷积神经网络的图像分类
25迁移学习
26实战案例——基于迁移学习的图像分类
单元小结
学习评估
单元习题
单元3人脸识别
31目标检测
32实战案例——基于YOLOv3的目标检测
33人脸检测
34实战案例——基于Haar特征的人脸检测
35实战案例——基于Hog特征的人脸检测
36人脸识别
37认识face_recognition开源库
38实战案例——基于face_recognition的人脸识别
单元小结
学习评估
单元习题
单元4图像增强
41图像增强概述
42有监督的图像增强
43实战案例——基于mixup/cutmix算法的图像增强
44无监督的图像增强
单元小结
学习评估
单元习题
单元5图像语义分割
51语义分割概述
52上采样
53特征融合
54语义分割网络
55实战案例——基于UNet的图像语义分割
单元小结
学习评估
单元习题
单元6图像风格迁移
61图像风格迁移概述
62风格提取
63gram矩阵
64损失计算
65VGG19
66实战案例——基于VGG19的图像风格迁移
67对抗生成网络
68实战案例——基于CycleGAN的图像风格迁移
单元小结
学习评估
单元习题
单元7图像超分辨率重建
71认识图像分辨率
72认识图像超分辨率
73超分辨率重建技术
74SRCNN
75PSNR
76实战案例——基于SRCNN的图像超分辨率重建
77SRGAN
78实战案例——基于SRGAN的图像超分辨率重建
单元小结
学习评估
单元习题
单元8场景文字识别
81场景文字识别概述
82LSTM
83CTC
84实战案例——基于LSTM+CTC的文字识别
85tesseract
86实战案例——基于tesseract的文字识别
单元小结
学习评估
单元习题
参考文献