本书为十四五高等职业教育新形态一体化教材之一,通过贴近生活的挑橘子一例引出机器学习的概念,并展开介绍了机器学习的完整流程、算法分类以及常用工具等。 本书以项目任务的组织方式,以通俗的情境作为项目导入,制定明确的项目目标,以算法的基本原理为知识导入,然后开始项目实施环节,以多个实训任务分别练习算法在解决回归、分类或聚类问题时的一般流程,最后以习题的形式巩固所学知识和技能。本书的实训项目主要包含机器学习中基础的算法应用,即线性回归算法、k-近邻算法、逻辑回归算法、决策树算法、聚类算法、朴素贝叶斯算法。 通读本书,你会了解机器学习解决的是什么问题,目前它应用在我们生活中的哪些场景;跟着本书动手实践,你会清楚数据怎么来、怎么加工,以及模型是什么,怎么训练与调用;另外,面对一个实际问题,你能够有依据地选择合适的算法。本书适合作为高等职业院校人工智能技术应用专业的教材,也适用于有编程基础的学生以及对机器学习感兴趣且亟需入门的社会工作者。
机器学习领域的著名学者汤姆·米切尔(Tom Mitchell)将机器学习定义为:对于计算机
程序有经验 E、学习任务 T 和性能度量 P,如果计算机程序针对任务 T 的性能 P 随着经验 E 不
断增长,就称这个计算机程序从经验 E 学习。 这一概念对于大多数人而言确实过于抽象简洁。
如果其定义为用计算机通过算法来学习数据中包含的内在规律和信息,从而获得新的经验和
知识,以提高计算机的智能性,使计算机面对问题时能够做出与人类相似的决策,则更加符合
大家对机器学习的认知。
近年来,随着机器学习向各行各业的渗透,机器学习算法在普罗大众中也得到了一定的认
可。 从事相关领域工作的人员提到机器学习,想必都会了解甚至十分熟悉监督学习、无监督学
习和强化学习这三个分类,对于朴素贝叶斯算法、k-均值算法、回归算法都耳熟能详。 然而如
何利用机器学习解决自身领域的问题却又有些不知如何下手。 面对如依据天气、时间等因素推
荐一种合适的通勤工具,或者预测自身体重的变化,抑或分析员工离职情况这类数据结构相对
简单、数据来源相对单一的问题时,很多人很难将机器学习的理论和技术应用其中,更不要提
构建符合行业要求的机器学习算法。
当想进一步深入了解时,发现需要面对汗牛充栋的理论、公式和编程技术,令人望而
却步。 如果你也面临类似的问题,那么本书适合你;本书也适合机器学习零基础的读者学习。
本书编者在机器学习高等教育领域辛勤耕耘十余年,此次将自身丰富的教学经验以及较深
厚的理论知识进行融合,并配以生动且贴近生活的应用实例,将机器学习算法的知识体系、应
用场景、实施方式与步骤进行了细致的说明。
本书的绪论向读者介绍了机器学习的概念、机器学习的应用与分类等基础知识,同时对本
书代码实现的核心开源库 sklearn 进行了说明。 此后各项目分别对应了线性回归算法、k-近邻
算法、逻辑回归算法、决策树、聚类算法以及朴素贝叶斯算法,在每种算法介绍前通过知识导
入,对背景知识、学习前需要掌握的技术能力进行详细说明,以方便读者学习;在正文中通过
生动形象的实例深入浅出地讲解不同项目的目标、主要知识点以及编程实现步骤;最后通过习
题的形式巩固本项目学习成果。
本书注意贯彻落实立德树人根本任务,坚定文化自信,践行二十大报告精神,充分体现党
的二十大报告提出的实施科教兴国战略,强化现代人才建设支撑的精神,落实加强教材
建设和管理新要求。
本书由杜辉、葛鹏、赵瑞丰任主编,王亚楠、王磊、刘明浩任副主编,丁雷、金光浩、汪胜平
参与编写。 在此,感谢所有在本书的内容制作、代码验证及编排校对工作中付出辛苦劳动和支
持的同志。 本书配套的相关资源可通过派 Lab人工智能教学实训平台(平台网址:lab.
314ai.com)查看和动手实践,还可与本书编者联系(E-mail:1318475816@ qq.com)。
机器学习技术是一门前景广阔的新兴技术,本书力图从实用性角度为高职同学打开一条通
往未来世界的通道。
由于编者水平有限,书中难免有不足之处,欢迎广大读者予以指正。
编 者
2023 年 6 月