本书共分10章。第1章介绍了数据挖掘方法的历史,另外讨论了统计学习的一般模型。第2、3、4章介绍了三种数据挖掘模型:人工神经网络、支持向量机和隐马尔可夫模型。第5章介绍了一种新型支持向量诱导回归模型,第6章介绍了一种基于快速训练算法的HMM/SVM混合系统,第7章介绍了分解向前算法及PCA/ICA降维SVM模型,第8章介绍了不对称支持向量机改进算法,第9章介绍了一种基于隐马尔可夫模型的多重序列分析方法,第10章介绍了一类基于SVM/RBF的气象模型预测系统。
本书是站在数据挖掘的独特角度对神经网络、支持向量机和隐马尔可夫理论这三个重要的理论与方法进行重新剖析,并进行方法论基础上的应用,通过讲故事似的生动而系统地阐述数据挖掘的本质,来引领读者对数据挖掘的深入理解和应用。
丽水学院商学院教授
第1章 绪论 1
1.1 研究背景 2
1.2 数据挖掘的基本数学问题 5
1.2.1 相关概念 5
1.2.2 统计学习的一般模型 10
1.3 数据的变换 11
参考文献 13
第2章 神经网络挖掘理论 19
2.1 神经智能 19
2.2 生物神经元和人工神经元 21
2.2.1 生物神经元 21
2.2.2 人工神经元 23
2.2.3 建立数学模型 24
2.2.4 单层与多层网络结构 27
2.2.5 网络学习方式 32 第1章 绪论 1
1.1 研究背景 2
1.2 数据挖掘的基本数学问题 5
1.2.1 相关概念 5
1.2.2 统计学习的一般模型 10
1.3 数据的变换 11
参考文献 13
第2章 神经网络挖掘理论 19
2.1 神经智能 19
2.2 生物神经元和人工神经元 21
2.2.1 生物神经元 21
2.2.2 人工神经元 23
2.2.3 建立数学模型 24
2.2.4 单层与多层网络结构 27
2.2.5 网络学习方式 32
2.2.6 经典学习规则 34
2.3 LMS和SDA方法 35
2.3.1 平均平方误差函数 36
2.3.2 LMS和SDA算法 39
2.4 后向传播算法 43
2.4.1 概况 43
2.4.2 多层网络BP算法 44
参考文献 50
第3章 基于支持向量的挖掘理论 52
3.1 支持向量与分类超平面 52
3.1.1 一维情形 52
3.1.2 二维情形 54
3.1.3 三维情形 56
3.1.4 n维情形( ) 57
3.1.5 核函数(内积回旋)思想 58
3.1.6 核函数定义 63
3.2 风险控制策略 65
3.2.1 VC维概念 65
3.2.2 经验风险最小化原则 66
3.2.3 结构风险最小化原则 67
3.3 样本被错分的讨论 68
3.3.1 最大间隔分类超平面 68
3.3.2 数据被错分的条件 70
3.4 最优化策略 71
3.5 分类与回归 74
3.5.1 分类算法 74
3.5.2 回归算法 78
3.5.3 解的全局最优讨论 80
3.6 几种经典算法描述 82
3.6.1 分解算法 82
3.6.2 分块算法 83
3.6.3 序贯最小化算法 84
3.6.4 核函数构造算法 85
参考文献 85
第4章 隐马尔可夫挖掘理论 87
4.1 马尔可夫思想 87
4.2 隐马尔可夫链 90
4.3 隐马尔可夫模型 94
4.3.1 隐马尔可夫模型定义 94
4.3.2 三个基本算法 95
参考文献 102
第5章 新型支持向量诱导回归模型及应用 104
5.1 新型支持向量诱导回归模型 104
5.1.1 不敏感损失函数 104
5.1.2 系统模型 106
5.2 时间序列分析的相空间重构 108
5.2.1 相空间重构 108
5.2.2 性能评价指标 109
5.2.3 重构模式的近似算法 110
5.3 预测置信度估计 110
5.4 实验结果 111
5.4.1 参数的确定 111
5.4.2 预测指数分析 112
5.4.3 预测结果 113
5.4.4 SVM和传统神经网络的比较 115
5.4.5 讨论 116
参考文献 117
第6章 基于快速训练算法的HMM/SVM混合系统 118
6.1 L值定义 118
6.2 快速训练算法和HMM/SVM混合过滤模型 119
6.2.1 基于HMM的快速训练算法 119
6.2.2 HMM/SVM的双层混合系统模型 120
6.3 实验结果 121
6.3.1 数据的获取及序列的编码 122
6.3.2 DNA的两类和多类分类识别 123
6.3.3 讨论 126
参考文献 127
第7章 分解向前算法及PCA/ICA降维SVM模型 129
7.1 主成分分析(PCA)的数学模型 129
7.2 独立成分分析(ICA)的数学模型 131
7.3 分解向前支持向量机 133
7.3.1 三个距离区域 133
7.3.2 分解向前算法 134
7.3.3 DFSVM算法复杂度分析 136
7.3.4 PCA-DFSVM及ICA-DFSVM降维模型 137
7.4 实验结果 138
7.4.1 SCOP数据库 138
7.4.2 实验1 138
7.4.3 实验2 139
7.4.4 各项实验指标比较 140
7.4.5 讨论 141
参考文献 141
第8章 不对称支持向量机改进算法及应用 143
8.1 不对称支持向量机 143
8.1.1 样本的不对称性 143
8.1.2 不对称支持向量机算法 143
8.1.3 不对称SVM分类迭代模型 146
8.2 几种多分类问题的算法复杂度估计 146
8.3 实验结果 149
8.3.1 实验1 150
8.3.2 实验2 151
8.3.3 MISVM和标准SVM实验指标比较 153
参考文献 155
第9章 基于隐马尔可夫模型的多重序列分析 156
9.1 研究背景 156
9.2 多重序列比对 157
9.2.1 多重序列比对的描述 157
9.2.2 特征序列 158
9.3 隐马尔可夫模型的序列描述 158
9.4 建立多重序列隐马尔可夫轮廓图 160
9.5 实验结果和讨论 161
9.5.1 Pfam数据库简介 161
9.5.2 建立隐马尔可夫模型 162
9.5.3 检验HMMS模型 162
9.5.4 用HMMS进行蛋白质家族的模式分类 163
9.6 关于模型的局限性讨论 164
参考文献 165
第10章 一类基于SVM/RBF的气象模型预测系统 167
10.1 支持向量机回归模型 167
10.1.1 回归支持向量机 167
10.1.2 模型中几个重要参数分析 168
10.2 温度序列数据分析 169
10.3 决策函数的确定 170
10.4 预测结果分析 171
10.5 结论 173
参考文献 173
前 言
数据挖掘领域目前越来越引起人们的重视,在过去的几十年里,数据挖掘技术已经从人们的零散的方法发展成为了一系列系统的知识理论。随着大数据时代的到来,人们在这方面投入了更大的研究兴趣,数据挖掘的内容越来越丰富,数据挖掘的应用范围也越来越广泛,从经济到管理、从生物到医学、从农业到商业,到处都呈现出数据挖掘学科发展的欣欣向荣的局面。进行数据挖掘的动力在于挖掘的信息能对我们的经济生活提供重要的帮助。商业数据挖掘可以为商家提供重要的商机,气象数据挖掘可以帮助我们防止自然灾害和提高农作物产量,医学数据挖掘可以帮助我们检测疾病并进行及早治疗、管理数据挖掘可以帮助管理者提高决策效率等。
本书向读者介绍了几种重要的数据挖掘概念与算法,包括神经网络、支持向量机、隐马尔可夫理论,本书由浅入深,循序渐进,采用生动朴实的语言向读者介绍了这些理论的来龙去脉,使读者对这些理论与方法有更深入的理解。神经网络部分,从人的大脑结构开始,从生物的刺激反应到建立数学模型,遵循了知识的发现过程。支持向量机部分,由最大间隔分类超平面和支持向量介绍入手,从一维到多维,从独特的角度介绍了这一理论的深刻内涵。隐马可夫理论部分,从马尔可夫链的介绍开始,通过引入双重随机过程使这一理论得到自然展现。
本书分为三个主要部分。绪论部分、主要理论部分及应用部分。绪论部分介绍了神经网络和支持向量机理论的产生过程,同时介绍了数据挖掘的基本数学问题,对众多算法概念进行了剖析,并讨论了统计学习的一般模型和常用数据变换方法。主要理论部分由神经网络挖掘理论、基于支持向量的挖掘理论及隐马尔可夫挖掘理论3章组成,神经网络挖掘理论部分包括神经智能、生物神经元和人工神经元、LMS和SDA方法及后向传播算法;基于支持向量的挖掘理论部分由支持向量与分类超平面、风险控制策略、样本被错分的讨论、最优化策略、分类与回归、几种经典算法描述组成;隐马尔可夫挖掘理论部分由马尔可夫思想、隐马尔可夫链、隐马尔可夫模型组成。应用部分介绍了这三种主要的数据挖掘技术在经济和计算生物学中的应用,在这些章节,改进了传统算法,提出了多个数据挖掘模型,包括第5章的新型支持向量诱导回归模型,第6章的基于快速训练算法的HMM/SVM混合系统,第7章的分解向前算法及PCA/ICA降维SVM模型,第8章的不对称支持向量机改进算法模型,第9章的基于隐马尔可夫模型的多重序列分析模型,第10章的一类基于SVM/RBF的气象模型预测系统。这些应用章节的内容也较为丰富,包含了许多有关数据挖掘的知识内容,如降维方法、数据编码、计算复杂度分析等。
本书内容丰富,可供理工科中应用数学、计算机科学、计算生物学、统计学等相关专业具有一定数学背景并对数据挖掘方法有兴趣的高校教师、研究生使用,也可供从事机器学习与模式识别的相关领域研究的科研人员和数据挖掘工作者参考。
感谢在本书编写过程中给予过我帮助、扶持和关心的朋友,同是也感谢我的妻子,每天承担了许多家务,得让我有时间来静心工作,也感谢我的女儿,容忍了我由于睡眠而导致的有时性格的喜怒无常。
在本书撰写时,参考了国内外学者所著的有关相关文献,受益匪浅,特此向原作者致谢。由于作者水平有限,书中肯定存在不少疏漏与不足,恳请读者批评指正。
罗泽举
2014年8月于丽水学院