随着互联网的蓬勃发展以及大数据时代的到来,新的欺诈安全问题不断涌现,这也诞生了一个新的概念——大数据安全。大数据安全指的是针对大数据时代背景下的安全风险,使用大数据、人工智能等新兴技术建立对抗体系,进而进行安全治理与防范。本书旨在对大数据时代背景下的欺诈安全问题、大数据平台工具、反欺诈对抗技术和系统进行全面的阐释,以帮助读者全面学习大数据安全治理与防范的背景、关键技术和对抗思路,并能够从0到1搭建一个反欺诈对抗系统。
本书作为入门大数据安全对抗的理想读物,将理论与实践相结合,既能加强读者对大数据安全对抗的安全场景和技术原理的理解,又能通过复现反欺诈实战中的内容帮助读者培养业务中的安全对抗能力。无论是大数据、信息安全相关从业人员,还是有志于从事大数据安全方向相关工作的初学者,都会在阅读中受益匪浅。
1. 凝结一线大厂安全团队十多年的安全对抗实战经验,帮助读者学习大数据安全治理与防范的背景、关键技术和对抗思路,手把手教你打造反欺诈对抗系统。
2. 本书将理论与实战相结合,不论你是网络安全相关从业人员,还是大数据安全方向的初学者,本书都可作为你入门大数据安全对抗的一本推荐读物。
3. 既介绍黑灰产技术洞察,又涵盖大数据安全对抗技术,再结合反欺诈实战案例与运营体系建设,让大数据安全简单易上手。
张凯,现任腾讯专家工程师。一直从事大数据安全方面的工作,积累了10多年的黑灰产对抗经验,主要涉及游戏安全对抗、业务防刷、金融风控和反诈骗对抗系统等。
张旭,现任腾讯高级工程师。主要从事大数据下黑产安全对抗业务、反诈骗对抗系统开发方面的工作。曾参与中国信息通信研究院《电话号码标记应用技术要求》行业标准制定,并为《电信网络诈骗治理与人工智能应用白皮书》提供行业技术支持。
目 录
第 1部分 大数据安全基础
第 1章 绪论 2
1.1 大数据时代的兴起 2
1.2 安全风控新挑战 3
1.3 大数据安全治理架构 4
1.4 本章小结 7
第 2部分 黑灰产洞察
第 2章 黑产现状与危害 10
2.1 电信网络诈骗 10
2.1.1 诈骗的类型及危害 11
2.1.2 诈骗的特点 13
2.2 营销欺诈 15
2.2.1 欺诈的类型及危害 15
2.2.2 欺诈的特点 17
2.3 金融欺诈 18
2.3.1 欺诈的类型及危害 18
2.3.2 欺诈的特点 19
2.4 其他类型 19
2.4.1 网络色情 20
2.4.2 网络赌博 20
2.4.3 诱导引流 21
2.4.4 网络洗钱 22
2.5 本章小结 23
第3章 产业工具 24
3.1 养号工具 24
3.1.1 猫池 24
3.1.2 接码平台 26
3.1.3 打码平台 26
3.1.4 群控和云控系统 27
3.2 设备工具 27
3.2.1 改机工具 28
3.2.2 多开软件 29
3.2.3 虚拟定位工具 29
3.2.4 全息备份 30
3.3 IP工具 30
3.3.1 代理IP 31
3.3.2 秒拨IP 31
3.3.3 IP魔盒 32
3.4 自动化脚本工具 32
3.4.1 按键精灵 32
3.4.2 Auto.js 32
3.5 本章小结 33
第3部分 大数据基础建设
第4章 大数据治理与特征工程 36
4.1 大数据平台 37
4.1.1 计算框架 38
4.1.2 存储方式 39
4.1.3 计算模式 39
4.2 大数据治理 40
4.2.1 数据模型 40
4.2.2 元数据管理 41
4.2.3 数据质量管理 41
4.2.4 数据生命周期管理 42
4.2.5 数据安全 42
4.3 数据清洗 43
4.3.1 缺失值处理 43
4.3.2 异常值处理 43
4.3.3 归一化与标准化 45
4.4 特征工程 46
4.4.1 特征提取和构建 46
4.4.2 特征学习 46
4.4.3 特征评估与选择 49
4.5 本章小结 52
第4部分 大数据安全对抗技术与反欺诈实战案例
第5章 基于流量的对抗技术 54
5.1 人机验证 55
5.1.1 字符验证码 56
5.1.2 行为验证码 57
5.1.3 新型验证码 58
5.2 风险名单 59
5.2.1 风险名单的意义 59
5.2.2 风险名单的设计 59
5.2.3 风险名单的管理 61
5.3 规则引擎 61
5.3.1 基础通用规则 62
5.3.2 业务定制规则 66
5.4 异常检测模型 67
5.4.1 传统统计检验 68
5.4.2 无监督模型 69
5.4.3 半监督模型 72
5.5 多模态集成模型 73
5.5.1 多模态子模型 73
5.5.2 多模态集成模型 74
5.6 新型对抗方案 75
5.6.1 小样本场景问题 75
5.6.2 跨平台联防联控问题 76
5.7 本章小结 79
第6章 基于内容的对抗技术 80
6.1 业务场景与风险 80
6.2 标签体系 82
6.2.1 黑白标签体系 82
6.2.2 类别细分体系 82
6.2.3 多标签体系 83
6.3 文本内容对抗技术 83
6.3.1 文本预处理 86
6.3.2 文本无监督模型 89
6.3.3 文本监督模型 97
6.4 图像内容对抗技术 103
6.4.1 图像预处理 103
6.4.2 图像半监督模型 109
6.4.3 图像监督模型 114
6.4.4 主动学习 122
6.5 多模态内容对抗技术 124
6.5.1 多模态定义 124
6.5.2 模态融合 125
6.5.3 协同训练 127
6.6 本章小结 128
第7章 基于复杂网络的对抗技术 129
7.1 复杂网络基础 130
7.1.1 网络分类 130
7.1.2 网络表示 131
7.1.3 网络存储 133
7.1.4 网络可视化 134
7.2 复杂网络测度 135
7.2.1 度中心性 136
7.2.2 中介中心性 137
7.2.3 接近中心性 138
7.2.4 特征向量中心性 139
7.2.5 PageRank 141
7.2.6 聚集性测度 142
7.3 复杂网络传播模型 145
7.3.1 懒惰随机游走传播 146
7.3.2 个性化PageRank传播 150
7.3.3 异构网络传播 153
7.4 社区划分 155
7.4.1 标签传播社区划分 156
7.4.2 Louvain社区划分 160
7.5 图神经网络 165
7.5.1 随机游走图嵌入 166
7.5.2 谱域图神经网络 169
7.5.3 空域图神经网络 173
7.6 本章小结 178
第8章 反欺诈实战案例 179
8.1 婚恋交友反诈骗 179
8.1.1 风险场景 179
8.1.2 事前预防 180
8.1.3 事中拦截 185
8.1.4 事后回溯 188
8.1.5 时序联合打击 189
8.1.6 反诈对抗运营 190
8.2 营销活动反作弊 191
8.2.1 场景案例 191
8.2.2 业务数据 193
8.2.3 人机验证对抗 193
8.2.4 风险名单对抗 194
8.2.5 规则引擎对抗 194
8.2.6 多模态集成模型 196
8.2.7 团伙图模型对抗 200
8.3 赌博网址检测 204
8.3.1 网址信息 205
8.3.2 文本模型 205
8.3.3 图像模型 207
8.3.4 多模态集成模型 209
8.3.5 异构图神经网络模型 210
8.4 恶意短文本识别 212
8.4.1 对抗流程 213
8.4.2 常规文本对抗 214
8.4.3 文字变形对抗 215
8.4.4 新类型对抗 216
8.4.5 稳定期对抗 217
8.4.6 内容对抗运营 218
8.5 本章小结 219
第5部分 反欺诈运营体系与情报系统
第9章 反欺诈运营体系 222
9.1 服务层 223
9.2 模型层 225
9.2.1 离线评估 225
9.2.2 线上监控 225
9.3 特征层 229
9.3.1 稳定性监控 229
9.3.2 异常值监控 229
9.4 数据层 230
9.5 事故分级与告警 231
9.6 本章小结 232
第 10章 情报系统 233
10.1 体系架构 234
10.2 情报获取 235
10.3 情报加工 235
10.4 情报分析 236
10.5 情报应用 237
10.6 本章小结 239