目录
第1 章 正则表达式入门 ·· 1
1.1 通配符 · 1
1.2 正则表达式 · 4
1.3 正则表达式的用途 · 6
1.4 如何使用正则表达式 ·· 15
1.5 Stata 版本选择 · 16
1.6 字符、字节与Stata 编码 · 17
1.7 本章小结 ·· 18
第2 章 正则表达式字符串函数 20
2.1 匹配函数:regexm()和ustrregexm() 20
2.2 提取函数:regexs()和ustrregexs() ·· 23
2.3 替换函数:regexr()、ustrregexrf()和ustrregexra() 27
2.4 本章小结 ·· 32
第3 章 元字符 33
3.1 基本元字符 ·· 33
3.2 数量元字符 ·· 44
3.3 特殊字符元字符 ·· 61
3.4 位置元字符 ·· 68
3.5 前后查找 ·· 74
3.6 空白元字符 ·· 80
3.7 回溯引用:前后一致匹配 ·· 91
3.8 Unicode 转义字符 98
3.9 POSIX 字符类元字符 · 101
3.10 本章小结 104
第4 章 正则表达式综合运用 ·· 105
4.1 英文地址提取邮编(三) · 105
4.2 提取性别、年龄、种族 · 108
4.3 中文地址中城市名称的提取· 115
4.4 英文姓名拆分(二) · 129
4.5 提取生产日期 · 135
4.6 本章小结 · 139
第5 章 与正则表达式相关的命令·· 140
5.1 moss 命令 140
5.2 subinfile 命令 · 146
5.3 filesearch 命令 152
5.4 fromroman 命令 · 159
5.5 toroman 命令 ·· 162
5.6 varsearch 命令 163
5.7 screening 命令 166
5.8 jregex 命令 · 175
5.9 本章小结 · 181
第6 章 正则表达式与网络爬虫·· 182
6.1 网络爬虫概述 · 182
6.2 基于网络爬虫编写的命令 · 182
6.3 网络爬虫实例 · 195
6.4 本章小结 · 248
附录A 基础ASCII 字符表 · 249
附录B 生成基础ASCII 表的Stata 程序· 254
后 记 ·· 256