在大数据和人工智能时代,大数据对科学研究的重要性日益显现。本书基于Python这一学习难度较小的编程语言,选取劳动科学这一视角,系统介绍了如何对大数据进行收集、处理及分析。
由浅入深是本书的一个特点。全书分为四个部分共 20 章,第一部分介绍了Python基础知识,第二部分介绍了Python数据处理,第三部分介绍了爬虫基础知识,第四部分介绍了爬虫技术应用的具体例子。
内容丰富、易于理解是本书的另一个特点。本书以应用为目的,每部分内容都给出了详细的代码,便于读者掌握数据挖掘技术。书中列举了很多通俗易懂的例子,帮助读者更好地理解各章内容。
本书实践性强,配套教辅资源丰富,适合用作文科专业本科生、研究生教材,也适合对Python感兴趣的人员自学。
葛玉好,北京大学经济学博士,中国人民大学劳动人事学院副教授,主要研究领域为劳动经济学、人口老龄化、微观计量、Python编程及其应用等。在《经济研究》《经济学(季刊)》《人口研究》及China Economic Review等期刊上发表学术论文多篇,在B站上推出了《Python基本知识》《Python数据处理》《Python网络爬虫》《Python机器学习》《计量经济学》《经济学原理》等多套免费视频教程。
第一部分Python基础知识
第1章 软件安装和相关学习资源
1.1 Anaconda3的安装
1.2 PyCharm的安装
第2章 内置函数、变量、注释和常见错误
2.1 Python内置函数
2.2 变量
2.3 Python的注释
2.4 Python的常见错误
2.5 一个Python程序文件的例子:猜数字?py
第3章基本的数据类型
3.1 数值型
3.2 字符串型
第4章条件语句和循环语句
4.1 条件语句
4.2 循环语句
第5章列表、元组和字典
5.1 列表
5.2 元组
5.3 字典
第6章函数
6.1函数的定义
6.2函数的调用
6.3函数的参数
6.4函数的返回值
6.5函数的嵌套
6.6函数名和匿名函数
6.7高阶函数
6.8局部变量和全局变量
6.9参数传递的其他方式
第7章类
7.1类的创建和实例
7.2实例内部的信息传递
7.3使用外部变量作参数
7.4实例属性的修改
7.5私有属性和私有方法
7.6封装
7.7继承
7.8多态
7.9__str__()方法
7.10类的属性
7.11类的方法
7.12模块
第8章OS模块、文件操作和异常处理
8.1OS模块
8.2文件操作
8.3异常处理
第二部分Python数据处理
第9章Numpy模块的使用
9.1Numpy模块的安装
9.2数组的创建
9.3数组的引用
9.4数组的编辑
9.5数组的运算
9.6统计功能
第10章Pandas模块的使用
10.1Pandas模块的简介和安装
10.2序列的创建和引用
10.3数据框的创建
10.4数据框的引用
10.5数据框的编辑
10.6数据框的统计
第11章Matplotlib模块的使用
11.1Matplotlib模块的简介和安装
11.2使用Matplotlib绘图的基本流程
11.3改变线条的粗细
11.4添加图形标题
11.5调整图形的尺寸
11.6调整坐标轴的范围和设置标签
11.7设置坐标轴的刻度和刻度标签
11.8设置网格线
11.10标注图例、线条格式和标记样式
11.11绘制散点图
11.12绘制柱形图
11.13绘制饼状图
11.14绘制三维图
第12章使用Python实现最小二乘估计
12.1数据准备
12.2矩阵的构建
12.3系数的估计
12.4系数方差的估计
12.5使用Stata软件进行验证
12.6全部代码
第三部分爬虫基础知识
第13章爬虫与大数据采集
13.1网络爬虫简介
13.2网络爬虫常见术语
第14章Requests模块的使用
14.1Requests模块的安装和简介
14.2get()函数的使用
14.3post()函数的使用
第15章BeautifulSoup类和Xpath语法
15.1BeautifulSoup的安装和简介
15.2使用BeautifulSoup类创建实例
15.3BeautifulSoup实例对象的select()方法
15.4从标签对象提取信息
15.5Xpath的简介和安装
15.6使用HTML类创建实例
15.7xpath()方法的使用
15.8Xpath语法
15.9提取节点里面的内容
第16章正则表达式
16.1Re模块的函数
16.2正则表达式的匹配规则
16.3使用正则表达式的常见例子
16.4从html字符串提取信息
第17章Selenium模块的使用
17.1Selenium模块的安装
17.2Selenium模块的使用
第四部分爬虫的具体例子
第18章提取劳动人事学院教师信息
18.1提取的信息
18.2第一层次信息的提取
18.3第二层次信息的提取
18.4合并第一层次和第二层次的全部信息
第19章爬取百度百科上的个人信息
19.1确定