本书按照网络数据爬取、数据清洗与处理、数据存储、数据分析的逻辑脉络,介绍了数据科学的相关知识。
全书主要内容涉及理论、实战、工具三个层面。其中,理论层面主要介绍了网络爬虫,数据处理与存储,机器学习的相关概念、原理与算法;实战层面主要通过影评、二手房、招聘网站等实战项目,阐述了数据爬取、处理与存储的代码实现,并通过相关数据集的实例,介绍了机器学习算法的实现与效果评估;工具层面主要讲解了如何通过Python的Urllib、Request、BeautifulSoup、Pandas、Scikit-learn等第三方工具包实现数据的爬取、处理与分析,以及通过SQLite这一轻量级数据库工具实现数据的存储。
本书系“电子商务应用型专业系列教材”丛书。根据市场需求,该丛书重新梳理了电子商务应用型人才所需的能力,以电商运营能力、数据分析能力和移动应用设计开发能力为核心,学生可根据自身兴趣爱好和擅长点进行自身能力的培养。
本书以校企合作的方式进行教材的编写。通过与企业合作,吸收企业的行业经验和实际案例,既提高了教材内容的实践性,又帮助企业把隐性知识固化为显性知识。
该丛书包括:1.《跨境电子商务实务》
2.《跨平台移动商务网站技术及其应用》
3.《网络数据爬取与分析实务》
4.《移动商务实用教程》
李周平
上海财经大学博士,网络与软件工程师,现任上海商学院信息与计算机学院教师。长期从事网络爬虫、数据挖掘、机器学习、自然语言处理、Python程序开发等方面的教学和培训工作,具有十余年的Python项目开发经验,获得多项软件专利。
第1章 数据科学概述
1.1什么是数据科学
1.2数据分析师、数据工程师与数据科学家
第2章Python语法基础
2.1 Python的程序结构
2.2 Python编码规范
2.3 Python编程环境的搭建
2.4 Python的数据结构
2.5 Python控制语句
习题
第3章 使用Urllib库编写爬虫
3.1 网络爬虫概述
3.2 使用Urllib.request模块编写爬虫
3.3 修改User-Agent属性模拟浏览器访问
3.4 HTTP协议详解
3.5 模拟HTTP-GET方法的爬虫
3.6 模拟HTTP-POST方法的爬虫
习题
第4章 使用正则表达式提取数据
4.1 正则表达式原理
4.2 正则表达式语法
4.3 re模块常用的函数
4.4 正则表达式应用实例
习题
第5章 使用BeautifulSoup库提取数据
5.1 BeautifulSoup包简介
5.2 BeautifulSoup的信息提取
5.3 BeautifulSoup的遍历
习题
第6章 爬虫项目实战
6.1网易新闻中心爬虫
6.2 通过Session模拟登录豆瓣
6.3 链家二手房信息爬虫
6.4爬取拉勾网JSON格式数据
习题
第7章 Pandas数据处理基础
7.1数据处理概述
7.2 Pandas数据结构
7.3 DataFrame的基本操作
7.4 DataFrame数据的连接
7.4 Pandas数据输入输出
习题
第8章 Pandas数据处理常用方法
8.1 分组统计与转换
8.2 缺失值处理
8.3 时间序列数据处理
8.4 向量转换
习题
第9章 数据处理实战
9.1二手房数据处理
9.2 职位数据处理
9.3 职位描述的文本信息处理
习题
第10章 SQLite数据库操作
10.1 SQLite数据库简介
10.2 Python读写SQLite
10.3 Pandas读写SQLite
习题
第11章 机器学习概述
11.1 认识机器学习
11.2 机器学习的应用范围
11.3 机器学习的算法
11.4 Scikit-learn机器学习包
习题
第12章 从线性回归到分类
12.1线性回归算法
12.2 逻辑回归分类算法
习题
第13章 分类模型及应用
13.1 K近邻分类算法
13.2 决策树分类算法
13.3 随机森林分类算法
习题
第14章 分类模型的评估
14.1训练与测试样本
14.2 性能评价指标
14.3分类阈值的调整
习题
参考文献