Spark零基础实战_王家林，孔祥瑞等著_9787122280176

Spark是业界公认的近几年发展快、受关注度的一体化多元化的大数据计算技术，可以同时满足不同业务场景和不同数据规模的大数据计算的需要。
本书首先通过代码实战的方式对学习Spark前必须掌握的Scala内容进行讲解并结合Spark源码的阅读来帮助读者快速学习Scala函数式编程与面向对象完美结合的编程艺术，接着对Hadoop和Spark集群安装部署以及Spark在不同集成开发环境的开发实战作出了详细的讲解，然后基于大量的实战案例来讲解Spark核心RDD编程并深度解密RDD的密码，并且通过实战的方式详解了TopN在Spark RDD中的实现，为了让读者彻底了解Spark，本书用了大量的篇幅详细解密了Spark的高可用性、内核架构、运行机制等内容。
Spark零基础实战这本书定位于零基础的学员，也可以作为有一定大数据Hadoop经验的从业者以及对大数据非常感兴趣的学生的本Spark入门书籍。

大数据已经成为公众流行词多年，不管在业界还是在其他领域都紧随时代发展的潮流，人类社会的发展已经进入到大数据时代。我们生活的今天大到互联网公司，小到每一个个体或者每一台移动设备其每天都会产生海量的新数据，那么对于这些海量数据的处理就面临着巨大的考验，而在此过程中为了满足业务需要，各类技术如雨后春笋般出现并得到IT企业的实践应用和发展，就应对海量数据的处理框架而言，于2006年诞生的Hadoop，使业界掀起一股热潮，它改变了企业对数据的存储、处理和分析的过程，加速了大数据的发展，形成了自己的极其火爆的技术生态圈，并受到非常广泛的应用。而Spark在2009年初来源于伯克利大学的研究性项目，于美国加州大学伯克利分校的AMPLab实验室诞生，2010年实现开源并在2013年成为Apache的基金孵化器项目并在不到一年的时间成为其的项目，在短短几年的时间内获得极速发展并被各大互联网公司应用于实际项目中以实现海量数据的处理，可以毫不夸张地讲Spark是大数据时代发展的必然产物，势必会成为好的大数据处理框架之一。
根据Stackoverflow调查显示Spark是2016年IT从业者获得薪水的技术之一，从事Spark开发的IT人员年薪达到125000美元，从事Scala开发的IT人员年薪同从事Spark的IT人员保持一致的水平，可见Spark已经成为开发人员在大数据领域收入好的技术之一。了解Spark或者读过Spark源码的人都知道Spark主要是Scala语言开发的，而Scala语言是一门面向对象与函数式编程完美结合的语言。因此本书主要以零基础实战掌握Spark运行机制为导向详细对Scala的语法和重要知识点进行实战讲解，通过源码对Spark的内核架构进行剖析并赋予实战案例来引导读者能够在掌握Scala的同时快速进行Spark的深入学习。
Spark基于RDD（弹性分布式数据集）实现了一体化、多元化的大数据处理体系，是目前热门效的大数据领域的计算平台。Spark框架完美融合了Spark SQL、Spark Streaming、MLLib、GraphX子框架，使得各子框架之间实现数据共享和操作，强大的计算能力和集成化使得Spark在大数据计算领域具有得天独厚的优势，因此国际上很多大型互联网公司均使用Spark实现海量数据的处理，如国内的BAT等，有过千台节点组成的集群高效快速地处理每日生成的海量数据。
Spark在大数据处理领域的迅猛发展，给了很多互联网公司高效处理海量数据的方案，但是Spark人才的稀缺使得很多公司心有余而力不足，以至于不能将企业的生产力量化提高成了很多企业面临的主要问题，大数据Spark工程师的缺少直接制约了很多公司的转型和发展，在此情况下本书以零基础实战为主导，由基础部分细致地带领初学者从零基础入门直到深入学习Spark。本书主要面向的对象是预从事大数据领域的初学者、高校学生以及有一定大数据从事经验的工作人员等。
本书以零基础实战Spark为主导，首先实战讲解Scala基础语法与定义、Scala面向对象编程、Scala函数式编程、Scala类型系统模式匹配、Scala因式转换以及Scala并发编程等，基本包含了Scala所有重要内容并且每一部分在实战的同时配合Scala在Spark源码中的应用带领读者彻底理解Scala语言的艺术。其次对Spark源码在不同方式下的编译进行演示，对Hadoop不同模式的集群搭建、Spark集群的搭建以及Spark在IDE、IntelliJ IDEA不同工具下的实战和源码导入均作了细致讲解，相信通过源码的学习和不同工具下对Spark程序的开发实战可以帮助读者对Spark有一个全面的理解和认识，并能快速投入到实际开发中。然后对Spark中为重要的核心组件之一RDD（弹性分布式数据集）进行了详细地解析，并介绍Spark Master HA的4种策略，解密如何通过ZOOKEEPER这种企业经常使用的策略来保证Spark Master HA。本书后一部分综合讲解了Spark内核架构以及实战解析Spark在不同模式下的运行原理。希望本书可以引领读者细致高效地学习Spark框架，并成为企业渴求的Spark高端人才。
参与本书编写的有王家林、孔祥瑞等。本书能顺利出版，离不开化学工业出版社的大力支持与帮助，包括进度把控、技术服务、排版等各个方面，在此表示诚挚地感谢。
在本书阅读过程中，如发现任何问题或有任何疑问，可以加入本书的阅读群（QQ：302306504）提出讨论，会有专人帮忙答疑。同时，该群中也会提供本书所用案例代码。
如果读者想要了解或者学习更多大数据的相关技术，可以关注DT大数据梦工厂微信公众号DT_Spark及QQ群437123764，或者扫描下方二维码咨询，也可以通过YY客户端登录68917580频道直接体验。王家林老师的新浪微博是http://weibocom/ilovepains/ 欢迎大家在微博上进行互动。
由于时间仓促，书中难免存在不妥之处，请读者谅解，并提出宝贵意见。

王家林 2016.8.13于北京

王家林，DT大数据梦工厂/Spark亚太研究院，DT大数据梦工厂创始人/Spark亚太研究院院长及首席专家，DT 大数据梦工厂创始人和首席专家，Spark 亚太研究院院长和首席专家，移动互联网和大数据技术领域集大成者，多家公司的技术顾问，业界技术培训专家。
大数据技术公益推广人，大数据在线教育世界技术专家，Spark 大数据中国区培训专家。彻底研究了Spark 从0.5.0 到1.6.1 中共22 个版本的Spark 源码，目前致力于开发全球优化的Spark 中国版本。尤其擅长Spark 在生产环境下各种类型和场景故障的排除和解决，痴迷于Spark 生产环境下任意类型(例如Shuffle 和各种内存问题)的Spark 程序的深度性能优化。
从2014 年6 月24 日起，已开启免费的Spark 公开课《决胜大数据时代Spark100 期公益大讲堂》。在2015 年12 月27 日成立DT 大数据梦工厂，开启IMF(Impossible Mission Force)行动，率先在全球开展以Spark 为核心的，免费为社会培养100 万企业级实战高级大数据人才行动计划，截止目前已有数千人参与到这个行动之中。
曾负责某公司的类Hadoop 框架开发工作，是Hadoop 一站式解决方案的提供者，同时也是云计算和分布式大数据处理的较早实践者之一，在实践中用Hadoop 解决不同领域的大数据的高效处理和存储。致力于Android、HTML5、Hadoop 等的软、硬、云整合的一站式解决方案专家。
2007 年国内较早从事于Android 系统移植、软硬整合、框架修改、应用程序软件开发以及Android 系统测试和应用软件测试的技术专家。
2015年12月,在电视媒体录制了《大数据的奥秘》,《大数据时代的九大神器》等视频光盘。
? 2016年1月至今,直播培训课程Hadoop，MySQL，Linux，Scala，Java，Spark零基础到高级企业级实战,Spark源码解析及性能优化，JVM性能调优，机器学习从零基础到企业级实战持续中。

你还可能感兴趣

我要评论