关于我们
书单推荐
新书推荐
|
大数据技术基础
本书的知识架构是在培训了多届学员的基础上总结整理得来的,已经经过了实践的考验,证实了其科学性;本书当中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,帮助学生在进入企业后可以很快融入大数据工作岗位。本书包括大数据概论、初识Hadoop、认识HDFS、HDFS的运行机制、访问HDFS、HadoopI/O详解、认识MapReduce编程模型、MapReduce应用编程开发、MapReduce的工作机制与YARN平台、MapReduce高级开发、MapReduce实例共11章内容。本书既可作为高等院校学习大数据技术的教材,亦可作为广大大数据技术学习者的入门用书。
本书针对初学者的知识体系,适当简化大数据学习的难度,使得学习更加容易上手;知识架构是在培训了多届学员的基础上总结整理得来的,已经经历了实践的考验,证实了其的科学性;本书凝聚了10余位技术大牛的研发和授课经验,教学资料完整;书中的案例都为企业实际开发的案例,通过学习这些大量的实际案例,使得学习者在进入企业后可以快速融入大数据技术相关工作岗位。
为什么要写这本书
近年来,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》、《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡。麦肯锡称: “数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通信等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能还没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多地意识到数据对企业的重要性。 在如今的社会,大数据的应用越来越彰显它的优势,它占领的领域也越来越大,如电子商务、O2O、物流配送等,各种利用大数据进行发展的领域正在协助企业不断地发展新业务和创新运营模式。有了大数据这个概念,对于消费者行为的判断,产品销售量的预测,精确的营销范围以及存货的补给已经得到全面的改善与优化。然而,这些数据的规模是如此庞大,以至于不能用G或T来衡量。 为了解决这些数据的存储和相关计算问题,就必须构建一个强大且稳定的分布式集群系统作为搜索引擎的基础架构支撑平台,但是对于大多数互联网公司而言,研发这样一个高效性能系统往往要支付高昂的费用。经过多年的发展,如今已形成了以Hadoop为核心的大数据生态系统,开创了通用海量数据处理基础架构平台的先河。Hadoop是一个优秀的分布式计算系统,利用通用的硬件就可以构建一个强大、稳定、简单并且高效的分布式集群计算系统,完全可以满足互联网公司基础架构平台的需求,付出相对低廉的代价就可以轻松处理超大规模的数据。因此,使用Hadoop的公司越来越多,具有丰富工作经验的Hadoop人才也就越来越供不应求,从而学习和使用Hadoop的爱好者和开发者也越来越多,编写这本书也正是为了帮助更多的人学习并掌握Hadoop技术,从而推动Hadoop技术在中国的推广,进而推动中国信息产业的发展。 读者对象 本书适合以下读者阅读: (1) 大数据技术的学习者和爱好者; (2) 有Java基础的开发者; (3) Hadoop技术开发者;大数据 技术基础 前言 (4) Hadoop集群运维开发者; (5) 分布式系统的相关研发人员。 如何阅读本书 本书分为三个部分。 第一部分为简介。简介部分为第1章,主要介绍了大数据的时代背景,从大数据来源到大数据的价值和影响,以及对应用场景和发展前景的介绍,帮助用户明白什么是大数据,大数据是用来干什么的,以及大数据的发展前景是怎样的。大数据的基本概念,首先明白什么是大数据,大数据中数据结构的复杂度,重点明白大数据的四个核心特征,接着了解大数据所使用的技术,最后介绍了一些大数据的应用实例,帮助大家更好地理解大数据、大数据系统,理解其核心设计目标,在系统设计目标的实现过程中,系统还需遵循一定的设计原则。 第二部分为Hadoop技术的讲解,包括第2章到第9章。从认识Hadoop开始到正式介绍Hadoop的基本应用,通过HDFS分布式文件系统和MapReduce并行计算模型从理论到实现机制的角度对Hadoop计算进行讲解。讲述了HDFS的特性和目标、核心设计、体系结构以及HDFS中数据流的读写、HA机制和Federation机制,同时重点介绍了HDFS的命令行接口和Java接口。接着介绍了Hadoop I/O,讲述了数据的完整性、文件压缩、问价序列化和Hadoop文件的数据结构。最后是对MapReduce的讲解,由浅入深,讲述了MapReduce的编程模型,MapReduce应用编程开发,包括MapReduce的类型格式,Java API解析,还重点讲述了MapReduce的工作机制与YARN平台,包括MapReduce作业运行机制的剖析、shuffle和排序、任务的执行、作业调度、YARN平台的简介和架构。 第三部分为实战部分,包括第10章和第11章。首先是从几个具体的小实例讲解了简单高效的MapReduce编程方式。然后通过最后的MapReduce编程实例,带我们进入大数据实战项目,帮助学习者更深入地掌握Hadoop技术。 勘误和支持 除本书编委会以外,参加本书编写的工作人员有: 毛妍、白高平、赵真。由于本书编写者水平有限,书中难免会出现一些错误或者不准确的地方,恳请读者批评指正,可以将书中遇到的错误和问题发邮件,希望您能提出更多宝贵的意见,期待您的真挚反馈。
中科普开(北京)科技有限公司成立于2010年,是国内致力于IT新技术传播、普及的领航者,专注于云计算、大数据、物联网、移动互联网技术的培训及咨询服务。
第1章大数据概论001
1.1大数据时代背景001 1.1.1大数据的数据源001 1.1.2大数据的价值和影响002 1.1.3大数据技术应用场景003 1.1.4大数据技术的发展前景004 1.2大数据基本概念005 1.2.1大数据定义005 1.2.2大数据结构类型007 1.2.3大数据核心特征007 1.2.4大数据技术008 1.2.5行业应用大数据实例010 1.3大数据系统011 1.3.1设计目标和原则011 1.3.2当前大数据系统012 1.4大数据与企业016 1.4.1大数据对企业的挑战性016 1.4.2企业大数据的发展方向019 1.4.3企业大数据观020 本章小结020 习题021 第2章初识Hadoop022 2.1Hadoop简介022 2.1.1Hadoop概况022 2.1.2Hadoop的功能和作用023 2.1.3Hadoop的优势023 2.1.4Hadoop的发展史024 2.1.5Hadoop的应用前景025 2.2深入了解Hadoop025 2.2.1Hadoop的体系结构025 2.2.2Hadoop与分布式开发027 2.2.3Hadoop生态系统029 2.3Hadoop与其他系统030 2.3.1Hadoop与关系型数据库管理系统030 2.3.2Hadoop与云计算032 2.4Hadoop应用案例032 2.4.1Hadoop在百度的应用032 2.4.2Hadoop在Yahoo!的应用033 2.4.3Hadoop在eBay的应用035 本章小结037 习题037 大数据 技术基础 目录 第3章认识HDFS039 3.1HDFS简介039 3.2HDFS的特性和设计目标040 3.2.1HDFS的特性040 3.2.2HDFS的设计目标041 3.3HDFS的核心设计042 3.3.1数据块042 3.3.2数据复制042 3.3.3数据副本的存放策略043 3.3.4机架感知045 3.3.5安全模式046 3.3.6负载均衡047 3.3.7心跳机制048 3.4HDFS的体系结构049 3.4.1Master/Slave架构049 3.4.2NameNode、SecondaryNameNode、DataNode050 本章小结055 习题055 第4章HDFS的运行机制056 4.1HDFS中数据流的读写056 4.1.1RPC实现流程056 4.1.2RPC实现模型057 4.1.3文件的读取059 4.1.4文件的写入060 4.1.5文件的一致模型061 4.2HDFS的HA机制062 4.2.1为什么有HA机制062 4.2.2HA集群和架构063 4.3HDFS的Federation机制064 4.3.1为什么引入Federation机制064 4.3.2Federation架构066 4.3.3多命名空间管理067 本章小结067 习题068 第5章访问HDFS069 5.1命令行常用接口069 5.1.1HDFS操作体验069 5.1.2HDFS常用命令071 5.2Java接口073 5.2.1从Hadoop URL中读取数据074 5.2.2通过FileSystem API读取数据075 5.2.3写入数据076 5.2.4创建目录078 5.2.5查询文件系统078 5.2.6删除数据081 5.3其他常用接口081 5.3.1Thrift081 5.3.2C语言082 5.3.3HTTP082 本章小结082 习题083 第6章Hadoop I/O详解084 6.1数据完整性084 6.1.1HDFS的数据完整性084 6.1.2验证数据完整性085 6.2文件压缩086 6.2.1Hadoop支持的压缩格式086 6.2.2压缩解压缩算法codec087 6.2.3压缩和输入分片091 6.3文件序列化092 6.3.1Writable接口093 6.3.2WritableComparable接口094 6.3.3Writable实现类095 6.3.4自定义Writable接口100 6.3.5序列化框架104 6.4Hadoop文件的数据结构104 6.4.1SequenceFile存储104 6.4.2MapFile存储108 本章小结111 习题111第7章识识MapReduce编程模型113 7.1MapReduce编程模型简介113 7.1.1什么是MapReduce113 7.1.2MapReduce程序的设计方法114 7.1.3新旧MapReduce简介115 7.1.4Hadoop MapReduce架构116 7.1.5MapReduce的优缺点117 7.2WordCount编程实例118 7.2.1WordCount的设计思路118 7.2.2编写WordCount代码118 7.2.3运行程序119 7.2.4代码讲解120 7.3MapReduce的编程122 7.3.1配置开发环境122 7.3.2编写Mapper类124 7.3.3编写Reducer类125 7.3.4编写main函数125 7.4MapReduce在集群上的运作127 7.4.1作业的打包和启动127 7.4.2MapReduce的Web界面128 7.4.3获取结果130 本章小结131 习题131 第8章MapReduce应用编程开发132 8.1MapReduce类型与格式132 8.1.1MapReduce的类型132 8.1.2输入格式137 8.1.3输出格式148 8.2Java API解析150 8.2.1作业配置与提交151 8.2.2InputFormat接口的设计与实现152 8.2.3OutputFormat接口的设计与实现157 8.2.4Mapper与Reducer解析159 本章小结163 习题163 第9MapReduce的工作机制与YARN平台165 9.1YARN平台简介165 9.1.1YARN的诞生165 9.1.2YARN的作用166 9.2YARN的架构166 9.2.1ResourceManager167 9.2.2ApplicationMaster168 9.2.3NodeManager168 9.2.4资源模型169 9.2.5ResourceRequest和Container169 9.2.6Container规范170 9.3剖析MapReduce作业运行机制170 9.4基于YARN的运行机制剖析171 9.5Shuffle和排序175 9.5.1map端175 9.5.2reduce端176 9.6任务的执行178 9.6.1任务执行环境178 9.6.2推测执行179 9.6.3关于OutputCommitters180 9.6.4任务JVM重用181 9.6.5跳过坏记录182 9.7作业的调度182 9.7.1公平调度器183 9.7.2容量调度器183 9.8在YARN上运行MapReduce实例184 9.8.1运行Pi实例184 9.8.2使用Web GUI监控实例185 本章小结189 习题190 第10章MapReduce高级开发191 10.1计数器191 10.1.1内置计数器191 10.1.2自定义的Java计数器193 10.2数据去重194 10.2.1实例描述194 10.2.2设计思路194 10.2.3程序代码194 10.3排序195 10.3.1实例描述196 10.3.2设计思路196 10.3.3程序代码196 10.4二次排序197 10.4.1二次排序原理197 10.4.2二次排序的算法流程198 10.4.3代码实现199 10.5平均值202 10.5.1实例描述202 10.5.2设计思路202 10.5.3程序代码203 10.6Join联接204 10.6.1Map端Join204 10.6.2Reduce端Join205 10.6.3Join实现表关联205 10.7倒排索引209 10.7.1倒排索引的分析和设计209 10.7.2倒排索引完整源码213 10.7.3运行代码结果214 本章小结215 习题215 第11章MapReduce实例216 11.1搜索引擎日志处理216 11.1.1背景介绍216 11.1.2数据收集216 11.1.3数据结构216 11.1.4需求分析217 11.1.5MapReduce编码实现217 11.2汽车销售数据分析223 11.2.1背景介绍224 11.2.2数据收集224 11.2.3数据结构 224 11.2.4需求分析224 11.2.5MapReduce编码实现225 11.3农产品价格分析234 11.3.1背景介绍234 11.3.2数据收集235 11.3.3数据结构235 11.3.4需求分析236 11.3.5MapReduce编码实现236 参考文献248
第1章大数据概论
本章提要 在这个日新月异发展的社会中,人们发现未知领域的规律主要依赖抽样数据、局部数据和片面数据,甚至无法获得真实数据时只能纯粹依赖经验、理论、假设和价值观去认识世界。因此,人们对世界的认识往往是表面的、肤浅的、简单的、扭曲的或者是无知的。然而大数据时代的来临使人类拥有更多的机会和条件在各个领域更深入地获得和使用全面数据、完整数据和系统数据,深入探索现实世界的规律。大数据的出现帮助商家了解用户、锁定资源、规划生产、做好运营及开展服务。 本章主要从大数据时代背景、大数据基本概念、大数据系统以及大数据与企业等方面,让读者对大数据有初步的认识。 1.1大数据时代背景 中国庞大的人数和应用市场,其复杂性高并且充满变化,从而成为世界上拥有最复杂的大数据的国家。解决这种由大规模数据引发的问题,探索以大数据为基础的解决方案,是中国产业升级、效率提高的重要手段。因此,解决大数据这一问题不仅提高公司的竞争力,也能提高国家竞争力。 1.1.1大数据的数据源 近年来,随着信息技术的发展,我国在各个领域产生了海量数据,主要分布如下。 1. 以BAT为代表的互联网公司 (1) 阿里巴巴: 目前保存的数据量为近百个拍字节(PB),90%以上是电商数据、交易数据、用户浏览和点击网页数据、购物数据。 (2) 百度: 2013年的数据总量接近一千个拍字节(PB),主要来自中文网、百度推广、百度日志、UGC,由于占有70%以上的搜索市场份额从而坐拥庞大的搜索数据。 (3) 腾讯: 存储数据经压缩处理后总量在100PB左右,数据量月增10%,主要是大量社交、游戏等领域积累的文本、音频、视频和关系类数据。 大数据 技术基础 00第1章 大数据概论 002. 电信、金融与保险、电力与石化系统 (1) 电信: 包括用户上网记录、通话、信息、地理位置等。运营商拥有的数据量都在10PB以上,年度用户数据增长数十拍字节(PB)。 (2) 金融与保险: 包括开户信息数据、银行网点和在线交易数据、自身运营的数据等。金融系统每年产生数据达数十拍字节(PB),保险系统数据量也接近拍字节(PB)级别。 (3) 电力与石化: 仅国家电网采集获得的数据总量就达到10个拍字节(PB)级别,石化行业、智能水表等每年产生和保存下来的数据量也达到数十拍字节(PB)级别。 3. 公共安全、医疗、交通领域 (1) 公共安全: 在北京,就有50万个监控摄像头,每天采集视频数量约3PB,整个视频监控每年保存下来的数据在数百拍字节(PB)以上。 (2) 医疗卫生: 据了解,整个医疗卫生行业一年能够保存下来的数据就可达到数百PB。 (3) 交通: 航班往返一次就能产生太字节(TB)级别的海量数据;列车、水陆路运输产生的各种视频、文本类数据,每年保存下来的也达到数十拍字节(PB)。 4. 气象与地理、政务与教育等领域 (1) 气象与地理: 中国幅页辽阔,气象局保存的数据为4~5PB,每年约增数百个太字节(TB),各种地图和地理位置信息每年约增数十太字节(PB)。 (2) 政务与教育: 北京市政务数据资源网涵盖旅游、教育、交通、医疗等门类,一年上线公布400余个数据包。政务数据多为结构化数据。 5. 其他行业 线下商业销售、农林牧渔业、线下餐饮、食品、科研、物流运输等行业数据量还处于积累期,整个体积都不算大,多则达到拍字节(PB)级别,少则几百太字节(TB),甚至只有数十太字节(TB)级别,但增速很快。 1.1.2大数据的价值和影响 数量巨大、与微观情境相结合的运行记录信息的最终结果就是大数据。尽管运行记录信息不是大数据的全部,但却应该是以后大数据的主流。目前看得到的金融、电信、航空、电商、零售渠道等领域中的大数据,多数也都是运行记录信息。大数据具有采集过程价值未知、力争全面、即时、系统性并发的记录方式,以及主受体统一和大微观的特征,这些特征决定了大数据的价值发挥。 大数据的应用很广泛,解决了大量的日常问题。大数据是利害攸关的,它将重塑人们的生活、工作和思维方式,比其他划时代创新引起的社会信息范围和规模急剧扩大所带来的影响更大。大数据需要人们重新讨论决策、命运和正义的性质。人们的世界观正受到大数据优势的挑战,拥有大数据不但意味着掌握过去,更意味着能够预测未来。因此,大数据给人们带来了巨大的价值和影响。 (1) 全面洞察客户信息。全面分析来自渠道的反馈、社会传媒等多源信息,让每个客户作为个体了解全景。 (2) 提升企业的资源管理: 利用实时数据实现预测性维护,并减少故障,推动产品和服务开发。 (3) 数据深度利用。梳理结构化、非结构化、海量历史/实时、地理信息4类数据资源,以企业核心业务及应用为主线实现四类数据资源的关联利用。 (4) 风险及时感知和控制。通过全面数据分析改进风险模型,结合交易流数据实时捕获风险,及时有效地控制。 (5) 辅助智能决策。实时分析所有的运营数据和效果反馈,优化运营流程。利用投资回报率最大程度减少信息技术成本。 (6) 更快和更大规模的产品创新。多源捕获市场反馈,利用海量市场数据和研究数据来快速驱动创新。 1.1.3大数据技术应用场景 当前,大数据技术的应用涉及各个行业领域。 1. 大数据在金融行业的应用 近年来,随着“互联网金融”概念的兴起,催生了一大批金融、类金融机构转型或布局的服务需求,相关产业服务应运而生。而随着互联网金融向纵深发展,行业竞争日趋白热化,金融、类金融机构在其中的短板日益凸显。为了更好地获得最佳商机,金融行业也步入了大数据时代。 华尔街某公司通过分析全球3.4亿微博账户留言来判断民众情绪。人们高兴的时候会买股票,而焦虑的时候会抛售股票,它通过判断全世界高兴的人多还是焦虑的人多来决定公司股票的买入还是卖出。 阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信经营的企业,给他们提供贷款,并且不需要这些中小企业的担保。目前阿里公司已放贷款上千亿元,坏账率仅为0.3%。 2. 大数据在政府的应用 为充分运用大数据的先进理念、技术和资源,加强对我国各地市场主体的服务和监管,推进简政放权和政府职能转变,提高政府治理能力,我国一些省市运用大数据加强对市场主体服务和监管实施方案已然出炉。 3. 大数据在医疗健康的应用 随着医疗卫生信息化建设进程的不断加快,医疗数据的类型和规模也在以前所未有的速度迅猛增长,甚至产生了无法利用目前主流软件工具的现象,这些医疗数据能帮助医改在合理的时间内达到撷取、管理信息并整合成为能够帮助医院进行更积极的经营决策的有用信息。这些具有特殊性、复杂性的庞大的医疗大数据,仅靠个人甚至个别机构来进行搜索,那基本是不可能完成的。 4. 大数据在宏观经济管理领域的应用 IBM日本分公司建立了一个经济指标预测系统,它从互联网新闻中搜索出能影响制造业的480项经济数据,再利用这些数据进行预测,准确度相当高。 印第安纳大学学者利用Google提供的心情分析工具,根据用户近千万条短信、微博留言预测琼斯工业指数,准确率高达87%。 淘宝网建立了“淘宝CPI”,通过采集、编制淘宝网上390个类目的热门商品价格来统计CPI,预测某个时间段的经济走势比国家统计局的CPI还提前半个月。 5. 大数据在农业领域的应用 由Google前雇员创办Climate公司,从美国气象局等数据库中获得几十年的天气数据,各地的降雨、气温和土壤状况及历年农作物产量做成紧凑的图表,从而能够预测美国任一农场下一年的产量。农场主可以去该公司咨询明年种什么能卖出去、能赚钱,说错了该公司负责赔偿,赔偿金额比保险公司还要高,但到目前为止还没赔过。 通过对手机上的农产品“移动支付”数据、“采购投入”数据和“补贴”数据分析,可准确预测农产品生产趋势,政府可依此决定出台激励实施和确定合适的作物存储量,还可以为农民提供服务。 6. 大数据在商业领域的应用 沃尔玛基于每个月4500万的网络购物数据,并结合社交网络上有关产品的大众评分,开发机器学习语义搜索引擎“北极星”,方便浏览,在线购物者因此增加10%~15%,销售额增加十多亿美元。 沃尔玛通过手机定位,可以分析顾客在货柜前停留时间的长短,从而判断顾客对什么商品感兴趣。 不仅仅是通过手机定位,实际上美国有的超市在购物推车上也安装了位置传感器,根据顾客在不同货物前停留时间的长短来分析顾客可能的购物行为。 在淘宝网上买东西时,消费者会在阿里的广告交易平台上留下记录,阿里不仅从交易记录平台把消费记录拿来供自己使用,还会把消费记录卖给其他商家。 7. 大数据在银行的应用 在信用卡服务方面,银行首先利用移动互联网技术的定位功能确定商圈,目前已实际覆盖全国161个商圈,累计服务千万人次;其次利用用户活动轨迹追踪,确定高价值商业圈设计业务;再利用大数据进行客户需求的体验分析。既包括客户的需要,也包括客户的体验,最终实现用户体验的LIKE曲线。 1.1.4大数据技术的发展前景 据预测,到2020年,全球需要存储的数据量将达到35万亿吉字节(GB),是2009年数据存储量的44倍。根据IDC的研究,2010年底全球的数据量已达到120万拍字节(PB)。这些数据如果使用光盘存储,摞起来可以从地球到月球一个来回。对于商业而言,这里孕育着巨大的市场机会,庞大的数据就是一个信息金矿。数据是企业的重要资产。因此,大数据将人们带进了一个更有前景的领域。 在大数据时代,一批新的大数据技术正在涌现,将改变人们分析处理海量数据的方式,使人们更快、更经济地获得所需的结果。传统商业智能限于技术瓶颈很大程度上是对抽样数据进行分析。大数据技术就是要打破传统商业智能领域的局限。大数据技术不但能处理结构化数据,还能分析和处理各种半结构化和非结构化数据,甚至从某种程度上,更擅长处理非结构化数据,例如Hadoop。而在现实生活中,这样的数据更为普遍,增长得更为迅速。例如,社交媒体中的各种交互活动、购物网站用户点击行为、图片、电子邮件等。可以说,正是此类数据的爆炸性催生了大数据相关技术的出现和完善,从而让人们知道在一个资源有限的世界中应该提取哪些有价值的信息。 大数据技术的出现和完善还可以帮助健康保险公司不做体检就能决定保险覆盖面,并降低提醒病人服药的成本。通过大数据的相关性,语言可以得到翻译,汽车可以在预测的基础上自行驾驶。人们之所以能做所有的这些事,新工具的使用只是一个很小的因素,比拥有更快的处理器、更多的存储器,更智能的软件和算法更重要的是,人们拥有了更多的数据,继而世界上更多的事物被数据化了。显然,人类量化世界的雄心先于计算机革命,但是数字工具将数据化提升到了新的高度。不仅移动电话能够跟踪到呼叫的人和被呼叫人所在的位置,而且同样的数据也能用于断定来人是否生病了。 能置身于信息流中央并且能够收集数据的公司通常会繁荣兴旺。有效利用大数据需要专业技术和丰富的想象力,即一个能容纳大数据的心态,但价值的核心归功于数据本身。有时,重要的资产并不仅仅是能清楚看到的信息,聪明的公司可以用它来改善现有的服务,或推出全新的服务。 大数据将成为理解和解决当今许多紧迫的全球问题所不可或缺的重要工具。在应对气候变化问题时,需要对污染相关的数据进行分析得出最佳方案,从而明确努力方向,找出解决问题的方法。全球范围内遍布的大量传感设备,包括智能手机内部的传感器,使人们能以更高的细节水平模拟环境。而世界贫困人口迫切需要提高医疗保健服务,降低医疗费用,这很大程度上可以靠自动化来实现。当下许多似乎需要人类判断力才能进行的事情,其实可以完全交由计算机来做,比如癌细胞活检、传染病爆发前期的模式预测等。 大数据也被用于发展经济和理解如何预防冲突。基于手机动向数据显示,非洲许多贫民窟地区经济活动十分活跃。大数据还揭示了最有可能引发种族关系紧张的社区以及解除难民危机的方式。只有当科技应用于生活的方方面面时,大数据的使用范围才能进一步扩大。 大数据能帮助人们更好地进行已有的工作,并处理全新事务。在不久的将来,人们将在生活的方方面面使用到大数据。当大数据成为日常生活的一部分后,它将会极大地改变人们对未来的看法。 大数据时代造就了一个数据库无所不在的世界,数据监管部门面临前所未有的压力和责任。如何避免数据泄露对国家利益、公众利益、个人隐私造成伤害?如何避免信息不对称,对困难群体的利益构成伤害?在有效控制风险之前,也许还是让“大数据”继续待在笼子里更好一些。 大数据的经济价值已经被人们认可,大数据的技术正逐渐成熟,一旦完成数据的整合和监管,大数据爆发的时代即将到来。人们现在要做的,就是选好自己的方向,为迎接大数据的到来提前做好准备。 以未来的视角看,无论是政府、互联网公司、IT企业,还是行业用户,只要以开放的心态、创新的勇气拥抱“大数据”,大数据时代就一定有属于中国的机会。 1.2大数据基本概念〖*2〗1.2.1大数据定义麦肯锡(美国首屈一指的咨询公司)是研究大数据的先驱。在其报告《Big data: The next frontier for innovation,competition and productivity》中给出的大数据定义是: 大数据指的是大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。但它同时强调,并不是说一定要超过特定太字节(TB)值的数据集才能算是大数据。 国际数据公司(IDC)从大数据的四个特征来定义,即海量的数据规模(Volume)、快速的数据流转和动态的数据体系(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value)。 亚马逊公司(全球最大的电子商务公司)的大数据科学家John Rauser 给出了一个简单的定义: 大数据是任何超过了一台计算机处理能力的数据量。 维基百科中只有短短的一句话: “巨量资料(Big Data),或称大数据,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策更积极目的的资讯。” 而在百度百科中是这样定义的: “大数据(Big Data),是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。” 综合上面的定义,可以得出以下几点。 (1) 大数据并没有明确的界限,它的标准是可变的。大数据在今天的不同行业中的范围可以从几十太字节(TB)到几拍字节(PB),但在20年前1GB的数据已然是大数据了。可见,随着计算机软硬件技术的发展,符合大数据标准的数据集容量也会增长。 (2) 大数据不仅仅只是大,它还包含了数据集规模已经超过了传统数据库软件获取、存储、分析和管理能力的意思。 IDC报告显示,计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2011年的22倍。在过去几年,全球的数据量以每年58%的速度增长,在未来这个速度会更快。如果按照现在存储容量每年增长40%的速度计算,到2017年需要存储的数据量甚至会大于存储设备的总容量。如何利用大数据解决科研、医疗、能源、商业、政府管理、城市建设等领域的问题,是全世界面临的问题。 举几个大家熟悉例子: 2014年11月19日,百度在京召开“百度云两周年媒体沟通会”,正式宣布百度云总用户数突破两亿,百度云数据存储量达5EB,这些数据足以塞满3.4亿部16GB内存的iPhone6,如果将这些手机首尾相连,可以在地球和月球之间搭建16条星际通道。 2014年3月7日,在阿里巴巴有史以来最大型对外开放的数据峰会“2014西湖品学大数据峰会”上,阿里巴巴大数据负责人披露了阿里巴巴目前的数据储存情况。目前在阿里巴巴数据平台事业部的服务器上,攒下了超过100PB已处理过的数据,等于104857600GB,相当于4万个西雅图中央图书馆,580亿本藏书。仅淘宝和天猫两个子公司每日新增的数据量,就足以让一个人连续不断看上28年的电影。而如果将一个人作为服务器,则此人处理的数据量相当于每秒钟看上837集的《来自星星的你》。 在2013年的数据大会上,腾讯公司数据平台总经理助理蒋杰透露,腾讯QQ目前拥有8亿用户、4亿移动用户,在数据仓库存储的数据量单机群数量已达到4400台,总存储数据量经压缩处理后约100PB,并且这一数据还在日增200~300TB、月增加率为10%的速度增长。 1993 年,《纽约客》刊登了一幅漫画,标题是“互联网上,没有人知道你是一条狗”。据说作者彼得·施泰纳因为此漫画的重印而赚取了超过5 万美元。当时关注互联网社会学的一些专家,甚至担忧“计算机异性扮装”而引发的社会问题。 20多年后,互联网发生了巨大的变化,移动互联、社交网络、电子商务大大拓展了互联网的疆界和应用领域。人们在享受便利的同时,也无偿贡献了自己的“行踪”。现在互联网不但知道对面是一条狗,还知道这条狗喜欢什么食物、几点出去遛弯、几点回窝睡觉。人们不得不接受这个现实,每个人在互联网进入到大数据时代都将是透明存在的。 1.2.2大数据结构类型 当今企业存储的数据不仅仅是内容多,而且结构已发生了极大改变,不再仅仅是以二维表的规范结构存储。大量的数据来自不是结构化的数据类型(半结构化数据、准结构化数据或非结构化数据),如办公文档、文本、图片、XML、 HTML、各类报表、图片、音频和视频等,并且这些数据在企业的所有数据中是大量且增长迅速的。企业80%的数据来自不是结构化的数据类型,结构化数据仅有20%。全球结构化数据增长速度约为32%,而不是结构化的数据类型增速高达63%。预计今年不是结构化的数据类型占有比例将达到互联网整个数据量的75%以上。 (1) 结构化数据: 包括预定义的数据类型、格式和结构的数据。例如,关系型数据库中的数据。 (2) 半结构化数据: 具有可识别的模式并可以解析的文本数据文件。例如,自描述和具有定义模式的XML数据文件。 (3) 准结构化数据: 具有不规则数据格式的文本数据,使用工具可以使之格式化。例如,包含不一致的数据值和格式化的网站点击数据,可参考http://www.zkpk.org/。 (4) 非结构化数据: 没有固定结构的数据,通常保存为不同类型的文件。例如,文本文档、图片、音频和视频。 1.2.3大数据核心特征 业界通常用4个V,即Volume(数据量大)、Variety(类型繁多)、Value(价值密度低)、Velocity(速度快,时效高)来概括大数据的特征。 ……
你还可能感兴趣
我要评论
|