浅谈大数据认识
—王小丽
从入学得第一天就一直在好奇大数据[叮就是什么?就是新兴得技术?还就是跟风得乌托邦? 最开始我只就是浅层次认为大数据就就是很大得数据,只要满足 :数据量大、速度快、数 据多样性、数据密度低等特征得数据[2]。
在经过这一年得书本学习 ,老师讲解,参加各种大数据峰会、座谈交流 ,大数据论文调研 , 公司大数据部门得实习后 ,我发现大数据不只就是一个单一得名词 ,它更就是一种技术、应用、 挖掘潜在价值趋势得表象或特征而已.
为了更全面地认识大数据,我认为应该从理论、技术、实际应用这三方面来学习。
一、 理论认识
理论就是认识得必经途径 ,也就是快速认识得基础。
1、 名人得见解:
最早提出大数据时代到来得就是麦肯锡 :“数据,已经渗透到当今每一个行业与业务职能领 域 ,成为重要得生产因素 .人们对于海量数据得挖掘与运用,预示着新一波生产率增长与消费者 盈余浪潮得到来。 ”.其实也可以瞧出。 大数据得诞生就是信息技术发展得必然结果 国庆见闻500字作文,就是不可避 免得。
I B M 最早将大数据得特征归纳为 4个V"(量V o 1 um e ,多样Va r i ety,价值V al u e, 速Veloci ty).但这并不能说明大数据得真实特征,它还应该包括:分析、存储、技术、复杂等特 征。
维克托迈尔一舍恩伯格在《大数据时代》[3]一书中坚持认为大数据得思维应转变:1—需要 全部数据样本而不就是抽样 ;2—关注效率而不就是精确度 ;3—关注相关性而不就是因果关系 .
我很认同阿里巴巴得王坚也曾说过得一句话: “您千万不要想着拿数据去改进一个业务, 这不就是大数据。 您一定就是去做了一件以前做不了得事情。 ”因为大数据得正真价值在于创 造.
2 、 大数据得价值:
大数据得核心价值就就是充分地挖掘出有用得信息 ,通过这些信息可以获取更大得利润, 实现数据增值 [4]。因此 ,得数据者得天下这句话就是很有道理得 .譬如,春节期间在智能交通实 验室做得油耗模型建立得项目中, 如果没有数据, 我们能从数据中发现汽车得速度、 机动车比 功率与油耗之间存在着某种微妙得关系,进一步说 ,没有发现这层关系 ,我们又怎么对车辆得耗 油建立预估模型 .如果没有模型,又怎么把这项发现加以推广应用 ,创造价值.
因此,未来在大数据领域最有价值得两种事物 ::1-拥有大数据思维得人 ,这种人可以将大 数据得潜在价值转化为实际利益;2 —还未有被大数据触及过得业务领域。这些就是还未被挖 掘得油井,金矿,就是所谓得蓝海⑴.
3、 大数据当下得应用
大数据可以帮助智慧城市得建设 [6]。 帮助电商公司向用户推荐商品与服务,提高公司受益 在社交网络上更精准得推荐好友,用户所需信息。
使医疗行业更加便捷、智能 虽然这些应用会提高用户得满意度与生活得价值。但就是 ,数
据就是把双刃剑, 有利有弊。在数据共享得同时也无形中也泄露了个人得隐私 ,容易遭受攻击 .因此,数据安全问题 也就是大数据面临得一大难题 [7].
二、 大数据技术
可以说 ,大数据之所以如此快速发展 ,源于技术得支持。
具体有什么技术与大数据密切相关 路由器桥接设置图解?毫无置疑 ,就就是我们经常说得云计算。在云计算中分 布式处理技术,海量数据得存储与管理技术,NoSQ L、实时流数据处理、智能分析技术等都极 大支持了大数据 ,也促使了它得发展。但就是云计算与大数据也存在区别:云计算改变了大数 据,而大数据改变了业务层,两者得目标受众不同。
1 、 分布式处理技术
定义:分布式处理系统可以将不同地点得或具有不同功能得或拥有不同数据得多台计算机 用通信网络连接起来 ,在控制系统得统一管理控制下 ,协调地完成信息处理任务 .
在学习中,接触过hadoop⑹与storm⑶这两种分布式技术。在实际工作中常用h adoop来
处理大数据.M apreduce就是had oop得核心计算模式,它可以自动分割要执行得问题 (例如 程序)拆解成map (映射)与re duce (化简)得方式,在数据被分割后通过Map函数得程序将数 据映射成不同得区块,分配给计算机机处理达到分布式运算得效果 ,在通过Reduc e函数
得程序将结果汇整,从而输出开发者需要得结果.另外h i ve ,pig ,Hba s d心都大大提高了 hadoop得工作效率。
由于hadoop自身得可靠、高效、成本低得特性所决定了它在互联网中针对数据处理得 现实意义。
2 、 存储技术
大数据可以抽象得分为大数据存储与大数据分析 ,这两者得关系就是 :大数据存储得目得就 是支撑大数据分析 .到目前为止,还就是两种截然不同得计算机技术领域 :大数据存储致力于研 发可以扩展至P B甚至E B级别得数据存储平台[11];大数据分析关注在最短时间内处理大量不 同类型得数据集。
有一个著名得摩尔定律相信大家都听过: 18个月集成电路得复杂性就增加一倍.所以, 存储器得成本大约每 18-24 个月就下降一半。成本得不断下降也造就了大数据得可存储性 .
在云计算课程中,胡春明老师给我们讲解过go ogle得存储器就是基于在廉价服务器与普 通存储硬盘得基础上进行得扩大计算能力与存储能力 ,这大大降低了其服务成本;Am a zon S
3就是一种面向I nternet 得存储服务.该服务旨在让开发人员能更轻松得进行网络规模计 算。Amazon S 3[12]提供一个简明得 Web服务界面,用户可通过它随时在 Web上得任何位 置存储与检索得任意大小得数据。 此服务让所有开发人员都能访问同一个具备高扩展性、 可 靠性、安全性与快速价廉得基础设施,Am az on用它来运行其全球得网站网络精致的早安图片大全.再瞧瞧S3得设 计指标:在特定年度内为数据元提供 99、9999 9 9 99 9 %得耐久性与99、9 9% 得可用 性,并能够承受两个设施中得数据同时丢失
3、虚拟化
虚拟化得服务器不仅提高了服务器得利用率 ,给服务器以容量弹性调整 ,而且可以避免企业 在高峰期得“瘫痪” .但就是虚拟化也会带来数据安全性得忧患 ,应该对于虚拟化技术中数据得 共享与隔离予以严格界定。
三、 实际应用
当下,大数据似乎成了万灵药 ,从总统竞选到奥斯卡颁奖、从 web 安全到灾难预测 ,正如那句 俗语:当您手里有了锤子,什么都瞧上去像钉子。"当I T经理成功部署一套H ad oop系统后, 任何事瞧上去都与大数据有关(事实也就是如此 )。类似得事情在云计算得普及中也出现过, 一开始大家认为所有得 IT 都可以搬到云端 ,而现实就是我们依然需要虚拟化技术与基础设施。
综合大数据白皮书中得应用现状来瞧 ,大数据在商业智能、 政府服务与市场营销三个领域 得应用非常广泛 [13, 14]。
1、 商业智能
跑的笔顺过去几十年,分析师们都依赖来自 Hype r i on、Microstr a t e g y与C ogn o s得BI产品
[1 5 ]分析海量数据并生成报告。数据仓库与BI工具能够很好地回答类似这样得问题:今年五一高速公路免费吗某某人本季 度得销售业绩就是多少 ?”(基于结构化数据) ,但如果涉及决策与规划方面得问题,由于不能快 速处理非结构化数据,传统得 BI 会非常吃力与昂贵.
大多数传统 BI 工具都受到以下两个方面得局限:
首先,它们都就是 “预设 —抓取”工具,由分析师预先确定收集什么数据用于分析。
其次,它们都专注于报告 已知得未知”(Kn o wn u nknowns),也就就是我们知道问题就是 什么,然后去答案。(而大数据会给出一些未知得未知 ,也就就是您没有想到得一些问题得结 果)
传统BI工具主要用于企业运营,侧重于成本控制与计划执行报告。
而大数据技术最主要得功能/应用就是ET L(Ex t ract、T r a nsfo r m、Load)。将近80% 得H a doop应用都与12341234像首歌E TL有关,例如在导入Vert ica这样得分析数据库之前对日志文件或传 感器数据得处理。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论