⼗分钟了解⼤数据处理的五⼤关键技术及其应⽤
数据处理是对纷繁复杂的海量数据价值的提炼,⽽其中最有价值的地⽅在于预测性分析,即可以通过数据可视化、统计模式识别、数据描述等数据挖掘形式帮助数据科学家更好的理解数据,根据数据挖掘的结果得出预测性决策。其中主要⼯作环节包括:
1.⼤数据采集、
2.⼤数据预处理、
3.⼤数据存储及管理、
4.⼤数据分析及挖掘、
5.⼤数据展现和应⽤ (⼤数据检索、⼤数据可视化、⼤数据应⽤、⼤数据安全等)。
⼀、⼤数据采集技术
数据是指通过 RFID 射频数据、传感器数据、社交⽹络交互数据及移动互联⽹数据等⽅式获得的各种类型的结构化、半结构化 (或称之为弱结构化) 及⾮结构化的海量数据,是⼤数据知识服务模型的根本。重
点要突破分布式⾼速⾼可靠数据爬取或采集、⾼速数据全映像等⼤数据收集技术; 突破⾼速数据解析、转换与装载等⼤数据整合技术; 设计质量评估模型,开发数据质量技术。
⼤数据采集⼀般分为:
•1) ⼤数据智能感知层:主要包括数据传感体系、⽹络通信体系、传感适配体系、智能识别体系及软硬件资源接⼊系统,实现对结构化、半结构化、⾮结构化的海量数据的智能化识别、定位、跟踪、接⼊、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对⼤数据源的智能识别、感知、适配、传输、接⼊等技术。
•2) 基础⽀撑层:提供⼤数据服务平台所需的虚拟服务器,结构化、半结构化及⾮结构化数据的数据库及物联⽹络资源等基础⽀撑环境。重点攻克分布式虚拟存储技术,⼤数据获取、存储、组织、分析和决策操作的可视化接⼝技术,⼤数据的⽹络传输与压缩技术,⼤数据隐私保护技术等。
⼆、⼤数据预处理技术
完成对已接收数据的辨析、抽取、清洗等操作。
秸秆瓦•1) 抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单⼀的或者便于处理的构型,以达到快速分析处理的⽬的。
•2) 清洗:对于⼤数据,并不全是有价值的,有些数据并不是我们所关⼼的内容,⽽另⼀些数据则是完全错误的⼲扰项,因此要对数据通过过滤 “去噪” 从⽽提取出有效数据。
三、⼤数据存储及管理技术
⼤数据存储与管理要⽤存储器把采集到的数据存储起来,建⽴相应的数据库,并进⾏管理和调⽤。重点解决复杂结构化、半结构化和⾮结构化⼤数据管理与处理技术。主要解决⼤数据的可存储、可表⽰、可处理、可靠性及有效传输等⼏个关键问题。开发可靠的分布式⽂件系统 (DFS)、能效优化的存储、计算融⼊存储、⼤数据的去冗余及⾼效低成本的⼤数据存储技术; 突破分布式⾮关系型⼤数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究⼤数据建模技术; 突破⼤数据索引技术; 突破⼤数据移动、备份、复制等技术; 开发⼤数据可视化技术。
开发新型数据库技术,数据库分为关系型数据库、⾮关系型数据库以及数据库缓存系统。其中,⾮关系型数据库主要指的是 NoSQL 数据库,分为:键值数据库、列存数据库、图存数据库以及⽂档数据库等类型。关系型数据库包含了传统关系数据库系统以及 NewSQL 数据库。
开发⼤数据安全技术:改进数据销毁、透明加解密、分布式访问控制、数据审计等技术; 突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。
四、⼤数据分析及挖掘技术
⼤数据分析技术:改进已有数据挖掘和机器学习技术; 开发数据⽹络挖掘、特异组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等⼤数据融合技术; 突破⽤户兴趣分析、⽹络⾏为分析、情感语义分析等⾯向领
馒头的来历突破基于对象的数据连接、相似性连接等⼤数据融合技术; 突破⽤户兴趣分析、⽹络⾏为分析、情感语义分析等⾯向领域的⼤数据挖掘技术。
数据挖掘就是从⼤量的、不完全的、有噪声的、模糊的、随机的实际应⽤数据中,提取隐含在其中的、⼈们事先不知道的、但⼜是潜在有⽤的信息和知识的过程。
数据挖掘涉及的技术⽅法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等; 根据挖掘对象可分为关系数据库、⾯向对象数据库、空间数据库、时态数据库、⽂本数据源、多媒体数据库、异质数据库、遗产数据库以及环球⽹ Web; 根据挖掘⽅法分,可粗分为: 机器学习⽅法、统计⽅法、神经⽹络⽅法和数据库⽅法。
机器学习中,可细分为归纳学习⽅法 (决策树、规则归纳等)、基于范例学习、遗传算法等。统计⽅法中,可细分为: 回归分析 (多元回归、⾃回归等)、判别分析 (贝叶斯判别、费歇尔判别、⾮参数判别等)、聚类分析 (系统聚类、动态聚类等)、探索性分析 (主元分析法、相关分析法等) 等。神经⽹络⽅法
中,可细分为: 前向神经⽹络 (BP 算法等)、⾃组织神经⽹络 (⾃组织特征映射、竞争学习等) 等。数据库⽅法主要是多维数据分析或 OLAP ⽅法,另外还有⾯向属性的归纳⽅法。
数据挖掘主要过程是:根据分析挖掘⽬标,从数据库中把数据提取出来,然后经过 ETL 组织成适合分析挖掘算法使⽤宽表,然后利⽤数据挖掘软件进⾏挖掘。传统的数据挖掘软件,⼀般只能⽀持在单机上进⾏⼩规模数据处理, 受此限制传统数据分析挖掘⼀般会采⽤抽样⽅式来减少数据分析规模。
数据挖掘的计算复杂度和灵活度远远超过前两类需求。⼀是由于数据挖掘问题开放性,导致数据挖掘会涉及⼤量衍⽣变量计算,衍⽣变量多变导致数据预处理计算复杂性; ⼆是很多数据挖掘算法本⾝就⽐较复杂,计算量就很⼤,特别是⼤量机器学习算法,都是迭代计算,需要通过多次迭代来求最优解,例如 K-means 聚类算法、PageRank 算法等。
从挖掘任务和挖掘⽅法的⾓度,着重突破:
•1) 可视化分析。数据可视化⽆论对于普通⽤户或是数据分析专家,都是最基本的功能。数据图像化可以让数据⾃⼰说话,让⽤户直观的感受到结果。
•2) 数据挖掘算法。图像化是将机器语⾔翻译给⼈看,⽽数据挖掘就是机器的母语。分割、集、孤⽴点分析还有各种各样五花⼋门的算法让我们精炼数据,挖掘价值。这些算法⼀定要能够应付⼤数据的量,同时还具有很⾼的处理速度。
•3) 预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出⼀些前瞻性判断。
•4) 语义引擎。语义引擎需要设计到有⾜够的⼈⼯智能以⾜以从数据中主动地提取信息。语⾔处理技术包括机器翻译、情感分析、舆情分析、智能输⼊、问答系统等。
•5) 数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进⾏处理可以确保获得⼀个预设质量的分析结果。
预测分析成功的 7 个秘诀
预测未来⼀直是⼀个冒险的命题。幸运的是,预测分析技术的出现使得⽤户能够基于历史数据和分析技术 (如统计建模和机器学习) 预测未来的结果,这使得预测结果和趋势变得⽐过去⼏年更加可靠。
尽管如此,与任何新兴技术⼀样,想要充分发挥预测分析的潜⼒也是很难的。⽽可能使挑战变得更加复杂的是,由不完善的策略或预测分析⼯具的误⽤导致的不准确或误导性的结果可能在⼏周、⼏个⽉甚⾄⼏年内才会显现出来。
预测分析有可能彻底改变许多的⾏业和业务,包括零售、制造、供应链、⽹络管理、⾦融服务和医疗保健。AI ⽹络技术公司 Mist Systems 的联合创始⼈、⾸席技术官 Bob fridy 预测:“深度学习和预测性 AI 分析技术将会改变我们社会的所有部分,就像⼗年来互联⽹和蜂窝技术所带来的转变⼀样。”。
这⾥有七个建议,旨在帮助您的组织充分利⽤其预测分析计划。
1. 能够访问⾼质量、易于理解的数据
预测分析应⽤程序需要⼤量数据,并依赖于通过反馈循环提供的信息来不断改进。全球 IT 解决⽅案和服务提供商Infotech 的⾸席数据和分析官 Soumendra Mohanty 评论道:“数据和预测分析之间是相互促进的关系。”
了解流⼊预测分析模型的数据类型⾮常重要。“⼀个⼈⾝上会有什么样的数据?” Eric Feigl – Ding 问道,他是流⾏病学家、营养学家和健康经济学家,⽬前是哈佛陈⽒公共卫⽣学院的访问科学家。“是每天都在 Facebook 和⾕歌上收集的实
家、营养学家和健康经济学家,⽬前是哈佛陈⽒公共卫⽣学院的访问科学家。“是每天都在 Facebook 和⾕歌上收集的实时数据,还是难以访问的医疗记录所需的医疗数据?” 为了做出准确的预测,模型需要被设计成能够处理它所吸收的特定类型的数据。
卜的拼音简单地将⼤量数据扔向计算资源的预测建模⼯作注定会失败。“由于存在⼤量数据,⽽其中⼤部分数据可能与特定问题⽆关,只是在给定样本中可能存在相关关系,”FactSet 投资组合管理和交易解决⽅案副总裁兼研究主管 Henri Waelbroeck 解释道,FactSet 是⼀家⾦融数据和软件公司。“如果不了解产⽣数据的过程,⼀个在有偏见的数据上训练的模型可能是完全错误的。”
2. 到合适的模式
SAP ⾼级分析产品经理 Richard Mooney 指出,每个⼈都痴迷于算法,但是算法必须和输⼊到算法中的数据⼀样好。“如果不到适合的模式,那么他们就毫⽆⽤处,” 他写道。“⼤多数数据集都有其隐藏的模式。”
模式通常以两种⽅式隐藏:
•1) 模式位于两列之间的关系中。例如,可以通过即将进⾏的交易的截⽌⽇期信息与相关的电⼦邮件开盘价数据进⾏⽐较来发现⼀种模式。Mooney 说:“如果交易即将结束,电⼦邮件的公开率应该会⼤幅提⾼,因为买⽅会有很多⼈需要阅读并审查合同。”
•2) 模式显⽰了变量随时间变化的关系。 “以上⾯的例⼦为例,了解客户打开了 200 次电⼦邮件并不像知道他们在上周打开了 175 次那样有⽤,”Mooney 说。
3 . 专注于可管理的任务,这些任务可能会带来积极的投资回报
纽约理⼯学院的分析和商业智能主任 Michael Urmeneta 称:“如今,⼈们很想把机器学习算法应⽤到海量数据上,以期获得更深刻的见解。” 他说,这种⽅法的问题在于,它就像试图⼀次治愈所有形式的癌症⼀样。Urmeneta 解释说:“这会导致问题太⼤,数据太乱——没有⾜够的资⾦和⾜够的⽀持。这样
化妆都需要什么是不可能获得成功的。”
高考作文技巧⽽当任务相对集中时,成功的可能性就会⼤得多。Urmeneta 指出:“如果有问题的话,我们很可能会接触到那些能够理解复杂关系的专家” 。“这样,我们就很可能会有更清晰或更好理解的数据来进⾏处理。”
4. 使⽤正确的⽅法来完成⼯作
好消息是,⼏乎有⽆数的⽅法可以⽤来⽣成精确的预测分析。然⽽,这也是个坏消息。芝加哥⼤学 NORC (前国家意见研究中⼼) 的⾏为、经济分析和决策实践主任 Angela Fontes 说:“每天都有新的、热门的分析⽅法出现,使⽤新⽅法很容易让⼈兴奋”。“然⽽,根据我的经验,最成功的项⽬是那些真正深⼊思考分析结果并让其指导他们选择⽅法的项⽬——即使最合适的⽅法并不是最性感、最新的⽅法。”
罗切斯特理⼯学院计算机⼯程系主任、副教授 shanchie Jay Yang 建议说:“⽤户必须谨慎选择适合他们需求的⽅法”。“必须拥有⼀种⾼效且可解释的技术,⼀种可以利⽤序列数据、时间数据的统计特性,然后将其外推到最有可能的未
来,”Yang 说。
5. ⽤精确定义的⽬标构建模型
这似乎是显⽽易见的,但许多预测分析项⽬开始时的⽬标是构建⼀个宏伟的模型,却没有⼀个明确的最终使⽤计划。“有很多很棒的模型从来没有被⼈使⽤过,因为没有⼈知道如何使⽤这些模型来实现或提供价值,” 汽车、保险和碰撞修复⾏业的 SaaS 提供商 CCC 信息服务公司的产品管理⾼级副总裁 Jason Verlen 评论道。
对此,Fontes 也表⽰同意。“使⽤正确的⼯具肯定会确保我们从分析中得到想要的结果……” 因为这迫使我们必须对⾃⼰的⽬标⾮常清楚,” 她解释道。“如果我们不清楚分析的⽬标,就永远也不可能真正得到我们想要的东西。”
6. 在 IT 和相关业务部门之间建⽴密切的合作关系
在业务和技术组织之间建⽴牢固的合作伙伴关系是⾄关重要的。客户体验技术提供商 Genesys 的⼈⼯智能产品管理副总裁 Paul lasserr 说:“你应该能够理解新技术如何应对业务挑战或改善现有的业务环境。” 然后,⼀旦设置了⽬标,就可以在⼀个限定范围的应⽤程序中测试模型,以确定解决⽅案是否真正提供了所需的价值。
7. 不要被设计不良的模型误导
农村房屋拆补偿模型是由⼈设计的,所以它们经常包含着潜在的缺陷。错误的模型或使⽤不正确或不当的数据构建的模型很容易产⽣误导,在极端情况下,甚⾄会产⽣完全错误的预测。
没有实现适当随机化的选择偏差会混淆预测。例如,在⼀项假设的减肥研究中,可能有 50% 的参与者选择退出后续的体重测量。然⽽,那些中途退出的⼈与留下来的⼈有着不同的体重轨迹。这使得分析变得复杂,因为在这样的研究中,那些坚持参加这个项⽬的⼈通常是那些真正减肥的⼈。另⼀⽅⾯,戒烟者通常是那些很少或根本没有减肥经历的⼈。因此,虽然减肥在整个世界都是具有因果性和可预测性的,但在⼀个有 50% 退出率的有限数据库中,实际的减肥结果可能会被隐藏起来。
六、⼤数据展现与应⽤技术
⼤数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为⼈类的社会经济活动提供依据,从⽽提⾼各个领域的运⾏效率,⼤⼤提⾼整个社会经济的集约化程度。
在我国,⼤数据将重点应⽤于以下三⼤领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电⽹数据信息处理与挖掘技术,⽓象信息分析技术,环境监测技术,警务云应⽤系统(道路监控、视频监控、⽹络监控、智能交通、反电信、指挥调度等公安信息系统),⼤规模基因序列分析⽐对技术,Web 信息挖掘技术,多媒体数据并⾏化处理技术,影视制作渲染技术,其他各种⾏业的云计算和海量数据处理应⽤技术等。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论