大数据存储问题的三大技术难题解析
⼤数据存储问题的三⼤技术难题解析
⼤数据
在IT⾏业是与云计算并驾齐驱的另⼀⼤热门话题。“⼤数据”指的是那些数量巨⼤、难于收集、处理、分析的数据集,这就容易出现存储问题,本⽂介绍的容易出现的⼏⼤问题。
“⼤数据”通常指的是那些数量巨⼤、难于收集、处理、分析的数据集,亦指那些在传统基础设施中长期保存的数据。这⾥的“⼤”有⼏层含义,它可以形容组织的⼤⼩,⽽更重要的是,它界定了企业中IT基础设施的规模。业内对⼤数据应⽤寄予了⽆限的期望商业信息积累的越多价值也越⼤只不过我们需要⼀个⽅法把这些价值挖掘出来。
女酷
为什么现在要⼤数据?
与以往相⽐,我们除了有能⼒存储更多的数据量之外,还要⾯对更多的数据类型。这些数据的来源包括⽹上交易、⽹络社交活动、⾃动传感器、移动设备以及科学仪器等等。除了那些固定的数据⽣产源,各种交易⾏为还可能加快数据的积累速度。⽐如说,社交类多媒体数据的爆炸性增长就源于新的⽹上交易和记录⾏为。数据永远都在增长之中,但是,只有存储海量数据的能⼒是不够的,因为这并不能保证我们能够成功地从中搜寻出商业价值。
数据是重要的⽣产要素
信息时代,数据俨然已成为⼀种重要的⽣产要素,如同资本、劳动⼒和原材料等其他要素⼀样,⽽且作为⼀种普遍需求,它也不再局限于某些特殊⾏业的应⽤。各⾏各业的公司都在收集并利⽤⼤量的数据分析结果,尽可能的降低成本,提⾼产品质量、提⾼⽣产效率以及创造新的产品。例如,通过分析直接从产品测试现场收集的数据,能够帮助企业改进设计。此外,⼀家公司还可以通过深⼊分析客户⾏为,对⽐⼤量的市场数据,从⽽超越他的竞争对⼿。
存储技术须紧跟其后
随着⼤数据应⽤的爆发性增长,它已经衍⽣出了⾃⼰独特的架构,⽽且也直接推动了存储、⽹络以及计算技术的发展。毕竟处理⼤数据这种特殊的需求是⼀个新的挑战。硬件的发展最终还是由软件需求推动的,就这个例⼦来说,我们很明显的看到应⽤需求正在影响着数据存储基础设施的发展。
从另⼀⽅⾯看,这⼀变化对存储⼚商和其他IT基础设施⼚商未尝不是⼀个机会。随着结构化数据和⾮结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经⽆法满⾜⼤数据应⽤的需要。存储⼚商已经意识到这⼀点,他们开始修改基于块和⽂件的存储系统的架构设计以适应这些新的要求。在这⾥,我们会讨论哪些与⼤数据存储基础设施相关的属性,看看它们如何迎接⼤数据的挑战。
word行间距怎么调延迟问题
“⼤数据”应⽤还存在实时性的问题。特别是涉及到与⽹上交易或者⾦融类相关的应⽤。举个例⼦来说,⽹络成⾐销售⾏业的在线⼴告推⼴服务需要实时的对客户的浏览记录进⾏分析,并准确的进⾏⼴告投放。这就要求存储系统在必须能够⽀持上述特性同时保持较⾼的响应速度,因为响应延迟的结果是系统会推送“过期”的⼴告内容给客户。这种场景下,Scale-out架构的存储系统就可以发挥出优势,因为它的每⼀个节点都具有处理和互联组件,在增加容量的同时处理能⼒也可以同步增长。⽽基于对象的存储系统则能够⽀持并发的数据流,从⽽进⼀步提⾼数据吞吐量。
有很多“⼤数据”应⽤环境需要较⾼的IOPS性能,⽐如HPC⾼性能计算。此外,服务器虚拟化的普及也导致了对⾼IOPS的需求,正如它改变了传统IT环境⼀样。为了迎接这些挑战,各种模式的固态存储设备应运⽽⽣,⼩到简单的在服务器内部做⾼速缓存,⼤到全固态介质的可扩展存储系统等等都在蓬勃发展。家纺品牌
并发访问⼀旦企业认识到⼤数据分析应⽤的潜在价值,他们就会将更多的数据集纳⼊系统进⾏⽐较,同时让更多的⼈分享并使⽤这些数据。为了创造更多的商业价值,企业往往会综合分析那些来⾃不同平台下的多种数据对象。包括全局⽂件系统在内的存储基础设施就能够帮助⽤户解决数据访问的问题,全局⽂件系统允许多个主机上的多个⽤户并发访问⽂件数据,⽽这些数据则可能存储在多个地点的多种不同类型的存储设备上。
安全问题
某些特殊⾏业的应⽤,⽐如⾦融数据、医疗信息以及政府情报等都有⾃⼰的安全标准和保密性需求。虽然对于IT管理者来说这些并没有什么不同,⽽且都是必须遵从的,但是,⼤数据分析往往需要多类数据相互参考,⽽在过去并不会有这种数据混合访问的情况,因此⼤数据应⽤也催⽣出⼀些新的、需要考虑的安全性问题。
容量问题
这⾥所说的“⼤容量”通常可达到PB级的数据规模,因此,海量数据存储系统也⼀定要有相应等级的扩展能⼒。与此同时,存储系统的扩展⼀定要简便,可以通过增加模块或磁盘柜来增加容量,甚⾄不需要停机。基于这样的需求,客户现在越来越青睐Scale-out架构的存储。Scale-out集结构的特点是每个节点除了具有⼀定的存储容量之外,内部还具备数据处理能⼒以及互联设备,与传统存储系统的烟囱式架构完全不同,Scale-out架构可以实现⽆缝平滑的扩展,避免存储孤岛。
“⼤数据”应⽤除了数据规模巨⼤之外,还意味着拥有庞⼤的⽂件数量。因此如何管理⽂件系统层累积的元数据是⼀个难题,处理不当的话会影响到系统的扩展能⼒和性能,⽽传统的NAS系统就存在这⼀瓶颈。所幸的是,基于对象的存储架构就不存在这个问题,它可以在⼀个系统中管理⼗亿级别的⽂件数量,⽽且还不会像传统存储⼀样遭遇元数据管理的困扰。基于对象的存储系统还具有⼴域扩展能⼒,
可以在多个不同的地点部署并组成⼀个跨区域的⼤型存储基础架构。
成本问题
“⼤”,也可能意味着代价不菲。⽽对于那些正在使⽤⼤数据环境的企业来说,成本控制是关键的问题。想控制成本,就意味着我们要让每⼀台设备都实现更⾼的“效率”,同时还要减少那些昂贵的部件。⽬前,像重复数据删除等技术已经进⼊到主存储市场,⽽且现在还可以处理更多的数据类型,这都可以为⼤数据存储应⽤带来更多的价值,提升存储效率。在数据量不断增长的环境中,通过减少后端存储的消耗,哪怕只是降低⼏个百分点,都能够获得明显的投资回报。此外,⾃动精简配置、快照和克隆技术的使⽤也可以提升存储的效率。范思哲同名男士香水
开学第一课观后感初一
很多⼤数据存储系统都包括归档组件,尤其对那些需要分析历史数据或需要长期保存数据的机构来说,归档设备必不可少。从单位容量存储成本的⾓度看,磁带仍然是最经济的存储介质,事实上,在许多企业中,使⽤⽀持TB级⼤容量磁带的归档系统仍然是事实上的标准和惯例。
魔术电影对成本控制影响最⼤的因素是那些商业化的硬件设备。因此,很多初次进⼊这⼀领域的⽤户以及那些应⽤规模最⼤的⽤户都会定制他们⾃⼰的“硬件平台”⽽不是⽤现成的商业产品,这⼀举措可以⽤来平衡他们在业务扩展过程中的成本控制战略。为了适应这⼀需求,现在越来越多的存储产品都提供纯软件的形式,可以直接安装在⽤户已有的、通⽤的或者现成的硬件设备上。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。