大数据平台的关键技术
下雪短信组长:
小组成员:
2014年3月16日
一、综述
1.1 大数据的特征
随着人类对自然和社会认识地进一步加深及人类活动的进一步扩展,科学研究、互联网应用、电子商务、移动运营商等诸多应用领域产生了多种多样的数量巨大的数据。大数据(BigData)的出现对传统的数据存储、数据处理及数据挖掘提出了新的挑战,同时也深刻地影响着人类的生活、工作及思维。传统的数据存储方法、关系数据库、数据处理和数据分析方法已不能满足当前的需要。给出的大数据的定义如下:巨量数据(或称大数据
、海量资料),指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理,并整理成为帮助企业经营决策更积极的资讯。
目前工业界普遍认为大数据具有4V+1C 的特征:
(1)数据量大(Volume)。 存储的数据量巨大,拍字节级别是常态,因而对其分析的计算量也大。
(2)多样(Variety )。 数据的来源及格式多样,数据格式除了传统的格式化数据外,还包括半结构化或非结构化数据,比如用户上传的音频和视频内容,而随着人类的活动的进一步拓宽,数据的来源更加多样。
(3)快速(Velocity)。 数据增长速度快,同时要求对数据的处理速度也要快,以便能够从数据中及时地提取知识,发现价值。
(4)价值密度低(Value)。 需要对大量的数据处理挖掘其潜在的价值,因而,大数据对我们提出的明确要求是设计一种在成本可接受的条件下,通过快速采集、发现和分析从大量、多种类别的数据中提取价值的体系架构。
(5)复杂度(Complexity)。 对数据的处理和分析难度大。
1.2 大数据时代的来临
因特尔创始人戈登·摩尔(GordonMoore)在1965 年提出了著名的“摩尔定律”:即当价格不变时,集成电路上可容纳的晶体管数目,约每隔18 个月便会增加1 倍,性能也将提升1 倍。1998 年图灵奖获得者杰姆·格雷(JimGray )提出著名的“新摩尔定律”:每18 个月全球新增信息量是计算机有史以来全部信息量的总和。我们可以将新摩尔定律同1439年前后古登堡发明印刷机时造成的信息爆炸作对比:在1453 —1503 年这50 年间大约印刷了800 万本书籍,比1200 年之前君士坦丁堡建立以来整个欧洲所有手抄书还要多,即50 年内欧洲的信息增长了1倍;而现在的数据增长速度则是每18个月全球信息总量翻一番。图1 可以清楚地看到大数据的增长,图2 是IDC 公司对未来全球数据总量的预测,图3 则表明了大数据正在日益成为人们关注的焦点。我们已经进入到大数据时代。
1.3 本文结构
本文剖析了大数据处理的过程,从大数据的采集、大数据的预处理、大数据存储、大数据挖掘等四个方面来详细介绍,最后解析了大数据的机遇和挑战。
二、大数据采集
洋气女孩名字大全2.1 采集定义
大数据的采集是指将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。并且利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,用户可以通过这些数据库来进行简单的查询和处理工作。
2.2 采集技术
“大数据”,故名思议就是数据量比较大,单位一般用TB来计。传统的数据采集方法如:网络在一起在一起在一起在一起是什么歌
调查、留置问卷调查、邮寄问卷调查等适合数据需要量较小的采集,但还不能胜任大数据技术的要求。由于传统的数据采集方法已经满足不了大数据采集工作的要求,所以开发者们在传统的数据采集方法上采用可一些新的数据采集方法,其中比较典型的有系统日志采集方法和网络数据采集方法。下面给予采集方法方面的一些简介:
2.2.1 系统日志采集方法
日志文件能够详细记录系统每天发生的各种各样的事件,对网络安全起着非常的重要作用。网络中心有大量安全设备,将所有的安全设备逐个查看是非常费时费力的。另外,由于安全设备的缓存器以先进先出的队列模式处理日志记录,保存时间不长的记录将被刷新,一些重要的日志记录有可能被覆盖。因此在日常网络安全管理中应该建立起一套有效的日志数据采集方法,将所有安全设备的日记录汇总,进行统一管理。
优点:
数据信息完整性强,便于管理和查询,从中提取出有用的日志信息供网络安全管理方面使用,及时发现有关安全设备在运行过程中出现的安全问题,以便更好地保证网络正常运行。
村居古诗的意思全解
缺点:
数据信息量较大,在选择时无用信息量较多,在分析和处理前必须先进行大量的数据筛选和过滤,需要投入的人力物力较多。
2.2.2 网络数据采集方法
此方法主要用于非结构化数据的采集,是指利用互联网搜索引擎技术实现有针对性、行业性、精准性的数据抓取,并按照一定规则和筛选标准进行数据归类,并形成数据库文件的一个过程。目前网络数据采集采用的技术基本上是利用垂直搜索引擎技术的网络蜘蛛(或数据采集机器人)、分词系统、任务与索引系统等技术进行综合运用而完成。随着互联网技术的发展和网络海量信息的增长,对信息的获取与分拣成为一种越来越大的需求。人们一般通过以上技术将海量信息和数据采集回后,进行分拣和二次加工,实现网络数据价值与利益更大化、更专业化的目的。
优点:
支持自定义表单、自适应采集、集采集、仿人工式的随机采集数据、各种排重过滤等
功能;且其数据来源广,信息量丰富。
缺点:
信息真实性存在争议,信息太多,过滤量较大,给数据采集工作增加工作量。
2.2.3 特定方法
对于企业生产经营数据或学科研究数据等保密性要求较高的数据,可以通过与企业或研究机构合作,使用特定系统接口等相关方式采集数据。
三、数据预处理技术
在收集的原始数据中,存在着大量的杂乱性、重复性和不完整性问题,这些问题便给后面的数据分析和数据挖掘带来不少难题。因此,对数据进行预处理显得尤为关键。数据预处理不仅保证了挖掘数据的正确性和有效性,而且通过对数据格式和内容的调整,使数据更符合挖掘的需要,即清除与数据分析、挖掘无关的项,给挖掘算法提供更高质量的数据。
keep childlike通常数据预处理分为数据清理、数据集成、数据变换和数据归约四个部分。
数据清理是要去除源数据集中包含的噪声数据和无关数据,处理遗漏数据和清洗脏数据等,解决现实世界数据不干净、不完整和不一致的问题。主要包括重复数据处理和缺值数据处理,并完成一些数据类型的转换。
数据集成主要是将来自不同数据源的数据整合成一致的数据存储。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处理问题,并非是简单的数据合并,而是把数据进行统一化和规范化处理后形成最初始的挖掘数据的复杂过程。
数据变换主要是将数据转换成适合挖掘的形式,包括平滑、聚类、规范化、属性构造等操作。能大量减少元组数量,提高计算效率。同时也提高了数据挖掘的起点,使得一个算法能够发现多层次的知识,适应不同应用的需要。也可以通过数据仓库技术的多维立方体来组织数据。
数据归约是对数据处理的技术,如数据立方体聚集、维归约、数据压缩、数值归约和离散化都可以用来得到数据的归约表示,而使得信息内容的损失最小。
四、大数据存储技术
3.1 存储管理数据的背景2022年是第几个三八国际劳动妇女节
大数据平台的关键技术之一是大数据存储及管理技术。近年来,随着IT行业的蓬勃发展,各种社交网站如雨后春笋般呈现在人们眼前,企业对数据处理的需求日益增长,由此催生了海量的信息,美国互联网数据中心指出,互联网上的数据每年将增长50%,每两年便将翻一番,面对庞大的信息量,如何存储及管理这些数据非常重要。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论